这学期开了Python课,刚开始的时候老师给了几个课程设计的选题,其中有一个是人脸识别,脑子抽风选了它。现在将自己制作的数据集分享出来,规模不是很大,共两万多张图片,希望可以帮到需要亚洲人脸识别数据的朋友。
数据集所有数据均收集自网络,图片所有权为原网站,如果您发现侵权的内容,请与我取得联系,将第一时间删除。
看了一些资料和文献,决定使用FaceNet实现,网上也找到了预训练模型,但是对于识别亚洲人脸的精度似乎并不高,于是萌生了自己训练模型的念头。
训练模型自然需要数据来支撑,网上翻了好几天,只找到中科院的Casia-FaceV5数据集,但是这个数据集太小了,只有500个人的2500张图片,于是干脆自己做个数据集算了。根据论文《大规模亚洲人脸数据集的构建》的大体思想(没有进行数据集打分),使用爬虫爬取明星等公众人物的图片,然后进行清洗,经过层层筛选,得到一个相对干净、规模较大(理论上可以很大,但迫于我的算力有限,太大的数据集短时间内处理不完)的数据集。
爬虫程序放在博客的VPS上爬取了5000个人的图片40000多张图片,经过打包后大小为5GB+,无奈服务器1M小水管,下载了一天才把爬到的数据从服务器下载到本地。
经过清洗,删除了损坏的文件、没有人脸的图片、有多个人脸的图片、同一类别下其他人的图片(如张三文件夹下李四的图片,借助百度的人脸比对api清洗),还剩4029个人的21673张图片。压缩后大小为2.3GB。
数据集预览
下载地址
目前传到了百度网盘中(链接挂了文末评论踢我一下,我回来更新链接),但百毒网盘有毒,所以往OneDrive和Google Drive也传一份。自行选择最优的链接下载吧。
AICHEN
博主能重新上一下百度链接吗
迟於
@AICHEN : 已更新,不过有时间的话还是建议重新爬取一份,我这份类内数据有点少。
爬虫代码:https://cdn.weingxing.cn/getData.zip
链接:https://pan.baidu.com/s/19S_BPL-UPDj8XaN9j1eTtw
提取码:vmcf
马海荣
百度挂了
迟於
@马海荣 : 已更新
CFANYYX
博主辛苦了,感谢分享!!
Fits
你好博主,之前的代码链接好像失效了,可以再分享一下吗,顺便想了解您是从那里爬取的图片,谢谢~
楓の街
@Fits : 这个数据集不是特别好,我当时爬的类内数据太少了,建议重新爬取,同一个人的多爬一些,比如每个人爬100张,之后在进行清洗数据集下载:https://cdn.mapletown.xyz/face.zip
爬虫源码:https://cdn.mapletown.xyz/getData_face.zip
Fits
@楓の街 : 谢谢博主!
Vincent
你好博主,可以分享下爬虫文件吗
楓の街
@Vincent : 爬虫代码:https://pan.mapletown.xyz/show/get_data.zip
Vincent
@楓の街 : 谢谢大佬
楓の街
@Vincent : 可以的,晚上我整理一下再在这里回复你