人脸识别——亚洲人脸数据集

这学期开了Python课，刚开始的时候老师给了几个课程设计的选题，其中有一个是人脸识别，脑子抽风选了它。现在将自己制作的数据集分享出来，规模不是很大，共两万多张图片，希望可以帮到需要亚洲人脸识别数据的朋友。

数据集所有数据均收集自网络，图片所有权为原网站，如果您发现侵权的内容，请与我取得联系，将第一时间删除。
邮箱：oxygen@weingxing.cn

看了一些资料和文献，决定使用FaceNet实现，网上也找到了预训练模型，但是对于识别亚洲人脸的精度似乎并不高，于是萌生了自己训练模型的念头。

训练模型自然需要数据来支撑，网上翻了好几天，只找到中科院的Casia-FaceV5数据集，但是这个数据集太小了，只有500个人的2500张图片，于是干脆自己做个数据集算了。根据论文《大规模亚洲人脸数据集的构建》的大体思想（没有进行数据集打分），使用爬虫爬取明星等公众人物的图片，然后进行清洗，经过层层筛选，得到一个相对干净、规模较大（理论上可以很大，但迫于我的算力有限，太大的数据集短时间内处理不完）的数据集。

爬虫程序放在博客的VPS上爬取了5000个人的图片40000多张图片，经过打包后大小为5GB+，无奈服务器1M小水管，下载了一天才把爬到的数据从服务器下载到本地。

经过清洗，删除了损坏的文件、没有人脸的图片、有多个人脸的图片、同一类别下其他人的图片（如张三文件夹下李四的图片，借助百度的人脸比对api清洗），还剩4029个人的21673张图片。压缩后大小为2.3GB。

数据集预览

下载地址

目前传到了百度网盘中（链接挂了文末评论踢我一下，我回来更新链接），但百毒网盘有毒，所以往OneDrive和Google Drive也传一份。自行选择最优的链接下载吧。

百度网盘（提取码：vmcf）

OneDrive（链接已挂）

Google云盘

12条评论

Comments | 12条评论

AICHEN

回复

2022年02月18日

博主能重新上一下百度链接吗
1. 迟於
  
  回复
  
  2022年02月18日
  
  @AICHEN : 已更新，不过有时间的话还是建议重新爬取一份，我这份类内数据有点少。
  爬虫代码：https://cdn.weingxing.cn/getData.zip
  链接：https://pan.baidu.com/s/19S_BPL-UPDj8XaN9j1eTtw
  提取码：vmcf
马海荣

回复

2022年02月18日

百度挂了
1. 迟於
  
  回复
  
  2022年02月18日
  
  @马海荣 : 已更新
CFANYYX

回复

2021年12月02日

博主辛苦了，感谢分享！！
Fits

回复

2021年07月08日

你好博主，之前的代码链接好像失效了，可以再分享一下吗，顺便想了解您是从那里爬取的图片，谢谢~
1. 楓の街
  
  回复
  
  2021年07月16日
  
  @Fits : 这个数据集不是特别好，我当时爬的类内数据太少了，建议重新爬取，同一个人的多爬一些，比如每个人爬100张，之后在进行清洗数据集下载：https://cdn.mapletown.xyz/face.zip
  爬虫源码：https://cdn.mapletown.xyz/getData_face.zip
  1. Fits
    
    回复
    
    2021年07月18日
    
    @楓の街 : 谢谢博主！
Vincent

回复

2020年06月27日

你好博主，可以分享下爬虫文件吗
1. 楓の街
  
  回复
  
  2020年06月27日
  
  @Vincent : 爬虫代码：https://pan.mapletown.xyz/show/get_data.zip
  1. Vincent
    
    回复
    
    2020年06月29日
    
    @楓の街 : 谢谢大佬
2. 楓の街
  
  回复
  
  2020年06月27日
  
  @Vincent : 可以的，晚上我整理一下再在这里回复你

人脸识别——亚洲人脸数据集

人脸识别——亚洲人脸数据集

数据集预览

下载地址

【深度学习笔记】神经网络的学习(2)

【深度学习笔记】神经网络的学习（1）

迟於

Comments | 12条评论

AICHEN

迟於

马海荣

迟於

CFANYYX

Fits

楓の街

Fits

Vincent

楓の街

Vincent

楓の街