【图像格式】
短边分辨率要求:大于等于4096
长宽比要求:长边与短边的比例不大于2
png或jpg格式要求:均可
【图像来源&质量】
1、图像来源要求:自有或自收集或自采集图片,禁止使用AI生成图片、禁止通过算法超分达到分辨率要求。
2、图像质量要求:1)人像主体清晰,主体明确,不要运动模糊、完全失焦、过暗、过曝的图片。2)图像收集时应保证exif信息不损坏,整体数据中带有exif信息的图片比例应超过50%。(3) 无明显水印,数据含水印比例小于3%。
3、数据安全:
敏感内容:无涉黄,无涉恐,无政治敏感内容,无宗教敏感信息。
4、数据授权:
数据主体与图片涉及人物一致,直接随内容一起交付一份与文件映射的授权文件。
5、重复率:
合作方提供的数据自身不允许重复,不允许与公司内部数据重复。抽检重复率<3%则通过。
【文本格式】
文本描述包含的字段:记录所有图像信息的原生文本,包括标签、原始描述和画面内容描述,这三种跟随图像伴生的文本信息。
json或txt格式要求:json
【文本来源&质量】
文本来源要求:原始数据自带的描述信息或人工描述的标签或文本。
文本内容要求:中文或英文(一种语言即可),画面主体性别、人种、发型、发色、服装、姿势的描述性文本或记录图片特点的标签,标签和文本描述均应至少包括发型、服装和姿势的描述。
文本字数要求:描述示例,以 ; 隔开:一个穿着黑色西装和领结的短发小男孩,他手里拿着一本白色的书,书上有一些金色的装饰和文字;三个人,一个成年人和两个小孩,成年人穿着裙子,长棕色头发,两个小孩都穿着蓝色裙子,长黑发;小学生、校服、短发、黑发、跳舞;长度不做特殊限制。
【数据分布】
数据分布要求:
- 按年龄、性别、人种均匀分布,覆盖不同发型、发色、服装、姿势等。【单人可以拍摄多张图,不限制数量,单人拍摄多张不认为重复,仅图像内容完全一样时视为重复】
- 婚纱照的比例应该小于10%,画面包含人手的比例应该超过60%。
- 全景、中景、近景等景别的比例均不低于10%。
指令类型要求:描述图片,准确即可