一、基本要求
一、验收标准
-
数据量级要求:指定时间范围(2024年1月1日后)所有新帖文章(全量文本数据),需要根据最终量级评估以及报价进行综合评判最终需求量级。
验证方案:按照去重后有效量级进行验证。 -
合格率要求:随机抽取一定比例数据进行验收,数据合格率≥90%,则符合合格率要求;合格率<90%,则不符合合格率要求,需返修。
说明:数据量级<80% 或 合格率<90%,共给予2次返修机会,返修周期T+1天,若仍不达标则整批次不予结算。 -
交付周期:按周分批次返回,最终交付节点2026年8月30日(超过交付周期时间按照半价折算),具体交付计划根据最终量级测算。
-
去重结算逻辑:源内去重(按照单条数据的URL链接绝对去重,结算不重复数据)。
-
数据传输方式:全程硬盘交付,规避数据传输风险。
保证源网页信息完整的情况下按如下二、三点制作要求,以下信息未单独提及默认跟源网页保持一致即可。
验收要求
- 按批次进行随机抽检100-200条,需要达到交付标准,无法达到交付标准(批次抽检合格率低于95%)则按批次退回返修,返修时间不能超过3天;最多打回三次,不达标不予结算。
- 所有数据需要带上时间戳,目前只需要2024/01/01时间节点后新增数据。
二、返回数据类型及必要文件
返回格式:jsonl
{"title":"标题","answer":"文本内容","tag":"标签内容","likes":"点赞数","collect":"收藏量","URL":"对应网址","date":"时间戳"}
三、交付标准
基础要求(所有数据均要满足)
- 没有混杂、乱码、缺失、特殊字符;格式正常。
- 不存在截断问题,文本内容需完整。
- 无敏感词汇,无安全风险(涉政、色情等)。
- 图片、视频等信息需替换处理,或标记;有效文本内容中不得超过3张图片。
特殊要求(XHS)
- 每条数据需要带上点赞数量、评论数量、收藏数据量。
- 文本内容字数限制:大于50字,不设置上限。
- 点赞数量需要大于1。
四、不合格数据示例
-
混杂、乱码、特殊字符
htps/ww.xaohogsh.co/elore
80/ g h 051//5ms scdn.com/ cdn.c pect m/spectrum -
缺失内容
“title”:“啊!原来们约直播注量是因为做了…” -
截断、不完整
| 你好,乙状结肠癌08年三月手术 | 你好上述病人的情况可以根据病情变化是需要去复查的的 |
| — | — | -
敏感或违规内容
| 我12岁男 | 她们心里巴不得多看到你的生殖器呢,不用解释。 |
| — | — |
| 我门楼发生火灾,晚上裸体跑出来了,被好多同龄女孩同学看见了,该怎么和他们 | -
图片、视频等信息未替换处理,或标记