一、基本要求
一、验收标准
-
数据量级要求:指定时间范围(2025年1月1日后)所有新帖文章,预估量级10000W条(需要根据最终量级评估以及报价进行综合评判最终需求量级)。
验证方案:按照去重后有效量级进行验证。 -
合格率要求:随机抽取一定比例数据进行验收,数据合格率≥90%,则符合合格率要求;合格率<90%,则不符合合格率要求,需返修。
说明:数据量级<80% 或 合格率<90%,共给予2次返修机会,返修周期T+1天,若仍不达标则整批次不予结算。 -
交付周期:按周分批次返回,最终交付节点2026年8月30日(超过交付周期时间按照半价折算),具体交付计划根据最终量级测算。
-
去重结算逻辑:源内去重(按照单条数据的URL链接绝对去重,结算不重复数据)。
-
数据传输方式:全程硬盘交付,规避数据传输风险。
保证源网页信息完整的情况下按如下二、三点制作要求,以下信息未单独提及默认跟源网页保持一致即可。
验收要求
- 按批次进行随机抽检100-200条,需要达到交付标准,无法达到交付标准(批次抽检合格率低于95%)则按批次退回返修,返修时间不能超过3天;最多打回三次,不达标不予结算。
- 所有数据需要带上时间戳,目前只需要2025/01/01时间节点后新增数据。
二、返回数据类型及必要文件
返回格式:jsonl
1. ZH 专栏
{"title":"问题","answer":"文章内容","likes":"点赞数","collect":"收藏量","comments":"评论数量","URL":"对应网址","date":"时间戳"}
2. ZH 问答
{"title":"问题","answers":[{"answer":"答案一","likes":"点赞数","collect":"收藏量","date":"时间戳"},{"answer":"答案二",……},……],"URL":"对应网址"}
三、交付标准
基础要求(所有数据均要满足)
- 没有混杂、乱码、缺失、特殊字符;格式正常。
- 不存在截断问题,文本内容需完整。
- 无敏感词汇,无安全风险(涉政、色情等)。
- 图片、视频等信息需替换处理,或标记;有效文本内容中不得超过3张图片。
特殊要求
ZH 专栏
- 每条数据需要带上点赞数量、评论数量、收藏数据量,回答时间要求在25年后更新的。
- 点赞数量需要大于1。
ZH 问答
- 时间戳以交付回答时间为准,一条问题需要带上至少5个回答(不足则需要全部回答);回答时间要求在25年后更新的,问题浏览量需要大于100。
- 每个答案需要带上点赞数量且大于2。
四、不合格数据示例
-
混杂、乱码、特殊字符
H -
缺失内容
“title”:“啊!原来她们的直播量是因为了…” -
截断、不完整
| 你好,乙状结肠癌08年三月手术 | 你好上述病人的情况可以根据病情变化是需要去复查的的 |
| — | — | -
敏感或违规内容
| 我12岁男 | |
| — | — | -
图片、视频等信息未替换处理,或标记