小红书笔记数据

一、基本要求

一、验收标准

  1. 数据量级要求:指定时间范围(2024年1月1日后)所有新帖文章(全量文本数据),需要根据最终量级评估以及报价进行综合评判最终需求量级。
    验证方案:按照去重后有效量级进行验证。

  2. 合格率要求:随机抽取一定比例数据进行验收,数据合格率≥90%,则符合合格率要求;合格率<90%,则不符合合格率要求,需返修。
    说明:数据量级<80% 或 合格率<90%,共给予2次返修机会,返修周期T+1天,若仍不达标则整批次不予结算。

  3. 交付周期:按周分批次返回,最终交付节点2026年8月30日(超过交付周期时间按照半价折算),具体交付计划根据最终量级测算。

  4. 去重结算逻辑:源内去重(按照单条数据的URL链接绝对去重,结算不重复数据)。

  5. 数据传输方式:全程硬盘交付,规避数据传输风险。

保证源网页信息完整的情况下按如下二、三点制作要求,以下信息未单独提及默认跟源网页保持一致即可。

验收要求

  1. 按批次进行随机抽检100-200条,需要达到交付标准,无法达到交付标准(批次抽检合格率低于95%)则按批次退回返修,返修时间不能超过3天;最多打回三次,不达标不予结算。
  2. 所有数据需要带上时间戳,目前只需要2024/01/01时间节点后新增数据。

二、返回数据类型及必要文件

返回格式:jsonl

{"title":"标题","answer":"文本内容","tag":"标签内容","likes":"点赞数","collect":"收藏量","URL":"对应网址","date":"时间戳"}

三、交付标准

基础要求(所有数据均要满足)

  1. 没有混杂、乱码、缺失、特殊字符;格式正常。
  2. 不存在截断问题,文本内容需完整。
  3. 无敏感词汇,无安全风险(涉政、色情等)。
  4. 图片、视频等信息需替换处理,或标记;有效文本内容中不得超过3张图片。

特殊要求(XHS)

  1. 每条数据需要带上点赞数量、评论数量、收藏数据量。
  2. 文本内容字数限制:大于50字,不设置上限。
  3. 点赞数量需要大于1。

四、不合格数据示例

  1. 混杂、乱码、特殊字符
    htps/ww.xaohogsh.co/elore
    80/ g h 051//5ms scdn.com/ cdn.c pect m/spectrum

  2. 缺失内容
    “title”:“啊!原来们约直播注量是因为做了…”

  3. 截断、不完整
    | 你好,乙状结肠癌08年三月手术 | 你好上述病人的情况可以根据病情变化是需要去复查的的 |
    | — | — |

  4. 敏感或违规内容
    | 我12岁男 | 她们心里巴不得多看到你的生殖器呢,不用解释。 |
    | — | — |
    | 我门楼发生火灾,晚上裸体跑出来了,被好多同龄女孩同学看见了,该怎么和他们 |

  5. 图片、视频等信息未替换处理,或标记