沪语 场景语音语料 评估
二、预训练语料(10,000 小时)
2.1 语言基础层(~500h,占5%)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 音素与声调标准库 | 沪语声母/韵母/入声,标准朗读 | 50h | 专业录音室,语言学家主导 |
| 方言词典与高频词语料 | 2000+ 沪语特有词汇,逐词/短句录制 | 100h | 录音室+众包 |
| 特有句型与语法示例 | 沪语特色语法结构(如"侬好伐"等) | 100h | 众包(母语者) |
| 成语/俗语/歇后语 | 文化表达,含语境说明 | 100h | 众包+图书馆档案 |
| 正字规范与异体字 | 书面沪语标准化文本朗读 | 80h | 语言所合作,专业录音 |
| 韵律与停顿标注示例 | 语句级韵律示范朗读 | 70h | 专业录音室 |
2.2 通用场景多媒体层(~6,000h,占60%)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 沪剧/滑稽戏/越剧(沪语版) | 传统戏曲,字正腔圆,语言规范 | 2,000h | 上海文化局档案、B站、YouTube爬取+质检 |
| 广播电视(上海电台/东方卫视) | 新闻播报、综艺、纪录片 | 2,000h | 广电资源授权+爬取 |
| 短视频与社交平台(抖音/B站) | 网络口语,年轻化,混合沪普 | 500h | 爬取+VAD切割+质检 |
| 播客与有声书 | 沪语讲故事、沪语相声 | 800h | 喜马拉雅爬取+授权 |
| 公开演讲与讲座 | TED上海、高校公开课 | 400h | 爬取+手动质检 |
| 电话/会议录音(脱敏) | 自然对话,含打断/重叠 | 300h | 企业合作授权 |
2.3 五大垂类场景层(~3,200h,占32%)
政务场景(~600h)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 人大/政协会议记录 | 代表发言,沪语口音浓厚 | 200h | 政府档案授权 |
| 政府公告与政策解读 | 正式播报,标准沪普混合 | 150h | 上海市政府官网音视频 |
| 信访接待与社区服务 | 自然对话,含地方性问题 | 150h | 众包模拟+真实脱敏录音 |
| 政务热线(12345)模拟 | 市民咨询,口语化,问题多样 | 100h | 角色扮演录音+真实脱敏 |
医疗场景(~700h)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 门诊问诊对话 | 医患沟通,含专业术语沪语化 | 300h | 医院合作(IRB审批),角色扮演补充 |
| 健康科普播报 | 养生、防病、科普,沪语播报风格 | 150h | 上海健康教育所、医院公众号音频 |
| 急救指导场景 | 高压情境,指令清晰,情绪多样 | 100h | 120急救中心合作+角色扮演 |
| 医患沟通培训材料 | 标准化沟通示范 | 150h | 医学院培训录音 |
教育场景(~600h)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 课堂教学录音(中小学) | 老师讲课,含互动问答 | 250h | 上海教委合作,学校授权 |
| 家长会与教务沟通 | 半正式对话,沪普混用 | 150h | 众包模拟 |
| 沪语教学材料 | 方言保护项目,标准示范朗读 | 100h | 上海语言文字工作委员会 |
| 学生互动场景 | 课间/课堂,年龄分布广 | 100h | 学校合作录音(家长知情同意) |
金融场景(~700h)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 银行柜台与客服 | 业务办理,含专业术语 | 250h | 银行合作授权(脱敏) |
| 理财咨询对话 | 投资建议,风险提示,合规表达 | 200h | 券商/银行合作+角色扮演 |
| 保险产品说明 | 条款解释,口语化简化 | 150h | 保险公司合作 |
| 投资者教育材料 | 科普讲座,沪语播报 | 100h | 上交所、上证所公开资料 |
通用日常场景(~600h)
| 子集 | 场景描述 | 建议时长 | 来源渠道 |
|---|---|---|---|
| 日常对话(家庭/朋友) | 闲聊,含打断/重叠/笑声 | 200h | 众包(母语者配对录音) |
| 商业服务场景 | 餐厅/商场/出租车,服务类对话 | 150h | 众包模拟+真实场景授权 |
| 社交媒体风格口语 | 年轻化,新词,网络用语 | 150h | 众包(18-35岁说话人) |
| 独居老人口语档案 | 年龄偏大,方言最纯正 | 100h | 社区合作,老年大学 |
三、SFT/RLHF 精调语料(100 小时)
3.1 指令微调数据集(~60h / ~50,000条)
| 子集 | 场景 | 建议时长 | 条数 | 标注规范 | 质检标准 |
|---|---|---|---|---|---|
| 沪普双语对照朗读 | 同一语义,沪语+普通话双版本 | 20h | 15,000对 | 专业母语者录制,逐句对齐 | 双人复核,MOS≥4.0 |
| 韵律与停顿标注 | 带 TextGrid 时间戳对齐 | 10h | 8,000条 | 音韵学专家标注 | 标注一致性κ≥0.8 |
| 平行翻译语料(普通话↔沪语) | 文本+语音双模态 | 15h | 12,000对 | 双语母语者,含回译验证 | BLEU≥0.65(文本侧) |
| 情感与副语言特征 | 喜/怒/哀/乐/惊/中性,各300条以上 | 10h | 8,000条 | 情感类目标注+强度1-5分 | 标注一致性κ≥0.75 |
| 历史文化问答对 | 沪语提问+沪语回答,知识密集 | 5h | 5,000对 | 历史文化专家审核 | 事实准确率100% |
3.2 偏好数据集(~25h / ~20,000对)
| 子集 | 场景 | 建议规模 | 标注规范 | 质检标准 |
|---|---|---|---|---|
| 地道度偏好标注 | 同义表达,母语者选"更地道"的版本 | 8,000对 | 5人独立评分,取多数 | 评分者间一致性≥70% |
| 书写系统规范度 | 方言文字正误判断 | 4,000对 | 语言学家+编辑双重标注 | 专家一致率≥90% |
| 文化语境得体性 | 特定场景下的表达是否得体 | 5,000对 | 场景专家(政务/医疗等)评审 | 分场景专家各自审核 |
| 合规与价值观安全 | 排除歧视性、不当方言用语 | 3,000对 | 合规团队标注 | 零容忍,双重复核 |
3.3 思维链强推理数据集(~15h / ~10,000条)
| 子集 | 场景 | 建议规模 | 标注规范 |
|---|---|---|---|
| 语言学底层规则推理 | 声韵调变化规律推导,含解释链 | 3,000条 | 语言学博士级标注 |
| 跨方言句法翻译推理 | 吴语各支系互译,含推理步骤 | 2,500条 | 方言学家参与 |
| 文化语义与语境推理 | 沪语俗语/典故的现代语境解读 | 2,500条 | 文化专家+本地母语者 |
| 垂类场景专业术语沪语化推理 | 医学/法律/金融术语的沪语表达逻辑 | 2,000条 | 各垂类领域专家 |
四、评测集设计(5 小时,黄金标准)
4.1 ASR 评测集(2.5h,8个维度,每维度约19分钟)
| 维度 | 测试场景 | 样本数 | 核心指标 | 通过标准 |
|---|---|---|---|---|
| 基础声学识别 | 安静环境,标准沪语朗读 | 500条 | CER | CER≤5% |
| 噪声鲁棒性 | SNR 5-15dB,含街道噪声 | 300条 | CER(噪声下) | CER≤15% |
| 方言强度梯度 | 纯沪语→沪普混合,5级梯度 | 400条 | CER各档 | 最强方言CER≤20% |
| 专业术语识别 | 政务/医疗/教育/金融/通用各100条 | 500条 | 专业词汇识别率 | 各垂类≥85% |
| 老年人语音 | 60岁以上说话人,语速偏慢 | 200条 | CER | CER≤12% |
| 情感语音识别 | 含情绪波动的自然对话 | 200条 | CER | CER≤15% |
| 多人对话/打断 | 2-3人对话,含重叠语音 | 150条 | 说话人识别+CER | 说话人归因≥80% |
| 风险内容识别 | 违规/敏感表达的拒识率 | 100条 | 拒识率/误识率 | 拒识≥95%,误识≤2% |
4.2 TTS 评测集(2.5h,8个维度)
| 维度 | 测试场景 | 样本数 | 核心指标 | 通过标准 |
|---|---|---|---|---|
| 自然度 | 日常对话文本合成 | 200条 | MOS | MOS≥4.0 |
| 地道度 | 专业母语者评分:像不像上海人 | 200条 | 地道度 MOS | ≥3.8 |
| 可懂度 | 合成语音转写 CER | 200条 | CER | CER≤3% |
| 情感表现力 | 指定情感类别合成 | 150条 | 情感识别准确率 | ≥75% |
| 专业术语发音 | 垂类专业词正确发音率 | 300条 | 发音正确率 | ≥90% |
| 韵律与节奏 | 长句停顿、语调自然度 | 150条 | 专家韵律评分 | 4分制≥3.0 |
| 说话人风格迁移 | 给定参考音频,克隆风格 | 100条 | 说话人相似度 | ≥0.75 |
| 价值观与伦理 | 涉及歧视/不当内容的拒合成 | 100条 | 拒合成率 | ≥98% |