沪语场景语音语料评估

沪语 场景语音语料 评估

二、预训练语料(10,000 小时)

2.1 语言基础层(~500h,占5%)

子集 场景描述 建议时长 来源渠道
音素与声调标准库 沪语声母/韵母/入声,标准朗读 50h 专业录音室,语言学家主导
方言词典与高频词语料 2000+ 沪语特有词汇,逐词/短句录制 100h 录音室+众包
特有句型与语法示例 沪语特色语法结构(如"侬好伐"等) 100h 众包(母语者)
成语/俗语/歇后语 文化表达,含语境说明 100h 众包+图书馆档案
正字规范与异体字 书面沪语标准化文本朗读 80h 语言所合作,专业录音
韵律与停顿标注示例 语句级韵律示范朗读 70h 专业录音室

2.2 通用场景多媒体层(~6,000h,占60%)

子集 场景描述 建议时长 来源渠道
沪剧/滑稽戏/越剧(沪语版) 传统戏曲,字正腔圆,语言规范 2,000h 上海文化局档案、B站、YouTube爬取+质检
广播电视(上海电台/东方卫视) 新闻播报、综艺、纪录片 2,000h 广电资源授权+爬取
短视频与社交平台(抖音/B站) 网络口语,年轻化,混合沪普 500h 爬取+VAD切割+质检
播客与有声书 沪语讲故事、沪语相声 800h 喜马拉雅爬取+授权
公开演讲与讲座 TED上海、高校公开课 400h 爬取+手动质检
电话/会议录音(脱敏) 自然对话,含打断/重叠 300h 企业合作授权

2.3 五大垂类场景层(~3,200h,占32%)

政务场景(~600h)

子集 场景描述 建议时长 来源渠道
人大/政协会议记录 代表发言,沪语口音浓厚 200h 政府档案授权
政府公告与政策解读 正式播报,标准沪普混合 150h 上海市政府官网音视频
信访接待与社区服务 自然对话,含地方性问题 150h 众包模拟+真实脱敏录音
政务热线(12345)模拟 市民咨询,口语化,问题多样 100h 角色扮演录音+真实脱敏

医疗场景(~700h)

子集 场景描述 建议时长 来源渠道
门诊问诊对话 医患沟通,含专业术语沪语化 300h 医院合作(IRB审批),角色扮演补充
健康科普播报 养生、防病、科普,沪语播报风格 150h 上海健康教育所、医院公众号音频
急救指导场景 高压情境,指令清晰,情绪多样 100h 120急救中心合作+角色扮演
医患沟通培训材料 标准化沟通示范 150h 医学院培训录音

教育场景(~600h)

子集 场景描述 建议时长 来源渠道
课堂教学录音(中小学) 老师讲课,含互动问答 250h 上海教委合作,学校授权
家长会与教务沟通 半正式对话,沪普混用 150h 众包模拟
沪语教学材料 方言保护项目,标准示范朗读 100h 上海语言文字工作委员会
学生互动场景 课间/课堂,年龄分布广 100h 学校合作录音(家长知情同意)

金融场景(~700h)

子集 场景描述 建议时长 来源渠道
银行柜台与客服 业务办理,含专业术语 250h 银行合作授权(脱敏)
理财咨询对话 投资建议,风险提示,合规表达 200h 券商/银行合作+角色扮演
保险产品说明 条款解释,口语化简化 150h 保险公司合作
投资者教育材料 科普讲座,沪语播报 100h 上交所、上证所公开资料

通用日常场景(~600h)

子集 场景描述 建议时长 来源渠道
日常对话(家庭/朋友) 闲聊,含打断/重叠/笑声 200h 众包(母语者配对录音)
商业服务场景 餐厅/商场/出租车,服务类对话 150h 众包模拟+真实场景授权
社交媒体风格口语 年轻化,新词,网络用语 150h 众包(18-35岁说话人)
独居老人口语档案 年龄偏大,方言最纯正 100h 社区合作,老年大学

三、SFT/RLHF 精调语料(100 小时)

3.1 指令微调数据集(~60h / ~50,000条)

子集 场景 建议时长 条数 标注规范 质检标准
沪普双语对照朗读 同一语义,沪语+普通话双版本 20h 15,000对 专业母语者录制,逐句对齐 双人复核,MOS≥4.0
韵律与停顿标注 带 TextGrid 时间戳对齐 10h 8,000条 音韵学专家标注 标注一致性κ≥0.8
平行翻译语料(普通话↔沪语) 文本+语音双模态 15h 12,000对 双语母语者,含回译验证 BLEU≥0.65(文本侧)
情感与副语言特征 喜/怒/哀/乐/惊/中性,各300条以上 10h 8,000条 情感类目标注+强度1-5分 标注一致性κ≥0.75
历史文化问答对 沪语提问+沪语回答,知识密集 5h 5,000对 历史文化专家审核 事实准确率100%

3.2 偏好数据集(~25h / ~20,000对)

子集 场景 建议规模 标注规范 质检标准
地道度偏好标注 同义表达,母语者选"更地道"的版本 8,000对 5人独立评分,取多数 评分者间一致性≥70%
书写系统规范度 方言文字正误判断 4,000对 语言学家+编辑双重标注 专家一致率≥90%
文化语境得体性 特定场景下的表达是否得体 5,000对 场景专家(政务/医疗等)评审 分场景专家各自审核
合规与价值观安全 排除歧视性、不当方言用语 3,000对 合规团队标注 零容忍,双重复核

3.3 思维链强推理数据集(~15h / ~10,000条)

子集 场景 建议规模 标注规范
语言学底层规则推理 声韵调变化规律推导,含解释链 3,000条 语言学博士级标注
跨方言句法翻译推理 吴语各支系互译,含推理步骤 2,500条 方言学家参与
文化语义与语境推理 沪语俗语/典故的现代语境解读 2,500条 文化专家+本地母语者
垂类场景专业术语沪语化推理 医学/法律/金融术语的沪语表达逻辑 2,000条 各垂类领域专家

四、评测集设计(5 小时,黄金标准)

4.1 ASR 评测集(2.5h,8个维度,每维度约19分钟)

维度 测试场景 样本数 核心指标 通过标准
基础声学识别 安静环境,标准沪语朗读 500条 CER CER≤5%
噪声鲁棒性 SNR 5-15dB,含街道噪声 300条 CER(噪声下) CER≤15%
方言强度梯度 纯沪语→沪普混合,5级梯度 400条 CER各档 最强方言CER≤20%
专业术语识别 政务/医疗/教育/金融/通用各100条 500条 专业词汇识别率 各垂类≥85%
老年人语音 60岁以上说话人,语速偏慢 200条 CER CER≤12%
情感语音识别 含情绪波动的自然对话 200条 CER CER≤15%
多人对话/打断 2-3人对话,含重叠语音 150条 说话人识别+CER 说话人归因≥80%
风险内容识别 违规/敏感表达的拒识率 100条 拒识率/误识率 拒识≥95%,误识≤2%

4.2 TTS 评测集(2.5h,8个维度)

维度 测试场景 样本数 核心指标 通过标准
自然度 日常对话文本合成 200条 MOS MOS≥4.0
地道度 专业母语者评分:像不像上海人 200条 地道度 MOS ≥3.8
可懂度 合成语音转写 CER 200条 CER CER≤3%
情感表现力 指定情感类别合成 150条 情感识别准确率 ≥75%
专业术语发音 垂类专业词正确发音率 300条 发音正确率 ≥90%
韵律与节奏 长句停顿、语调自然度 150条 专家韵律评分 4分制≥3.0
说话人风格迁移 给定参考音频,克隆风格 100条 说话人相似度 ≥0.75
价值观与伦理 涉及歧视/不当内容的拒合成 100条 拒合成率 ≥98%