语音合成日新月异、快速发展,声纹鉴定的科学性从何而来?
当人工智能已经能够短样本克隆声音、低延迟转换音色、实时互动式模拟他人声音时,刑事司法是否仍然可以沿用旧有逻辑, 将“像某人的声音”轻易推定为“就是某人说的”?
目录
- 我们今天批驳的,究竟是什么
- 人工智能已经把“模仿他人声音”从想象变成现实
- 声纹鉴定今天首先面对的,不是“匹配问题”,而首先要审查“真伪问题”
- 现行标准能说明“怎么做”,却不能替代“为什么可信”
- 从证据规则看,声纹鉴定的样本必须先确保真实
- 勿忘当年“测谎结果能否作为证据”的争议
- 《刑事审判参考》第144辑1663号:论证说服力不足
- 结语
一、批驳的对象
《刑事审判参考》第144辑1663号的表述抽象出来,它真正依赖的其实是三层判断:
- 第一层:声音具有个体识别意义,因此可以通过技术手段判断是否为同一说话人。
- 第二层:只要鉴定机构、鉴定人、检材来源、鉴定程序和方法合规,声纹鉴定就具有相当的可信度。
- 第三层:声纹鉴定虽然不能单独定案,但可以与其他证据相互印证,成为将被告人与涉案语音绑定的重要技术证据。
这三层判断,在传统录音环境下尚且存在争议;到了今天的 AI 语音时代,则已经不只是“存在争议”,而是 逻辑基础本身就发生了变化。因为现代语音生成技术面对法庭提出的,不再只是一个“谁在说话”的识别问题, 而首先是一个“这段声音到底是不是真人自然发声”的真实性问题。
二、人工智能已经把“模仿他人声音”从想象变成了现实
近几年,语音合成与语音转换技术连续跨越几个关键门槛:短样本语音克隆、零样本文本转语音、低延迟 speech-to-speech、 实时 voice conversion、保留原说话人音色的实时翻译,都已经从研究论文走向公开展示和产品化探索。问题已经不再是 “声音能不能模仿”,而是“能不能用极短样本、高质量、低延迟乃至实时互动地模拟某个人的声音”,答案显然是肯定的。
这意味着,在 AI 语音时代,声纹比对首先不再是单纯的“说话人识别”问题,而是一个更复杂的前置问题: 待检音频到底是不是未经算法处理的自然人原始语音。
三、声纹鉴定今天首先面对的,不是“匹配问题”,而首先要审查“真伪问题”
“人声具有个体差异”这句话本身并没有问题,但它并不等于“待检录音必然真实反映了该个体的自然发声”。 过去,法庭往往把二者自然连在一起理解;今天,这条逻辑链已经断裂。因为一段声音“像不像本人”, 现在可能来自三条完全不同的路径:
- 第一,确实是本人自然说话;
- 第二,是他人利用模型离线克隆出来的;
- 第三,是他人借助实时 voice conversion 或 speech-to-speech 系统,在实时交流中把自己的声音转换成“像他”的声音。
因此,“相似”已经不再当然推出“同一”。它最多只能说明: 这段音频呈现了与某个特定人接近的声学特征。 但这些特征究竟来自自然人,还是来自模型合成,不能再靠经验当然推定。
四、现行标准能够说明“怎么做”,却不能替代“为什么可信”
有些观点会说,声纹鉴定并不是没有规范,司法部已经有《语音同一性鉴定技术规范》。这一点当然成立。 但这只能说明一个问题:国家为这类鉴定制定了操作规则,并不意味着国家已经替法庭担保, 它在所有案件、所有场景、所有检材条件下都具有足以支撑刑事归责的稳定可靠性。
技术规范回答的是“应当如何开展这类鉴定”,而不是“只要按此操作,就足以跨场景稳定识别说话人, 更足以排除 AI 合成、平台压缩、后期剪辑、通道失真等风险”。把“有规范”直接推导成“在刑事个案中可靠”, 本身就是逻辑跳跃。
五、从证据规则看,声纹鉴定的样本必须先确保真实
其实,现行刑事证据规则对这个问题早就给出了比“技术信心”更谨慎的答案。
对视听资料和电子数据,司法规则长期强调的重点并不是“像不像”,而是: 来源是否合法、是否为原件、内容和制作过程是否真实、是否存在剪辑增加删改、提取过程能否重现、完整性是否可保证。 如果存在篡改、伪造、真伪不明,或者制作、取得的时间、地点、方式等存在疑问且不能合理解释,就不能作为定案根据。
这意味着,在做声纹比对之前,必须先完成两道门槛审查:
- 第一道门槛:音频真实性门槛——原始文件是否存在,是否经过转码、剪辑、增强、降噪、拼接、模型处理,平台侧是否留存原始元数据、日志和传输记录。
- 第二道门槛:电子数据完整性门槛——收集提取过程能否重现,原始载体是否存在,校验值、访问日志、备份文件、封存状态能否核验。
若这两道门槛过不去,声纹鉴定就不应再被赋予将被告人与语音直接绑定的证明功能。因为此时比对的,已经不是一个 经过真实性净化的对象,而是一个真伪未明、来源不清、可能已被算法污染的待检音频。
六、勿忘当年“测谎结果能否作为证据”的争议
我认为,讨论声纹鉴定,今天不能只看技术本身,还必须把它放回中国证据法面对新技术时的一段历史经验中去看。 这个历史经验,就是测谎结果。
围绕测谎结果能否进入诉讼、能否作为证据、能否被归入鉴定结论,中国法学界和实务界曾有过相当激烈的争论。关于测谎结论是否能够作为刑事诉讼证据,始终没有形成真正稳固的肯定共识。结果也非常明确:测谎结果并没有真正进入我国刑事法定证据体系,而更多只是被当作侦查辅助、线索判断或者参考材料。
今天的声纹鉴定,在某种意义上正在重复测谎曾经走过的路径。它当然比早年的测谎更技术化、更精密,也有更成熟的标准化流程; 但它同样面临几个相似的根本难题:
- 它依赖概率性、条件性特征,而不是像 DNA 那样相对稳定的对象;
- 它高度受样本质量、场景差异、操作者、算法模型影响;
- 它如今又额外遭遇生成式 AI 的对抗性冲击。
正因如此,声纹鉴定今天最需要的,不是被更大胆地推进入罪中心,而是被更严格地放回证据能力与真实性审查的门槛之下重新检验。
七、《刑事审判参考》第144辑1663号说服力不足
如果把前面的分析重新照回该文的论证框架,就可以看到问题所在。
它说“人声具有唯一性”,但今天真正应问的是:这段录音是不是未经 AI 合成或转换处理的自然人发声。 这一前提没有证明,唯一性就没有归属意义。
它强调“声纹鉴定已有规范、程序合法、鉴定人出庭”,但今天真正应问的是: 待检音频的原始文件在哪里,平台元数据在哪里,转码链路在哪里,完整性校验在哪里,是否先进行了合成音频的独立筛查。 这些前置问题没有解决,程序合法并不等于对象真实。
它说“声纹鉴定与其他证据相互印证”,但今天还要继续追问:所谓其他证据,是不是同样围绕这一条数字语音链条展开的同源材料。 如果聊天记录、账号使用、转账轨迹、被害人辨认,都依赖同一个未经真实性净化的语音中心,那么它们之间很多时候并不是独立补强, 而只是围绕同一脆弱节点进行的相互抬轿。
结语
在人工智能快速发展的前提下,声纹鉴定的最大问题,已经不是“像不像”,而是“真不真”。
只要这个前置问题没有被独立证明,只要原始音频载体、平台原文件、提取流程、元数据、校验值、传输链条、合成排查都没有真正完成, 声纹鉴定就不应当被赋予将被告人与涉案语音直接绑定的关键证明功能。它至多是一种在真实性已先行成立之后, 才可能获得有限辅助价值的技术意见;它绝不是今天刑事法庭上可以安然承担归责压力的“硬证据”。
测谎结果曾经也披着“科学”的外衣进入争论中心,最后却没有进入我国刑事法定证据体系。 这个历史经验提醒我们:法律面对新技术,最可贵的品质从来不是兴奋,而是克制;不是轻信其“科学感”, 而是反复追问其可验证性、可反驳性与误差边界。
说明:本文系个人观点,重在探讨人工智能语音技术背景下声纹鉴定的证据能力、证明力及审查边界问题。