AI语音技术是行善还是作恶？

2022.11.04

    AI语音技术是AI的一个分支，随着AI技术的发展，AI语音技术也在突飞猛进换代升级。现在，科大讯飞、搜狗等科技公司相继发布了语音合成技术的应用。通过AI手段，用户可以一秒变声为社会名人或者其他想要模仿的声音。
    AI的变声技术是一种逼真的语音合成技术，它的基础是神经网络和机器学习。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理，从大量样本数据中总结出共同特征，再通过机器学习模拟特定人的声音，达到以假乱真的效果。显然，这样的变音技术有很多用武之地，凡是可以采用语音或有声服务的地方，都可能获得这类服务和应用，如语音交互、有声读物、新媒体、智能客服、大众娱乐等。不过，AI变声技术的短板也是显著的，如果有人利用这种技术向任何特定的人打电话以扮演其亲人、朋友、同事、上级的声音，就会让人难以辨别真假。
    不过，与AI变声技术相似的另一种AI语音技术似乎向善的成分大一些，这就是“讲话到面孔”技术，也可称为“闻声识人”技术。研究人员设计了一种智能软件，把网上搜集的数百万段教学和音像视频中的每个人的面部特征与其讲话的声音特点匹配和相联，形成一种可供计算机学习的大数据，通过深度学习，这种智能软件仅仅通过听一个人的声音就可以画出（显示）其相貌，而且八九不离十，但是，现在这种软件还不成熟。
    无论是AI变声技术，还是“讲话到面孔”的AI语音（闻声识人）技术，都是AI语音技术的升级。技术是中立的，关键在于如何使用这类技术。在这类技术应用于社会生活和工作之前，制定对其严格管理的措施极为紧迫和必须。
    2019年4月，全国人大常委会审议的《民法典人格权编（草案）》里加了一条规定：任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。同样，如果AI语音技术发展了，也应当加上不得以信息技术手段伪造的方式侵害他人的声音权，同时要单独在人工智能立法中涉及AI合成不得侵犯他人的肖像权、声音权等。任何未经授权的合成肖像、合成音频均属于侵权违法行为。
    尽管如此，还是需要有一部明确的法律来规范包括语音、肖像等在内的AI新产品和应用，使其只能向善行善，而非向恶行恶。