当喜马拉雅装上AI引擎，音频行业还有机会吗？

2022.12.23

    文｜光锥智能周文斌
    “风雪夜归人”，凭这样一句话，画一幅水彩或者油画，需要多长时间？
    熟练的画手可能需要几个小时，但AI只需要几分钟，甚至几十秒。
    将一篇3000字左右的文章录制成音频需要多长时间？
    经验丰富的播音员一次过大概需要15分钟，但通过AI文字转语音只需要一分钟，而且情感充沛。
    近期，AI绘画再次爆火，其快速的成长速度，超高的“工作效率”都令人吃惊。而以AI绘画为代表，如今也确实有越来越多的行业开始通过技术手段来改变传统的生产结构和商业模式。

    图：ChatGPT编写的代码
    比如在音频创作领域，喜马拉雅近期公布的一则数据显示，其用单田芳AI合成音制作的TTS（语音合成）专辑总播放量已经破亿。这一数据，喻示着在喜马拉雅“UGC＋PGC＋PUGC”内容生态之外，又多了一个AIGC的内容生态。
    事实上，音频行业其实一直存在着许多问题，比如单个创作者创作形式单一、生产周期长、内容成本高等等。而为了突破这些问题，音频行业一直也都在做各种尝试。
    比如，喜马拉雅最近上线了喜韵音坊创作者平台，试图用AI为创作者赋能的方式，以技术手段来解决行业沉疴。恰好也是今年，喜马拉雅的两项智能语音技术相关论文被2022年国际音频、语音与信号处理会议（ICASSP）收录。
    喜马拉雅创始人兼CEO余建军之前也提过，喜马拉雅是一家科技驱动的内容公司，科技是手段，文化是目的。
    那么，在这次喜马拉雅以通过科技赋能文化的过程中，又是如何改变音频行业的呢？
    01 配音小说用AI工具一天更新上百集
    “以前从来没有想过，音频节目可以一天更新上百集。”这是喜马拉雅的音频主播“CV千索”用过喜韵音坊之后的感叹。
    喜韵音坊，喜马拉雅近期上的一个创作者平台，它通过TTS技术帮助主播实现与AI共同创作音频节目。“CV千索”就是通过这项技术在喜马拉雅上创作了有声书《史上最强捡漏王》，上线一个多月，播放量已经超过300万。
    工欲善其事必先利其器，创作者有了AI工具，就可以大幅提升创作效率，进而提升收益。
    但要打造一个好工具也并非易事，喜韵音坊对于喜马拉雅来说，就如同剪映之于抖音，但音频制作本身又有不同的技术难点。
    “TTS”是将输入的文本转换为语音的技术统称，在许多场景中都有应用。但在不少场景中，比如在电话客服、机器人等身上，经常会有冷冰冰的“机器音”让人非常“出戏”。
    但在音频节目中，我们需要声音有情绪、有温度：听童话故事的时候，声音俏皮可爱；讲军旅故事的声音，铿锵有力；听历史故事，又需要它深沉雄浑。
    “TTS音色演绎小说非常难，需要学习小说中的抑扬顿挫、情感表达、上下文关系，区分旁白和对白，并最终将作品完美演绎出来。”喜马拉雅智能语音实验室的卢恒博士表示。
    因此，如何让AI理解文本的语境，然后选择适合的音色，甚至根据文本的情绪随时转换声音，就是TTS针对特定场景进行应用时遇到的最大难点。
    比如以喜马拉雅复刻的单田芳先生的声音为例，评书通常韵律起伏变化大，再加许多发音有自己独特的特点，比如“这个”中的“这”字，普通话发音“zhè”，但在评书中通常读为“zhèi”。
    这种情况，如果仅靠当前主流的TTS框架模型做提取和合成，合成评书最终的整体感情和情绪都会很平淡，没有了原作的跌宕起伏。
    为此，喜马拉雅智能语音实验室自主设计了单独的韵律提取模块，并将其融入到HiTTS技术框架中。而针对单老评书中区别于标准普通话的发音，团队还设计了口音模块对这些特殊发音进行标注，使得AI合成音能够原汁原味地还原出老味道。
    由于技术上的创新，喜马拉雅用TTS合成语音所制作的AIGC专辑几乎能够以假乱真。已经在使用喜马拉雅TTS录制节目的《厉少的重生小甜妻》主播清月古筝表示：“最终的效果不错，有人甚至没听出来是AI演播的，还有人问男主的配音是谁。”
    如今，喜马拉雅多情感、多风格、多语种声音的TTS技术模型已经广泛被运用于评书、新闻、小说、财经等多种类型AIGC内容的制作中。
    除了HiTTS技术在声音韵律上的优化之外，跨语言语音合成在TTS中也非常重要，毕竟仅在中国境内就有129种语言，七大方言。
    跨语言语音合成技术就是让一种声音能够说两种不同的语言（方言）。比如用迪丽热巴的声音讲四川话，或者用李现的声音讲山东话。这项技术的难点在于，我们很多时候可能只有李现和迪丽热巴讲普通话的声音，这个时候就需要让AI学会说方言（或其他语言）。
    但在传统的训练方式中，这一过程其实存在一些bug，比如方言学不好或者没学会，还连累原来的普通话也讲不好了，变成了“邯郸学步”。
    为了解决这一问题，喜马拉雅自研了一套新的训练方法，让模型能够接受所有音色和语言的组合的训练，就是跨语言语音合成技术，其研究论文也被2022年国际音频、语音与信号处理会议（ICASSP）收录。

    除了用TTS实现文字转语音，音频中也少不了语音转文字的技术——ASR。
    此前，许多音频节目并不会匹配文本，就像听歌没有歌词，如果听不清，你就真不知道它讲的啥。
    为了解决这一问题，喜马拉雅以ASR和另一项可以将超长音频与文本进行对齐的算法为核心，推出了AI文稿功能。它能够识别无文稿声音的内容，为其自动生成文稿，从而便于听众更好地理解声音内容。
    而对于已经有文稿的声音内容，AI文稿又能够将声音与文稿进行时间戳对轨，在声音播放的同时，对相应文字进行同步高亮，让用户能更便捷地享受边听边看的内容消费体验。
    近期，喜马拉雅的ASR技术（自动语音识别技术）也在国内权威行业公开评测项目Speec
    hIO TIOBE第三季度的评测中以2．16％的超低错误率荣获冠军。
    总之，随着AI技术对特定场景理解的不断加深，喜马拉雅将带动音频行业的生产方式、内容结构和商业效率产生质的变化。
    02 再做一遍音频生意
    传统的音频行业，并不是一门好生意。中国并没有诞生如播客一样的付费潮，于是各个玩家都在寻找利润更高的“好生意”。
    比如之前同样做音频的荔枝FM，现在的重心就已经转到了更容易盈利的直播业务上。今年二季度，其营收中虚拟礼物即相关的收入占比已经超过了99％。除此之外，几乎所有在线音频玩家，都曾尝试Clubhouse的聊天室模式。甚至从2017年开始，喜马拉雅还在智能家居、智能音箱、汽车座舱等多种生态渠道布局，试图扩大渠道来打开更多的市场。
    对于音频行业来说，这些探索固然不错，但在线音频本质上仍然是内容行业，真正吸引用户使用、付费，甚至吸引广告主的，最终还是基于内容的体验。
    正如信息流技术改变了图文、视频的新媒体传播逻辑，诞生了字节跳动这样的新巨头，进而在电商、本地生活上都展现出巨大的颠覆式玩法。
    AIGC、TTS、ASR等AI技术在音频行业的突破式进展，也将让这个行业迸发出一种新活力。
    在传统在线音频行业中，内容结构以及随之而来的内容成本一直是阻碍平台盈利的一个重要原因。
    经过这么多年的发展，目前在线音频行业已经有了非常稳定的内容生产结构。以喜马拉雅为例，其采用的“PGC＋PUGC＋UGC”的内容结构像金字塔一样搭建而成，其中UGC作为金字塔的底座，是用户消费最多的部分，其收听时长在2021年整个平台收听时长中占了45．3％。

    图：招股书中喜马拉雅PGC、PUGC、UGC内容占比
    但同时，喜马拉雅与生产内容的创作者之间采用的收入分成的利润分配方式，这直接导致了这些年来喜马拉雅的内容成本一直居高不下。比如2020年和2021年，喜马拉雅给内容创作者的分成分别是13亿和16亿，占总营收比例分别为31．9％与27．3％。
    但在内容创作中引进AI技术之后，这一状态有望改变。
    首先，通过AI技术，创作者将大幅提升内容的生产效率，从而让内容规模也获得指数级增长。
    以音频里的新闻播报为例，通过TTS，新京报、环球时报、时代周报等为代表的数十家主流媒体就在喜马拉雅上线了超过40张AIGC音频专辑，他们日均生产约500条声音。
    据介绍，目前喜马拉雅新闻TTS每分钟内能转化约3000字左右，这种效率是人类主播不敢想象的。《厉少的重生小甜妻》主播清月古筝就表示，喜韵音坊节省了她的录制成本，让她可以在同样的时间里大大提高出音量。

    图：AI电子书《厉少的重生小甜妻》收听27．4W
    其次，平台也会通过AIGC大量生成内容。目前，喜马拉雅“单田芳声音重现”等账号下上线的运用单田芳AI合成音所制作的专辑数量已经有100多张，总播放量超过1亿。除此之外，喜马拉雅还与近百家网络平台和出版机构合作，上线了近6万本电子书，然后通过TTS技术为这些电子书实时生成TTS声音。
    今年7月，百度创始人李彦宏认为，“未来十年，AIGC将颠覆现有内容生产模式。可以实现以十分之一的成本，以百倍千倍的生产速度，去生成AI原创内容。”
    招股书显示，从2019年到2021年，喜马拉雅的毛利率已经从44．5％提高到了54％。
    可以预见，随着AIGC内容规模的不断扩大，也将再大幅降低音频平台的平均内容成本。
    除此之外，技术的引入还将丰富音频内容的质量。
    音频行业里，除了少部分专业团队之外，大部分内容创作者都是“单兵作战”，一个人、一支麦。这也导致他们在内容创作的时候只能选择演绎单播作品，这极大的限制了声音内容的变现力。
    而在喜马拉雅喜韵音坊基于TTS技术开发的AIGC多播功能上线之后，主播可以与AI合作，轻易实现不同声音与不同角色、情感的匹配，让单个主播也能演绎多播作品。
    “现在喜韵音坊已经有公子音、御姐音、师傅音、妈妈音等各种音色，而且它还赋予了这些人物不同的情绪，能够自如表达悲伤、愤怒、厌恶、钦佩等等各种复杂的人类情感，可以满足小说中各个角色的切换。”《我在仙界淘废品》的主播“DJ老赵”表示：“借助这个功能，可以快速实现由单播到多播”。
    之前听众在听书的时候只能听到一个人一种声音，如今听书的时候，有几个角色就有几种不同的声音，让声音内容更有张力，可以吸引更多听众，也能让更多用户愿意为之付费。
    从数据上看，2020年喜马拉雅移动端每名活跃用户的日均在线音频收听时长为117．4分钟，到2021年，这一数据增长到144分钟。同时，2021年，喜马拉雅月活跃付费会员数量为1440万，同比增长52％。
    整体上，AI技术不仅在重构音频行业的生产方式，也在从根本上改变着这个行业的商业逻辑。