语音识别、实时语音对话、多语种实时发言等都是以声音(语音)为媒体载体。业界研究认为 语音 AI(Voice AI )的相关平台能力会广阔的空间。
Speechmatics 估计 2024 年和 2025 年语音 AI 的市场空间为 24 亿美元和 54 亿美元。预计到 2034 年空间可达 475 亿美元。
2023 年秋冬季 YC 孵化公司中,使用 AI 语音的创业公司比例为 13%。而到了 2024 年秋冬季的批次中,这一比例提升到 22%。
随着 STT (Text-to-Speech, 文本转语音)、TTS (Speech-to-Text, 语音转文本)以及大模型的发展,AI 语音的潜力增在显现。尤其是贷款服务、保险、医疗保健、物流、酒店行业以及各种中小企业的客户服务和互动应用。
#说话是人类的本能
微软 Azure AI Speech Studio 增强了文本转语音的功能,并提供了可选择的预设数字人形象,覆盖多种文化和身份角色等。
这些数字人(Live Chat Avatar)可通过 Azure OpenAI API 提升视频创建和实施聊天的客户体验。客服领域的应用被认为是 生成式 AI 落地的重点方向之一。
语音是人类对自然语言,用户通过语音来与 AI Agents 会话并获得相应服务是生成式 AI 的一个重要方向。
附图来自 a16z,其归纳了 B2B 垂直行业和 B2C 消费者领域的 AI Agents 典型案例。
自电话通信发明起,线上语音就是人类沟通的重要方式。语音作为一种形态,经历了自动化语音(例,呼叫中心的语音菜单)或 Siri 这种基于语音的初级 AI 助理。
风险投资机构 a16z 认为基于大模型 LLM,语音正在成为一种新的与技术互动的方式,并有机会成为新生产力应用的核心。
Clubhouse 是一款语音社交 App,2020 月 3 月上线以来开始影响一般。但到 2021 年 1 月起迅速升温,得到很多知名人士的追捧,估值也达到了十亿美金。
2021 年春节,Clubhouse 在一些偏科技的微信朋友圈也红极一时。因为采用邀请码制度,某些人还在咸鱼二手网站上兜售邀请码,可见其火爆程度。
最近有消息说,其周活跃用户达到了一千万人,并在寻求新一轮融资,估值可以到达四十亿美金。
我分别查了一下 Google Trends 指数和微信指数,貌似趋势有些变化 ……
声音作为一项传统的媒介形式,在互联网时代也有相当长的历史。
近年来的播客(Podcast)、听书和故事的电台等日趋成为主流形式。2021 年初爆红的 Clubhouse 又掀起音频社交的高潮。
附图是易观国际的研究,他们认为中国音频市场在 2020 年有 135 亿元的市场空间,到 2023~2024 大约有三四百亿的收入空间。
2021 年 1 月开始,美国 Clubhouse 语音社交迅速爆红。国内也出迅速出现多家类似产品。
声音或语音,是一个有相当历史的赛道。最早可追随到早期的网页版的语音聊天室,甚至更早的声讯台。
曾经在游戏这一个细分领域的语音通信,都可以诞生 YY 等火爆的产品。
附件是中信证券的一个总结。
基于 Nielsen 和 IAB 的调研,美国 18 岁以上成人 36% 会使用语音助理;28% 的家庭有智能音箱。
输入输出属于每个自然人运转的基本操作。
随人均设备量增加太多之后,必然围绕交互有至少两种趋势:
(1) 人类自然物理行为相关,比如:语音助理;
(2) 自动化代理,计算机作为用户的授权代理,与其他计算机沟通;也算一种 C2C (Computer to Computer)。
原因就是,键盘屏幕太多,手敲不过来了嘛。