AI时代的基础设施 - fangpsh's blog

读到一篇PR稿，声网要做AI时代的基础设施。股民信不信我不知道，我信我信！借着AI吹一波，作为友商员工我手里的期权又能值钱了吧🤑。

毫不怀疑，语音交互和视频交互一定是未来AI主流的交互方式，毕竟没有比这更自然和高效的方式，音视频的交互方式会像iPhone的触摸屏一样横扫世界变成默认式。

题外话，我一直认为，符合直觉是一个产品最佳的生长方式，而产品经理就是要找出最符合用户直觉的交互方式、交互页面。（用户不一定是终端用户，例如作为声网这种ToB厂商，用户就是服务的开发者）。

有人说，为啥一定得是实时音视频，不能和AI你一句我一句，一个websocket（openapi 目前的realtime api 看起来是这样）或者SSE 搞定！这样的话，你永远会感觉对方是个机器人，他没法（实时）感知你，你也没法打断他。

那接着问题就是，会不会是声网？个人觉得不一定。（有人一定要骂，你说的是废话！要一定股价还能趴地上？）要判断这个问题，等于判断声网是否有先发优势。声网等一众RTC厂商原来标榜自己能力，无非是这么几个：

端到端几ms；
弱网下依旧牛逼；
降噪、纠错、回声消除之类等；

第1个端到端的问题，在原来rtc的场景，a和b 2个客户端通信，服务供应商要在a和b之间规划选出一条最佳路径：包括a到服务器x的最佳路径，b到服务器y的最佳路径，服务器x到y的最佳路径。但是在和ai交互时，这个问题变成了在a和AI之间规划一条路径，AI肯定是在IDC数据中心。问题一下子降级成只需要解决成一端的接入质量问题，规划的复杂度瞬间塌陷成小学生级别，和CDN的调度没啥差别，声网这块积累的优势无了。第2点和第3点经验/优势能复用，但是可能会因为下面这个猜想消散。

在人和人的RTC交互中，相当于有2条流，a拉取b的声音和画面，b拉取a的声音和画面。RTC交互中最大的成本消耗在于这些声音画面的传输。 RTC场景中，供应商关注帧率，画面、声音流畅度等。但是在和AI的交互中，用户给到AI的信息，比如视频，是不是不再需要那么高的帧率了？只传关键帧是否可以？因为是给AI读取的，那声音和画面是否可以压缩，精简的更加机制，不仅有利于AI消化，也能大幅降低上行带宽成本。如果未来端上的计算能力继续加强，AI的下行语音能不能变成端上的TTS模型自动生成，下行的流量变成了特殊的信令信息。这样想的话，未来AI和人的交互呈现形式会是音视频，但交互协议极有可能会基于效率、成本等原因被重新设计。

声网要成为基础设施，除非他制定和推广了新的协议，凭借目前的领先身位将他的”私有协议“变成事实标准。但目前AI还在百团大战，鹿死谁手还未可知。个人觉得openapi 现在的api 离理想的实时交互协议还很远，国内访问不了的朋友可以看这个翻译文档片段。