《读懂实时互动》新书发布 记录RTE从人人交互走向人机交互

9月4日消息,8月27日,由机械工业出版社出版,声网研究院组编的实时互动行业书籍《读懂实时互动》正式上架发售。

全书详细介绍了实时互动发展的过去、现在与未来,涵盖实时互动的发展历程、概念解析、技术原理、应用场景、大数据观察等。

所谓的实时互动(RTE),是指在远程条件下让沟通互动双方能够实时、真实地还原线下互动的场景和信息传递体验。

实时互动作为一种未来数字生活的基础设施,已经全面深入人们的社交、娱乐、工作、购物等方方面面,在当下的 AIGC 热潮中,实时互动也在扮演重要角色。

然而当下行业还没有一本书系统全面的去介绍这项新兴技术,很多人也不知道RTC(实时音视频)与 RTE(实时互动)的关系与区别。

对此,声网在成立10周年之际推出了这本书,从多个维度对实时互动展开全面系统性讲解。

据悉,本书获得了五源资本创始合伙人刘芹、Granite Asia高级管理合伙人符绩勋、CSDN创始人兼董事长蒋涛、36氪创始人兼董事长刘成城、清华大学教授李东红、北京大学教授马思伟、西北工业大学教授谢磊、IDC中国副总裁兼首席分析师武连峰等业界和学术界的联合力荐。

本书还准备了丰富且实用的配套资源,包括与实时互动相关的图表、图谱、行业发展报告和白皮书等电子文档供下载,能够帮助读者更好的理解和运用。

借着新书上架的机会,也就AIGC与RTE结合等热点问题专门采访了本书的编者声网研究院。

声网研究院认为,当下人工智能技术和大模型产业的飞速发展,进一步拓展了实时互动的技术边界与场景边界,从过去的人人交互到当下的人机交互。

一方面,AIGC与RTE的结合,将为人与AI的交互带来全新的改变,从普通的文本互动升级为更加低延时的音频、视频互动,让人与AI的交流更加自然、流畅。

另一方面,在RTE的加持下,AIGC 应用场景也将迎来爆发,RTC 技术的接入将推动当下较常见的 AI口语老师、AI客服、AI社交陪聊等场景的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。

同时,在游戏社交、AI分身、实时语音翻译等场景,对话式多模态大模型也大有可为。

例如,在《狼人杀》、《谁是卧底》等社交游戏场景,AI NPC 角色虽然已经在应用,但是 AI 的痕迹还是较为明显。

在大模型具备实时语音交互能力后,《谁是卧底》中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到 AI 角色的以假乱真。

在实时互动中,不同的应用场景的技术难点会有所不同,在《读懂实时互动》中声网也对不同应用场景如何解决卡顿率、延迟、画质这些技术难点进行了介绍。

例如,在1v1视频通话、赛事直播等场景中,用户对音视频卡顿率的容忍度很低,声网通过引入 ABR 自适应码率能力,实现了观众端码率多级、无缝、自适应平滑切换,从而保证了低延迟的基础上,为用户提供0卡顿、流畅的视频通话体验。

而在游戏语音等场景,声网利用最前沿的技术来改进语音通话体验。通过推出基于机器学习的语音编解码器“声网 Silver”,声网能够在超低码率下提供32KHz采样率的超宽带编码音质。

声网 Silver通过AI降噪算法进一步优化音质与语音自然听感,解决了在弱网环境下语音卡顿的问题。

这种技术在超低码率下保持了语音的可懂度,同时尽量保持了音色等其他信息,从而在保证通话质量的同时,也适应了不稳定网络环境下的通话需求‌。

此外,《读懂实时互动》书中数据显示,印度、中东、南美等区域RTC用户使用低端机占比较高,针对这些硬件配置低的低端机,声网也专门进行了技术优化。

据介绍,以海外最常见的秀场直播为例,在主播开播后,声网会通过机型设备性能打分、视频大小流等机制为主播自动调整视频分辨率,让高端设备用户享受到1080P极致高清,中低端设备用户也能实现720P高清直播。

在使用推荐的视频分辨率设置后,若依然有部分观众反映视频卡顿,可通过视频大小流机制对视频分辨率进一步降级。

视频卡顿的观众设置订阅主播的视频小流,主播通过开启视频双流模式并设置视频小流的视频分辨率等属性,以提供一路分辨率、帧率、码率较低的视频流给条件较差的观众观看。

而这部分的内容扩展,你同样可以在《读懂实时互动》这本书中的第四、第五章中找到。

声网研究院向介绍,作为全球实时互动云行业的开创者,声网一直致力于通过高质量的实时音视频技术服务,全面提升人们的实时互动体验。

希望读者通过阅读本书,能够深入的读懂实时互动,并掌握实时互动相关的知识,推动更多的人群加入到这个行业中来,一起推动行业的进步。

目前,《读懂实时互动》已登陆京东、当当等各大电商平台及实体书店。