2018年6月10日,又拍云Open Talk | 2018音视频技术沙龙·深圳站落地深圳触梦空间。炎热的天气挡不住音视频技术大牛散发的魅力,活动吸引了100多位到场观众。
短视频、在线教育、在线狼人杀、直播竞答等各类形式的互动应用越来越广泛,音视频技术的不断升级支撑了这些互动应用的普及。
又拍云Open Talk | 2018音视频技术沙龙是又拍云Open Talk推出的专题活动,追求音视频技术、方案的落地经验。又拍云Open Talk | 2018音视频技术沙龙·深圳站是系列活动的第一站,集合了腾讯、虎牙直播、糗事百科、又拍云等多家知名公司的优秀讲师,奉献了一场干货十足的音视频技术盛宴。
又拍云Open Talk | 2018音视频技术沙龙后续将陆续登陆上海、北京、杭州等城市,目前上海站已定档6月24日(点此了解又拍云Open Talk | 2018音视频技术沙龙·上海站的详情)。
WebP2P是P2P网络的未来
又拍云PrismCDN项目负责人凌建发。曾在 WebRTCon 2018 上做了《又拍云低延时的P2P直播实践》分享,受到现场观众的热烈好评。此次,对P2P、流媒体技术有较深入研究的凌建发也将广受好评的分享带到了又拍云Open Talk | 2018音视频技术沙龙·深圳站上。
凌建发从FlashP2P的困境出发,以及SDKP2P在PC端的不足,认为WebP2P才是P2P的未来;详细介绍了树状P2P网络和网状P2P网络的发展现状和不足:高延迟、不稳定。
凌建发介绍了又拍云PrismCDN网络的组网思路和实践成果。又拍云PrismCDN放弃了树状、网状的组网结构,只通过路由器、光猫、机顶盒、智能电视等P2P雾节点进行一次转发,加上由CDN网络智能补充数据流,实现了低延迟、高稳定的目的,能够满足目前游戏直播、体育直播、娱乐直播等直播场景对延迟的要求。
凌建发《又拍云低延时的P2P直播实践》的分享内容,可参见以下两篇文章:
取代 FlashP2P,H5P2P 将成为 WebP2P 主流:介绍几类 P2P 的架构、原理、优劣势,介绍传统树状、网状两种 P2P 结构的不足。
PrismCDN 网络的架构解析,以及低延迟、低成本的奥秘:介绍又拍云 PrismCDN 的结构、优势,分析又拍云 PrismCDN 达成好体验、低成本、易使用的奥秘
智能设备离不开语音交互
随着Amazon Echo的爆红,Google、Apple、阿里巴巴、京东、小米等巨头陆续进入智能音箱领域,此领域的创业公司也层出不穷。语音交互已经被视为除了键盘+鼠标、触屏输入之外又一大输入方式,已经应用于办公、汽车、家庭等需要解放双手的场景。要做到语音交互,首先要让设备听得懂人话。资深音频专家高毅在活动中做了《智能设备中的语音处理和交互》的主题演讲。
高毅在分享中详细介绍了目前智能设备进行语音信号处理和实现语音唤醒的技术细节,包括ASR(自动语音识别)、自然语言理解、Dialog Management(对话管理)、自然语言生成等技术。
自动语音识别是一种通过声学模型和语言模型,将人的语音识别为文本的技术。
自然语言理解通过各项技术完成指代消解、否定判断、语句泛化、口语归一化、ASR纠错等工作,识别人机对话中的领域和意图,获得对话任务的语义信息。目前为止成功的自然语音理解是“框架语义(Frame Semantics)”,采用领域(Domain)、意图(Intent)和词槽(Slot)来表示语义结果。
对话管理是对话式交互系统的核心,负责控制整个对话过程。主要包括对话上下文(Dialog Context)、对话状态跟踪(Dialog State Tracking)和对话策略(Dialog Policy)几部分。
自然语言生成是对话生成的技术。模板中的回复信息可由词槽或通过内容服务得到的数据来替换。对话生成的原则是符合自然语言交互的习惯,易于用户理解,快速完成对话。
在语音处理方面,高毅从语音产生和感知、语音采集、回声消除等多个环节的应用技术,分析了Amazon Echo和Google Home两大智能硬件在语音采集方面的不同。
高毅还介绍了我国各大厂商在研发智能设备对唤醒词的定义规则:3到5个字、只支持中文、避免使用敏感词和口语化词汇,以及唤醒词要易开口、响度大。
糗百教你避开直播业务的坑
糗事百科是国内知名的原创糗事笑话分享社区,也涉足了直播业务。来自糗事百科的视频软件工程师刘鹏在活动中分享了《直播SDK的技术实践》,介绍了糗事百科在做直播过程中遇到的各类坑。
在分享中,刘鹏选择了播放器、拉流、推流等直播的各个技术环节,分别进行了详细的介绍。
在拉流的介绍中,刘鹏详细介绍了RTMP与HTTP-FLV的优劣势,并针对秒开、卡顿、追赶三个具体场景介绍了糗事百科的经验。
推流阶段,实时美颜、码率自适应、视频编码、音频参数设置是刘鹏认为需要直播业务必须关注的板块。“码率自适应的原则是把数据尽快发出去,根据不同画质和码率划分档数。”刘鹏分析道。
在互动问答节点,刘鹏介绍了音频、视频同步的三种方式:音视频同步需要一个同步语言,可以是音频时间戳或视频时间戳,也可以是Web时间源。糗事百科一般采用音频时间戳作为同步语言来进行同步。
监控数万名主播的直播稳定,虎牙没问题
虎牙直播同时在线的主播数有数万个,同时虎牙接入了非常多的CDN厂商,这么大体量的主播上行通过CDN做到自动化监控,是困扰虎牙比较久的一个问题,在今年上半年,虎牙设计了一个比较好的解决方案。虎牙直播基础保障部的张波在《基于CDN推流日志的主播上行实时监控及其自动化解密》的分享中,将这个解决方案做了详细的介绍。
有多种方案可以监控数万名主播上行是否稳定、流畅,比如弹幕监控、第三方拨侧监控、端上数据监控、机房运营商网络监控等。虎牙主要采用了弹幕监控和端上数据监控,同时通过机房运营商网络监控摘掉有问题的节点。
除了常规的监控方案外,虎牙开发了基于CDN日志的主播上行质量实时监控平台,通过对CDN日志的系统分析,“1秒一条数据,5秒一次上报”能够实现主播上行真实用户体验的管理。主播上行质量实时监控平台,还能够应用于CDN入围测试、CDN运行监控、节点质量管理、主播上行运营分析等场景。