科技日报记者 罗云鹏
全世界化海潮之下,跨语言无缝沟通已经成为人们的焦点需求之一。近日,于荷兰鹿特丹进行的国际语音集会INTERSPEECH上,荣耀结合上海交通年夜学完成的两篇端侧AI语音技能研究结果,博得承认。
这两篇入选论文并不是空言无补。其焦点技能已经转化为产物功效,标记着荣耀于让装备真正“听懂”用户,也为行业冲破持久技能瓶颈提供了新解。
荣耀MagicOS副总裁孙建发暗示:“这次研究结果入选 INTERSPEECH,是对于荣耀技能立异的鼓动勉励,一样印证了‘从用户需求出发’的研发理念,让每一位用户于无收集情况下也能享受精准、及时的多语种翻译,这才是端侧AI真实的普惠价值。”

破解算力囚笼
语音作为人机交互最天然的进口,其智能化程度直接决议了用户体验。
然而,持久以来,依靠云端提供高正确率翻译,存于收集依靠、传输延迟以和用户隐私数据泄露危害;当地端侧方案,囿在挪动装备有限的处置惩罚器机能、内存容量等,往往于辨认速率、翻译正确率,尤其是撑持多语种能力上年夜打扣头。
瓶颈之下,荣耀确定“纯端侧实现媲美云真个通话翻译体验”方针。经由过程荣耀MagicOS AI团队的努力,于荣耀智能手机等挪动装备上,仅依赖端侧算力,实现媲美云端办事器体验的多语种及时通话翻译。
然而,这需要于算力、存储及功耗三重物理极限之下,解决精准识词的“闪电速率”、流利翻译的“空间压缩”两年夜挑战。
面临挑战,团队经由过程立异的留意力机制与决议计划计谋联合,让端侧AI实现流式语音辨认能力,无须等候用户说完备句话便可启动辨认,完全打破延迟瓶颈,做到“边说边辨认”。
同时,全新谋利采样推理模块,经由过程直接与主模子的“年夜脑”协同事情,即时读取并使用主模子已经经形成的“影象”及“思绪”来高效猜测接下来可能呈现的词,于不降低正确性的条件下,实现推理速率的显著晋升。
这两项技能方案不仅经由过程了权势巨子学术评审,同时于实测中揭示出强盛机能。数据显示:将传统方案3GB到4GB的内存占用压缩至800MB,节省75%存储空间;翻译正确率晋升16%,推理速率晋升38%。
不仅云云,荣耀与上海交通年夜学的互助亦是促成“产、学、研、用”深度交融的典范。其将论文中的立异算法快速转化为现实产物功效,让学术研究到财产运用无缝跟尾。
记者相识到,经由过程0.8B模子集成6语种的能力,以“开箱即用”展示“小而精”的端侧模子一样可以具有强盛的繁杂使命处置惩罚能力。这也挑战了以往“参数目决议一切”的刻板印象,打开模子轻量化与机能均衡的新线路。
让世界“听”见中国AI的声音
事实上,荣耀端侧语音年夜模子的冲破,也是其于“阿尔法战略”指引下,深耕AI范畴、对峙“从用户需求出发”研发理念的成果。
阿尔法战略夸大“连续性”与“前瞻性”投入。从自研MagicGUI年夜模子用意理解的精准冲破,到如今端侧语音年夜模子实现离线及时翻译,时下荣耀正一步步构建起一个笼罩感知、理解与办事的全栈AI矩阵。
而这一技能对于用户体验的晋升,也表现于“从被动相应到自动办事”的转型。荣耀的AI矩阵整合了此前开源的MagicGUI用意辨认年夜模子,联合端侧语音模子,体系不仅能翻译指令,更能深度理解用户需求。
“AI技能的最终价值于在更好地办事用户”孙建发说,“端侧AI是实现隐私安全与极致体验均衡的最优路径。”
值患上一提的是,这项立异不仅让消费者的手机拥有更靠近人类感官的“耳朵”,还有以更低延迟、更高正确性“听懂”多样化的语言指令;与此同时,“隐私优先”导向确保所有语音数据于装备当地处置惩罚,杜绝云端泄露危害。
放于更年夜维度来看,这也意味着中国科技气力的突起。于已往,中国AI技能常被贴上“跟随者”标签,但INTERSPEECH的承认,无疑将为荣耀打开更广漠的国际互助空间,鞭策荣耀AI技能尺度与方案走向世界。
业内子士认为,荣耀立异将加快语音年夜模子向轻量化演化,将动员更多企业摸索当地化AI,消弭全世界“数字鸿沟”的语种障碍。
回望这场从论文到产物的路程,荣耀用0.8B参数的轻量化古迹让AI“听懂”世界。可以预感,将来,跟着更多语种笼罩及场景延长,这场“听见”的厘革将点亮更智能的糊口。
(受访单元供图)
-米兰官网