性爱大师第一季百度端到端语音语言大模子破局出圈，对话超传神、老本最高降90%，1秒极速反应

发布日期：2025-04-02 22:25 点击次数：76

性爱大师第一季

智东西

大香蕉网伊人在线作家 | 程茜

裁剪 | 漠影

语音交互又被玩出新技俩？！

智东西4月2日报谈，本周一，百度发布业界首个基于全新相互关耀眼力（Cross-Attention）的端到端语音语言大模子，已首发上线文小言，可免费体验。

用几个要津词抽象新升级的文小言即是：语音交互超传神、超低时延、超低老本。

超传神指的是，搭载语音语言大模子的文小言，既能听得懂重庆、广西、河南、广东、山东等特色方言，还能闭幕情谊充足对话；超低时延是其对话中可将用户恭候时长从行业常见的3-5秒裁汰至1秒傍边，险些与真东谈主对话无异；超低老本指在电话语音频谈的语音讯答场景中，调用老本较行业均值下落约50%-90%。

百度语音首席架构师贾磊深刻，该模子不错部署到L20卡上，在知足语音交互延长条目的情况下，双L20卡的并发不错作念到几百以上。目下，语音语言大模子的磨真金不怕火进程浅显，基本上基于文心大模子几百片卡优化一周就不错闭幕，且自己的优化使命也并不复杂。

比较于大模子在语音交互场景的应用，这一语音语言大模子的私有之处是什么？又是怎样作念到最高裁汰达到90%的调用老本？其背后的改进点该怎样解读？智东西与百度语音首席架构师贾磊进行了深入交流，试图找到这些问题的谜底。

一、真东谈主对话体验，升级版文小言语音交互更丝滑

大模子在语音交互场景的发展，正朝着更当然、低延长、高拟确凿语音交互体验演进。而这一更为拟东谈主化的交互体验，咱们在新升级的文小言上窥到了雏形，搭载了端到端语音语言大模子的文小言，还是化身情谊陪同、万能助手。

率先，文小言还是集成了包含天气查询、日期查询、单元换算、股票股价等信息查询的38个垂类助手，不错看出这些非凡场景下，语音交互的遵循要远高于文本交互。

其次，文小言关于时效性和非时效性问题均能草率，百科查询、时政知识类时效性问答内容，文小言不错进行实时检索，并作念到精确的指示随从，裁汰幻觉；知识问答等非时效性问题也不在话下。

终末，亦然语音交互与文本最大的区别地方，文小言不错与用户进行情谊当然充沛的交流，并能作念到快速反应反馈，闭幕传神拟东谈主的交互遵循。

话未几说，来望望文小言的现实遵循。

语音识别的一浩劫点莫过于方言识别。方言的发音特色丰富种种，湮灭方言在不同地区可能存在发音相反，以致湮灭个字在不同语境下发音也有所不同。这使得语音识别系统难以准确捕捉妥协析总计的发音变体，增多了识别的难度。当下的文小言，还是不错草率重庆、广西、河南、广东、山东各地特色方言，其不仅听得懂，还能使用对应的方言进行回复。

语音交流还有一大特色即是需要多轮交互，举例底下的例子中，文小言既从成年、少小不同维度给出了分辨皋比鹦鹉的设施，还在用户打断提倡新问题时性爱大师第一季，实时予以正确的反馈。

即使回复中包含分辨皋比鹦鹉性别、需要从某一固定特征离别等诸多身分，文小言也给出了片言只字的谜底，况兼在终末还教唆用户不错边不雅察边纪录。

此外，东谈主机交互每每伴跟着半途打断的情况，如用户获取了我方思要的中枢信息大意对其目下输出的内容不酣畅等等，当用户打断语音播放进行输入时，语音识别系统可能会因为环境杂音、用户发音不明晰或与之前的语音内容欺侮等原因，出现误识别的情况。

在面对小一又友屡次打断的情况下，文小言不错准确识别出其“换一个故事”的需求，况兼当小一又友说出“姆妈还是讲过”时，并不是机械遴荐更换故事，而是当令给出多情谊的回复，营造出当然对话的氛围。

文小言这一情谊充足的交互形式，也使得其在知识问答等助手场景下，向着陪同场景下的应用外延。当用户提到“我的激情有点不好”，文小言的语音带有惦记等，并带领用户说出我方激情不好的原因，进一步进行迷惑。

二、全新相互关耀眼力，打造极低训推老本上风

不同于语言模子，语音语言大模子的中枢相反点即是不错产生情谊。

贾磊谈谈，文本大模子只产生笔墨，而语音语言大模子不错多情谊，其要津即是语音语言大模子架构图中的两个非凡门径，T韵律和东谈主设、立场情谊截止，这是为语音合成而准备，不错让大模子在生成谜底的同期领有适配内容的情谊，这亦然百度这次端到端语音语音大模子的要津改进点地方。

具体来看，其要津改进点有4个。

率先，这是百度发布的业界首个基于Cross-Attention跨模态的语音语言大模子；其二是该模子将Encoder和语音识别联结，使得KV狡计简易到1/10；第三是Encoder和语音合成联结，输出内容可进行情谊截止；终末是高效的全查询耀眼力EALLQA，使得KV cache裁汰到几相等之一。

在此基础上，该模子闭幕了识别文本一体化、文本合成一体化，这些相互耦合的技能在系统性端到端买通之上，使得模子在快速问答、快速清楚的基础上，能闭幕当然、传神、情谊丰富的交互体验。

贾磊阐明说，声学模子亦然语音模子，仅仅每每大语言模子齐是笔墨贯串。因此在整合语音识别和大语言模子的过程中，计划东谈主员将大语言模子中的Encoder和语音识别的过程交融分享，达到裁汰语音交互硬延长的指标，其改进性引入跨模态建模，从Self-Attention切换到Cross-Attention，完成了语音识别和大语言模子的交融。

百度提倡用Cross-Attention来措置语音、语言跨模态的痛楚。这一过程中，由于现有Attention技能在Cross-Attention的语音语言建模中存在速率方面的局限性，百度研发了相宜Cross-Attention的EALLQA技能，接收隐式RNN两级位置编码，磨真金不怕火时在128空间上的MHA，推理在模子各层分享的512空间上的MQA，以达到充分诳骗有限磨真金不怕火资源，裁汰推理老本的指标。

模子基础磨真金不怕火中，百度基于Self-Attention的老练的文心语言的预磨真金不怕火模子，接收自蒸馏方式进行post-train来磨真金不怕火Cross-Attention端到端语音语言大模子。

事实上，在语音模子中，KV cache和KV狡计的压力雄壮于文本模子。贾磊阐明说，语音识别相干于文本大模子的实质相反即是，句首第一个token决定了语音识别的延长。关于文本大模子，其不错在用户输入一段笔墨后恭候2～3秒钟给出谜底，而语音语言大模子中，用户关于回复延长的可容忍度更低，他们但愿在0.5～1秒内听到谜底。

在此基础上，端到端语音语言大模子闭幕了低老本磨真金不怕火、低老本高速推理。除此除外，语音语言大模子还需要快速反应、多情谊的复兴，这即是其另一项要津技能发力的场景——流式逐字的LLM动手的厚情谊语音合成。贾磊谈谈，多轮多情谊地抓续相似智商让东谈主有祈望不时交流。

基于流式逐字的方式，其语音合成是看到一个字蹦一个字，大模子不错匡助语音合成输出其需要的文本归一化输出、韵律停顿输出、情谊输出，使得语音合成的过程像东谈主语言时一样流动起来，其笔据文本输出自适配的情谊遮掩可达17种。

此外，语音识别中还有一大痛点是，其无法判断用户语言的着手和止境，而大模子加抓不错使其基于语义分析用户说的话是否还是闭幕，语义不无缺需不时恭候。

贾磊进一步阐明谈，语音场景被激活需要极地交互老本、极快寄托速率、机灵富足情谊的东谈主性化的问答。百度将语音识别和大模子一体化，措置了预存预取、盘桓、内容清楚和快速问答的问题，将文本合成一体化与大模子交融，输出语音和中所需的韵律情谊，措置了合成中的荆棘文清楚和情谊截止问题。这就使得语音场景的应用后劲大幅栽种。

三、直击语音交互难点，百度端到端语音语言大模子放大招

大模子不断优化在语音的肃穆性、当然度和语言东谈主相似度方面显贵栽种，但此前的技能旅途仍有好多痛点，这亦然百度聚焦于端到端语音语言大模子的原因。

比较于东谈主和东谈主之间的交流，大语言模子反应速率慢，用户需要恭候一段时刻智商得到回复。此外，语音交流每每伴跟着多轮对话交互，而模子完成白话化多轮交互的难度极大，且比较于文本，用户使用语音交互的场景更多，其交互量激增会导致大模子应用老本飞腾，大范畴应用普及的难度也会随之增高。

而在传统语音交互阶梯上，又会受限于荆棘文记挂、杂音表情、盘桓提问和打断之间的准确反应。

因此这成为语音交互领域的一个中枢矛盾点，语音交互的浅显性决定了其有大范畴应用的后劲，而这些痛点又正在蒙胧其普及。贾磊合计，语音和文本两个跨模态之间相互干系的化学反应，即是未来大模子在特定领域找到冲破口的要津。

语音语言模子的出现是质变，其改进合成技能使得模子不需要看到一句话的总计这个词文本，而是看到一个字的文本就不错合成一个字，在此基础上，百度挖掘到了私有的应用场景。他举了一个例子，如探讨天气时，用户获取了天气的温度区间就不错快速打断问下一个问题，其平允即是大幅裁汰了模子的使用老本，而文本模子思要闭幕如斯高效应用就需要强盛的硬件，但语音语言模子不错使用低老本的硬件就能闭幕高效并发。

与此同期，从总计这个词语音交互领域来看，大模子语音识别部分的准确度还是大幅栽种，贾磊合计更多在于速率、老本、回答准确度的一种比拼，当下老本裁汰，即是大范畴使用跨模态语音交互的要津。

贾磊说：“老本裁汰是技能逾越的势必方式。” 百度语音语言大模子的极低老本也就意味着大范畴工业化的可能，AI落地应用是2025大模子产业发展的中枢，而该模子即是措置语音讯题的要津。

百度在语音识别领域的积聚由来已久。

2018年，百度语音发布的Deep Peak 2模子冲破了沿用十几年的传统模子，大幅栽种各场景下识别准确率。2019岁首，百度语音技能团队公布在线语音领域环球始创的流式多级的截断耀眼力模子SMLTA，相瞄准确率栽种15%。2021年，百度发布基于历史信息抽象的流式截断conformer建模技能——SMLTA2，措置了Transformer模子应用于在线语音识别任务时濒临的问题。

这些技能改进还是应用于汽车、升天电子、手机等诸多领域。这次，为了鞭策语音语言模子的范畴化应用，目下，百度还是将其上线文小言并免费盛开，况兼筹画4月上线到盛开平台，后续将接入招呼中心、音箱等业务线上。

贾磊提到：“科学可能有国界，但莫得公司规模。”后续，百度将端到端语音语言大模子盛开出来，即是思鞭策大语言模子在语音领域的应用，故意于总计这个词行业和生态的发展。

结语：百度语音语言大模子出鞘，开启低本高效新篇

浅显高效、当然友好、宽泛应用于多场景的语音交互在数字化时间地位至关进攻，但从目下的现实遵循来看，语音交互在识别的准确度等方面还是有了很大栽种，目下业界的竞争焦点蚁集于其识别的速率、老本以及回答的准确度。

这么的布景下，百度端到端语音语言大模子的发布进一步冲破了老本性爱大师第一季，且提倡了全新技能旅途，将语音交互的行业竞争推上了新的高度。与此同期，百度将其上线到盛开平台，将加快大模子在语音交互场景的应用与普及。

热点资讯

性爱大师第一季 百度端到端语音语言大模子破局出圈，对话超传神、老本最高降90%，1秒极速反应

性爱大师第一季百度端到端语音语言大模子破局出圈，对话超传神、老本最高降90%，1秒极速反应