谷歌干掉了“等你说完才翻译” 70+语言边听边译

新智元 2026-06-11 12:41+-

一句话还没说完,译音已经响在你耳边——而且是对方的语速、对方的语调,只慢几秒。刚刚,Google 甩出了 Gemini 3.5 Live Translate。这是它最新的语音对语音翻译模型,一句话概括:把“等你说完再翻”的老规矩,直接掀了。

Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股“二十年磨一剑”的底气:

语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。

把“对讲机”式翻译给掀了过去的翻译机大家都熟。

你说一句,它憋着,等你把话说完,再吭哧吭哧翻给对方。

一来一回,节奏全断,俩人像在打对讲机。

更要命的是,真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。

Gemini 3.5 Live Translate 不这么干。它边听边译,话音未落,译音先到。

这背后是一套相当微妙的平衡术:多等一会儿,上下文听得更全,翻得更准;立刻开口,能紧紧跟住说话人,但可能猜错后半句。

谷歌干掉了“等你说完才翻译” 70+语言边听边译

谷歌干掉了“等你说完才翻译” 70+语言边听边译

模型就在这两头之间逐字逐句地反复拿捏,最终交出的效果是——输出连贯、没有尴尬的卡顿,全程只落后说话人几秒。

更绝的是声音本身。

它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音,是带着你说话味儿的声音。你着急,译音也跟着急;你慢条斯理,译音也悠着来。

DeepMind 同步放出的模型卡透了点底:这个模型基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文,评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。

谷歌干掉了“等你说完才翻译” 70+语言边听边译

换句话说,Google 给它定的 KPI 不是“翻得对”,而是“聊得顺”。

它能一口气认 70 多种语言,而且全自动识别,你中途换种语言它也能跟上,不用手动设置。环境吵也不怕,菜市场、机场、马路边都能用。

开发者、企业、普通人,一个不落这次 Google 玩得很狠,三条线同时铺开。

开发者,通过 Gemini Live API 和 Google AI Studio 公测,今天就能上手;企业,本月起在 Google Meet 私测;普通人,Google Translate 的安卓和 iOS 版全球上线——点开 App 左下角的“实时翻译”,接上任意一副耳机就能用。

谷歌干掉了“等你说完才翻译” 70+语言边听边译

最让打工人有感的是 Google Meet。以前它的语音翻译只支持 5 种语言,而且只能在英语和其他语言之间打转。

现在一口气干到 70+,单场会议能撑起 2000 多种语言组合——英语、普通话、瑞典语满桌子飞,谁说什么对方都能秒懂。

安卓还藏了个细节:“聆听模式”。把手机像打电话一样贴到耳边,译音直接从听筒里钻进来,旁人听不到。

跟个西语导游团、临时没带耳机,掏出手机往耳边一贴就能救急。

每月一千万通电话光说参数太虚,看个真实场景。

Google 找了东南亚的 Grab 来试。司机说本地话,乘客听到的是自己的母语,接驾常用的那几句“你在哪”、“我马上到”不再鸡同鸭讲。

要知道,Grab 用户每月要打超过 1000 万次语音电话——这不是发布会上的 Demo,是真要塞进千万次日常对话里跑的活儿。

除了 Grab,CJ ENM、LiveKit 这些公司也提前上手试过,反馈都指向同一点:质量、准确度、低延迟。

开发者这边也省了大力气。

Agora、Fishjam、LiveKit 一票平台已经接入 Gemini Live API,把最难啃的实时媒体流基础设施全包圆了——采集、传输、回声消除这些脏活累活有人扛,开发者只管做体验。

视频配音、多语直播、跨语言客服、在线课堂,全是现成的落点。

二十年长跑,跑进耳机里往回看一步,你会发现这事儿 Google 憋了很久。

20 年前,Google 翻译只是一个开创性的小实验,想把语言这门科学,变成人和人连接的魔法。

如今每个月,它要为数十亿用户翻译超过一万亿个单词。

从“把文字翻成文字”,到“拍张照翻菜单”,再到今天“把你说的话实时变成另一种语言的声音”,这条路走了整整二十年。

当然,话别说太满。

谷歌官方自己也标了限制:目前只吃音频输入;遇上重口音、快速来回切语言、好几个人抢着说、或者长时间停顿,声音复刻还可能不稳。

它不是终点,但是一个相当能打的起点。

方向已经很清楚了。同声传译曾经是顶尖译员才扛得下来的活儿,一小时几千块,还得提前一周备稿。

现在,它正变成耳机里一个默默运转的功能,随叫随到。

当语言不再是墙,剩下的,就只有人和人想不想聊了。