在2025年的初夏,全球的目光聚焦于日本,共同见证了2025世博会的盛大开幕。尽管这届世博会因筹备时间紧迫而在网络上引发了不少争议,但它无疑为观众带来了诸多意想不到的乐趣。尤其是日本媒体在采访中所使用的翻译设备,因误将“有看到什么厉害的东西吗?”翻译为“有什么了不起的?”,成为了网络上广为流传的一段佳话。
尽管这只是翻译设备因上下文理解不足而导致的小误会,但从用户的角度来看,翻译设备作为跨语言交流的桥梁,确实需要一个更为清晰明确的能力边界定义。正如汽车的辅助驾驶和自动驾驶有着明确的分类一样,翻译设备也迫切需要一个类似的评级系统。
回顾过去,那些被90后学生当作掌机来玩的电子词典,只能被归类为L1级别的翻译设备。这类设备本质上就是一个数字化的、支持快速搜索和朗读功能的字典,其翻译引擎基于传统的文本引擎,只能进行最基本的词对词翻译。即使你输入一整句话,L1翻译设备也只能逐词翻译,导致诸如将“白花了”错误地翻译为“White Flowers”这样的笑话频出。
L2级别的翻译设备在原理上与L1相似,同样是基于词对词的映射翻译。但L2设备增加了语音识别模块,可以自动将语音转写成文字,省去了用户手动输入的麻烦。后来,部分品牌还将L2翻译技术集成到了耳机中,但即便是“翻译耳机”,也未能改变单向翻译的逻辑,即一人说话,另一人只能等待翻译完成。
然而,L3级别的翻译技术却是一个分水岭。由于引入了AI大模型,L3翻译设备具备了理解语义和上下文联系的能力。同时,多模态模型等技术也显著加快了语音翻译的速度。在体验上,L3翻译设备借助矢量降噪技术,实现了双向同传的突破,成为了目前体验最好的翻译模式。遗憾的是,目前谷歌、苹果等企业仍停留在L2级别。
不同AI翻译模型的能力千差万别,有些品牌能做到语义、情绪的精准传达,而有些则只能提供“仅供参考”的翻译结果。开头提到的“有什么了不起的?”便是一个典型的翻译错误案例。
但并非没有值得称赞的翻译案例。前段时间,时空壶再次登上《新闻联播》,成为了AI同传技术的代表,也是目前唯一一款达到L3水准的AI同传耳机。
在《新闻联播》中,记者用近4分钟的时间向外界展示了时空壶如何利用AI技术在翻译领域取得的突破。这已经是时空壶在2025年内第二次登上央视舞台。作为成立近十年的“老企业”,时空壶是如何在AI时代找到自己的竞争力的呢?
在雷科技看来,时空壶之所以能在短时间内坐上翻译设备的头把交椅,并将领先优势延续了近十年,这背后离不开其对翻译软硬件技术的深度探索。时空壶突破了双向同传的技术限制,率先迈入了L3翻译的阶段,并在场景拓展、AI大模型升级等方面实现了飞跃,与传统的L2翻译设备拉开了体验的代差。
传统的L2翻译设备,无论是手持的翻译机还是佩戴的翻译耳机,都无法摆脱L1翻译效率低、错误率高的问题。即使从文字输入转变为语音输入和TTS语音输出,其算法仍然基于老旧的L1翻译模式。这导致L2时代的翻译耳机需要极长的翻译时间,只能实现“伪同传”。
而且,为了控制成本,这些L2翻译耳机通常基于市面上成熟的TWS公模开发。但这些公模TWS显然不会针对翻译耳机特殊的工作环境(背景噪声大、对话距离近、佩戴时间长、人声降噪要求高)进行优化。以雷科技参加CES等海外展会的经历为例,普通的翻译耳机几乎无法准确识别双方的对话内容,更不用说进行准确的翻译了。
其中,对用户体验影响最大的便是L2翻译耳机的“伪同传”问题。在参加CES、MWC等海外展会时,雷科技通常都带有采访任务。为了保证双方发言的准确性,我们在采访时通常都会说各自的母语,再由翻译设备进行翻译。然而,L2翻译耳机的单向同传短板便暴露无遗。由于翻译耳机一次只能处理一个人的说话内容,无论是从现场收音质量还是模型翻译质量的角度来看,使用L2翻译耳机进行采访都会严重影响双方的交流效率。
相比之下,L3翻译的双向同传模式允许对话双方各说各话,各自的同传会将译文同时输出给对方,省去了单向翻译中的等待步骤。人类的交流天生是双向的,因此双向同传模式更符合人类母语交流的习惯。
然而,要实现双向同传并非易事。首先,在面对面交流中,翻译设备难以区分发言人。在嘈杂的展馆中,使用翻译耳机时必须足够大声,但传统翻译耳机的收音模式未经优化,很容易将双方的声音都捕捉到,导致翻译混乱。
传统L2翻译耳机缺乏上下文联系的能力,本身也不适合采访这种深度、长时间、贯穿上下文的对话模式。即使准备两套翻译设备,也只会带来双倍甚至更多的麻烦。这也是市面上大多数翻译设备不提供双向翻译模式的根本原因。
但时空壶却迎难而上,凭借双向同传及其背后的技术挑战,在众多翻译设备中脱颖而出。时空壶利用软硬合一的矢量降噪技术优化了收音效果,为双向翻译的语音识别准确率打下了基础。2021年,时空壶发布了第一代双向同传耳机W3,标志着行业在双向翻译(L3翻译)中取得了从零到一的突破。
作为W3的“继任者”,W4 Pro基于W3的成功经验,针对W3的体验短板做出了多项改进。在IFA期间,雷科技发现W4 Pro的长杆耳机造型、每边三麦克风阵列以及时空壶的软件降噪技术,不仅可以在嘈杂环境中准确捕捉对话的声音,还能精确地将对话双方的声音分离,确保每只耳机“只听一人讲话”。这一矢量降噪技术从源头确保了翻译原声的准确度。
在翻译环节,时空壶也充分开发、整合了AI大模型的能力。在时空壶App中,W4 Pro翻译耳机的用户可以随时切换传统的AI机器翻译(NMT模式)和大语言模型翻译(LLM翻译模式)。得益于大模型的加入,时空壶的双向翻译具备了对上下文的理解能力,可以根据历史对话排除不符合语境的多音字、多义词分支,获得更准确的翻译效果。
以大语言模型驱动的翻译模式为例,它能够准确识别出“手冲咖啡”中的冲洗和冲泡,并给出正确的译文,避免“直译”带来的误会。大语言模型的加入还让时空壶具备了“过滤”能力,可以过滤掉用户重复的语气辅助词和因紧张、口吃而重复说出的词。
在功能拓展方面,W4 Pro也沿着双向同传的路径,拓展出了电话翻译、音视频翻译等场景,带来了“全场景翻译”的能力。而最重要的是,大语言模型对翻译的“提速”。传统的NMT(神经机器翻译)模式必须等句子说完才能开始翻译流程,这是双向同传真正的“卡脖子”之处。但大语言模型的加入让时空壶具备了理解上下文的能力,能够准确“预判”双方的含义和原句的完成进度,像真人同传那样进行“开放式翻译”,在句子说完之前就输出译文,并根据原文的语义及时调整输出的译文。