当前位置:首页>科技 >内容

Meta最新的人工智能套件使语音翻译更加无缝和富有表现力

2023-12-05 09:45:22科技自然的汉堡

早在 8 月份,Meta 就推出了其多模式 AI 翻译模型SeamlessM4T,该模型支持近 100 种文本语言和 36 种语音语言。通过更新的v2架构

早在 8 月份,Meta 就推出了其多模式 AI 翻译模型SeamlessM4T,该模型支持近 100 种文本语言和 36 种语音语言。通过更新的“v2”架构,这家科技巨头现在正在扩展该工具,以使对话翻译更加自发和富有表现力——后者是跨语言真实对话的缺失关键。

Meta最新的人工智能套件使语音翻译更加无缝和富有表现力

这两个新功能中的第一个是“SeamlessExpressive”,正如您从名称中可以看出的那样,它将您的表情移植到翻译的语音中。这些包括你的音调、音量、情绪基调(兴奋、悲伤或耳语)、语速和停顿。考虑到迄今为止,翻译后的演讲听起来总是机械的,这一突破可能会改变游戏规则——无论是在我们的日常生活中,还是在内容制作中。支持的语言包括英语、西班牙语、德语、法语、意大利语和中文,但在撰写本文时演示页面缺少意大利语和中文。

第二个功能是“无缝流媒体”,它可以在讲话者仍在讲话时开始翻译语音,从而使其他人能够更快地听到翻译。虽然仍然有不到两秒的短暂延迟,但至少您不必等到有人说完一句话。根据 Meta 的说法,这里的挑战是不同的语言有不同的句子结构,因此它必须开发一种专门研究部分音频输入的算法,以便决定是否有足够的上下文来开始生成翻译输出,或者是否继续收听。

Meta 在这一“无缝通信”套件上的最新开发似乎令人印象深刻——比谷歌和三星等公司提供的移动解释器工具更令人印象深刻。目前还没有关于公众何时能够使用这些新功能的消息,但我已经可以想象有一天Meta 将它们融入到其智能眼镜中,使它们比以往任何时候都更加实用。

声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

Top