1、GPT4o
不开源
2、Moshi
开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型名为 Moshi,具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道:「Moshi 能听懂带有法国口音的英语。」据悉,该团队开发这个模型仅用了 6 个月。
Moshi 的背后:合成数据立大功
Moshi 的设计目的是理解和表达情感,具有诸如用不同口音(包括法语)说话的能力。它可以聆听和生成音频和语音,同时保持文本思维的无缝流动。Moshi 的一个突出特点是能够同时处理两个音频流,使其可以同时聆听和说话。这种实时交互基于文本和音频混合的联合预训练,利用来自 Helium 的合成文本数据,这是一个由 Kyutai 开发的 70 亿参数语言模型。
展望未来,Kyutai 对 Moshi 有雄心勃勃的计划。团队计划发布技术报告和开放模型版本,包括推理代码库、7B 模型、音频编解码器和完整的优化堆栈。未来版本如 Moshi 1.1、1.2 和 2.0 将根据用户反馈改进模型。Moshi 的许可旨在尽可能宽松,促进广泛采用和创新
3、SpeechGPT2
2024年7月 复旦大学近日公布一款新款语音模型SpeechGPT2,不仅能够理解语音和文本,还能够在这两者之间自如转换。
SpeechGPT2使用了一种超低比特率的语音编解码器(750bps),
简单来说就是它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语,SpeechGPT都能够根据需要生成相应风格的语音,这得益于其超过10万小时的学术和野外收集的语音数据,这些数据涵盖了丰富的语音场景和风格。