12. 常见模型

12.1. 视觉语言大模型

12.2. 语音大模型

  • 阶跃星辰

  • Step-Audio

  • https://github.com/stepfun-ai/Step-Audio

  • 是一个开源的智能语音交互框架,集成了语音理解和生成能力,支持多语言对话(如中文、英文、日语),并能处理情感语调(如快乐、悲伤)和地方方言(如粤语、四川话)。

  • 其主要特点和技术创新包括:
    • 130B 参数多模态模型:一个统一的模型,集成语音识别、语义理解、对话、语音克隆和语音合成能力,并且有 Step-Audio-Chat 变体开放源代码。

    • 生成数据引擎:通过该模型生成高质量音频,避免传统语音合成依赖手动数据采集,且有 Step-Audio-TTS-3B 模型具备更强的指令跟随能力。

    • 语音控制精准调节:通过指令调节支持情感(如愤怒、快乐、悲伤)、方言(如粤语、四川话)和音色风格(如说唱)等。

    • 增强的智能:通过集成 ToolCall 机制和角色扮演增强模型在复杂任务中的表现。