MiMo-V2.5 Voice

Name: MiMo-V2.5 Voice
Brand: MiMo-V2.5 Voice
Availability: InStock

支持方言、语码切换和歌曲场景的双语 ASR

API 开源人工智能 GitHub

在 Product Hunt 查看访问官网

产品介绍

MiMo-V2.5-ASR 是小米推出的 80 亿参数开源语音识别模型，可转写普通话、英语、八种中文方言、语码切换语音以及歌曲歌词。面向构建真实场景语音应用的机器学习工程师、研究人员和开发者。

适合谁关注

开发者和技术团队
创业者、投资人和财务团队
教育产品团队和学习工具用户
正在评估 AI 工具或智能体落地的团队

可借鉴场景

快速理解 MiMo-V2.5 Voice 的定位、核心能力和 Product Hunt 热度
判断“支持方言、语码切换和歌曲场景的双语 ASR”这类需求是否值得做竞品调研
沿着开发者工具、AI 与智能体继续发现同类产品和替代方案
筛选高票产品，观察海外用户当前愿意投票支持的产品形态

115

投票数

评论数

4月25日

发布日期

作者自荐

Whisper 改变了人们对开源 ASR 的预期。三年后的今天，榜单已经很不一样。产品是什么：MiMo-V2.5-ASR 是来自 Xiaomi MiMo 的 80 亿参数开源语音识别模型，采用 MIT 许可证，已在 HuggingFace 提供下载，面向方言、嘈杂音频、语码切换语音和歌曲歌词场景下的中英双语转写。问题在于：大多数 ASR 模型在干净的录音室数据上完成基准测试，却被部署到真实世界中；而真实音频往往充满噪声、多人重叠说话，甚至一句话里就会切换语言。评测精度与生产精度之间的落差，正是很多语音产品悄悄失效的地方。解决方案：采用分阶段训练，结合大规模中期训练、监督微调，以及专门针对传统模型失效场景的强化学习算法。基于韵律原生生成标点，转写结果可直接使用。差异化之处：在 Open ASR Leaderboard 上，MiMo-V2.5-ASR 的英文平均词错率 WER 为 5.73%，优于 Whisper large-v3 的 7.44%；吴语场景为 19.55%，优于 FunASR-1.5 的 29.08%；歌词场景在 m4singer 上达到 3.95%，优于 Gemini 2.5 Pro 的 4.25%。这些不是刻意挑选的容易场景，而是最难的那一类。核心特性：原生支持八种中文方言，包括吴语、粤语、闽南语、四川话无需语言标签即可处理中英语码切换在伴奏和音高变化下仍可进行歌词转写对多人说话和嘈杂环境具备更强鲁棒性原生输出标点，无需后处理提供 MIT 许可证、Python API、Gradio 演示，并支持自托管实际收益：在真实业务现场常见的音频条件下，也能提供生产级精度一个模型即可替代多套区域化或垂直领域 ASR 方案自托管可免除按次调用的 API 成本，并将数据保留在自有基础设施中可直接使用的带标点输出，能为下游流程减少一道处理环节适用人群：面向构建双语或中文转写流程、且需要在实验室之外仍保持稳定精度的机器学习工程师和语音产品团队。多年来，开源 ASR 一直在追赶闭源模型。MiMo-V2.5-ASR 说明，这个差距已经非常小，某些场景下甚至已经消失。

总结

MiMo-V2.5 Voice 的价值不只是在开源语音识别榜单上取得更好成绩，更在于把评测重点从实验室里的干净语音，拉回方言、噪声、多说话人和歌词这些真实业务场景。它明显面向中文语音产品团队、研究者和需要自部署的开发者，既兼顾精度，也兼顾成本与数据可控性。单模型覆盖多区域和多任务，是其市场竞争力所在；但后续能否形成稳定生态、持续完善文档与工程工具，决定了它能否从技术亮点走向广泛落地。

GitMemo免费开源

把 AI 对话保存到你的 Git 知识库

本地优先，支持 macOS 与 Android。剪贴板、截图、笔记和文件都能集中保存、搜索、同步。

获取安装包