Product Hunt
Product Hunt 每日热榜

发现最新、最有趣的产品和创业项目

VoxCPM2

VoxCPM2

开源 48kHz 文本转语音模型,支持语音设计与克隆

VoxCPM2

产品介绍

VoxCPM2 是一个 20 亿参数的开源 TTS 模型,支持 30 种语言,输出 48kHz 高质量音频,仅通过文本即可进行语音设计,实现可控的语音克隆,其实时流式处理速度足以满足生产级语音工作流需求。

适合谁关注

  • 开发者和技术团队
  • 设计师、内容创作者和视觉团队
  • 教育产品团队和学习工具用户
  • 正在评估 AI 工具或智能体落地的团队

可借鉴场景

  • 快速理解 VoxCPM2 的定位、核心能力和 Product Hunt 热度
  • 判断“开源 48kHz 文本转语音模型,支持语音设计与克隆”这类需求是否值得做竞品调研
  • 沿着 开发者工具、AI 与智能体 继续发现同类产品和替代方案
  • 筛选高票产品,观察海外用户当前愿意投票支持的产品形态
111
投票数
3
评论数
4月13日
发布日期

作者自荐

大家好! VoxCPM2 是来自 @MiniCPM 家族的下一代开源音频模型,它完美继承了该系列标志性的"能力密度"特质——将所有功能都集成在一个仅 20 亿参数的模型中! 尽管模型尺寸极为紧凑,但其功能集在开源发布中却相当罕见: 语音设计:无需寻找完美的参考音频进行克隆,可以直接通过提示词驱动模型(例如:(一位年轻女性,温柔甜美的声音)你好,世界。)。它能即时生成一个全新的声音。 原生 48kHz 输出:内置超分辨率 VAE,意味着无需外部上采样器即可获得录音室品质的音频。 可控语音克隆:可以从短音频片段克隆声音,同时仍能通过文本提示词控制情感、语速和风格。 生产就绪:其实时流式处理的 RTF 约为 0.13,并在 Apache-2.0 许可下完全开源。 看到这种水平的可控、高保真音频以如此轻量级的形态进入开源生态系统,令人倍感振奋。 欢迎在此试用!

总结

VoxCPM2 代表了开源语音合成领域的一次重要突破。其核心创新在于将语音设计、高质量克隆和实时流式处理三大功能,前所未有地集成在一个仅 20 亿参数的轻量级模型中,实现了极高的"能力密度"。这解决了传统 TTS 模型在灵活性(依赖参考音频)、音质(需要后处理)和部署成本(模型庞大)之间的权衡难题。其"仅凭文本生成新声音"的功能,为内容创作者和开发者提供了前所未有的创意自由度,而可控克隆则确保了品牌声音的一致性。目标用户包括游戏、有声书、虚拟助手和广告制作等领域的开发者。该模型以 Apache-2.0 协议开源,将显著降低高质量语音合成的技术门槛和成本,可能加速语音交互应用的创新。潜在挑战在于,其多语言支持的实际效果仍需在更广泛的语料和口音上进行验证。

GitMemo免费开源

把 AI 对话保存到你的 Git 知识库

本地优先,支持 macOS 与 Android。剪贴板、截图、笔记和文件都能集中保存、搜索、同步。

获取安装包