VoxCPM2

Name: VoxCPM2
Brand: VoxCPM2
Availability: InStock

开源 48kHz 文本转语音模型，支持语音设计与克隆

开源人工智能音频

在 Product Hunt 查看访问官网

产品介绍

VoxCPM2 是一个 20 亿参数的开源 TTS 模型，支持 30 种语言，输出 48kHz 高质量音频，仅通过文本即可进行语音设计，实现可控的语音克隆，其实时流式处理速度足以满足生产级语音工作流需求。

适合谁关注

开发者和技术团队
设计师、内容创作者和视觉团队
教育产品团队和学习工具用户
正在评估 AI 工具或智能体落地的团队

可借鉴场景

快速理解 VoxCPM2 的定位、核心能力和 Product Hunt 热度
判断“开源 48kHz 文本转语音模型，支持语音设计与克隆”这类需求是否值得做竞品调研
沿着开发者工具、AI 与智能体继续发现同类产品和替代方案
筛选高票产品，观察海外用户当前愿意投票支持的产品形态

111

投票数

评论数

4月13日

发布日期

作者自荐

大家好！ VoxCPM2 是来自 @MiniCPM 家族的下一代开源音频模型，它完美继承了该系列标志性的"能力密度"特质——将所有功能都集成在一个仅 20 亿参数的模型中！尽管模型尺寸极为紧凑，但其功能集在开源发布中却相当罕见：语音设计：无需寻找完美的参考音频进行克隆，可以直接通过提示词驱动模型（例如：（一位年轻女性，温柔甜美的声音）你好，世界。）。它能即时生成一个全新的声音。原生 48kHz 输出：内置超分辨率 VAE，意味着无需外部上采样器即可获得录音室品质的音频。可控语音克隆：可以从短音频片段克隆声音，同时仍能通过文本提示词控制情感、语速和风格。生产就绪：其实时流式处理的 RTF 约为 0.13，并在 Apache-2.0 许可下完全开源。看到这种水平的可控、高保真音频以如此轻量级的形态进入开源生态系统，令人倍感振奋。欢迎在此试用！

总结

VoxCPM2 代表了开源语音合成领域的一次重要突破。其核心创新在于将语音设计、高质量克隆和实时流式处理三大功能，前所未有地集成在一个仅 20 亿参数的轻量级模型中，实现了极高的"能力密度"。这解决了传统 TTS 模型在灵活性（依赖参考音频）、音质（需要后处理）和部署成本（模型庞大）之间的权衡难题。其"仅凭文本生成新声音"的功能，为内容创作者和开发者提供了前所未有的创意自由度，而可控克隆则确保了品牌声音的一致性。目标用户包括游戏、有声书、虚拟助手和广告制作等领域的开发者。该模型以 Apache-2.0 协议开源，将显著降低高质量语音合成的技术门槛和成本，可能加速语音交互应用的创新。潜在挑战在于，其多语言支持的实际效果仍需在更广泛的语料和口音上进行验证。

GitMemo免费开源

把 AI 对话保存到你的 Git 知识库

本地优先，支持 macOS 与 Android。剪贴板、截图、笔记和文件都能集中保存、搜索、同步。

获取安装包