
产品介绍
Mercury 2 摒弃了顺序解码,采用并行优化。作为首个推理扩散大语言模型,它能同时生成多个标记,实现每秒 1000+ 个标记的生成速度。这为智能体循环提供了在严格延迟预算内达到推理级质量的能力。
适合谁关注
- 开发者和技术团队
- 创业者、投资人和财务团队
- 教育产品团队和学习工具用户
- 正在评估 AI 工具或智能体落地的团队
可借鉴场景
- 快速理解 Mercury 2 的定位、核心能力和 Product Hunt 热度
- 判断“专为即时生产级AI打造的最快推理大语言模型”这类需求是否值得做竞品调研
- 沿着 开发者工具、AI 与智能体 继续发现同类产品和替代方案
- 筛选高票产品,观察海外用户当前愿意投票支持的产品形态
130
投票数
5
评论数
2月25日
发布日期
作者自荐
总结
Mercury 2 代表了LLM推理架构的一次重要范式转变。它通过引入扩散模型的并行生成机制,从根本上挑战了传统自回归模型逐词生成的效率瓶颈。其核心价值在于为需要低延迟、高吞吐量的生产级AI应用(如实时对话agent、多步骤推理链)提供了可行的解决方案。目标用户主要是AI应用开发者、需要部署复杂agent系统的企业以及任何对推理速度有极致要求的场景。创新点在于将图像生成领域的扩散思想成功迁移到文本生成,实现了数量级的性能提升。潜在优势是显著降低推理成本并提升用户体验,但挑战在于需要验证其并行生成模式在复杂逻辑和长上下文任务中是否能保持与顶级自回归模型同等的输出质量和一致性。
GitMemo免费开源
把 AI 对话保存到你的 Git 知识库
本地优先,支持 macOS 与 Android。剪贴板、截图、笔记和文件都能集中保存、搜索、同步。
获取安装包

大家好! 扩散模型,或称 dLLM,是目前除标准自回归路径外最有前景的方向之一。从 @Seed Diffusion 到 @Dream 7B,甚至 @Gemini Diffusion,大家都在探索这个领域。但真正的佼佼者无疑是 Inception 及其 Mercury 系列,他们刚刚推出了第二代产品。 架构的转变彻底改变了延迟表现。Mercury 2 放弃了标准的从左到右顺序解码,转而采用并行优化来驱动生成。可以将其想象成,模型不再像打字机那样一次打印一个标记,而更像一位编辑同时在修订整份草稿。 这种并行方法使得推理速度极快。实现每秒超过 1000 个标记的速度,比领先的速度优化模型快 5 倍。这从根本上改变了多步骤智能体循环或实时语音应用的延迟计算方式,因为在这些场景中,每一步的延迟都会累积。 其 API 严格兼容 OpenAI,因此无需重写任何代码。可以申请 API 的早期访问权限,或者现在就与其对话,亲身感受下一代扩散模型的原始速度。