高价值产品
按投票数和相关度排序,适合做竞品、选题和工具调研

Cekura
观察与分析语音及会话 AI agent
提供超过 30 种开箱即用的预定义分析指标,涵盖客户体验、准确性、对话流程和语音质量。仅需标注约 20 段对话,即可在 Cekura Labs 中编译出完美的 LLM 评判标准并实现自动优化。提供实时、细分的数据仪表板,以识别对话式 AI 的趋势。智能统计警报仅在指标偏离历史基线时通知用户。自动化系统探测功能,用于捕获静默的生产故障。

Noiz Easter Voice
敲开复活节彩蛋,生成AI语音
这个复活节,将声音转化为意想不到的惊喜。在Noiz平台上,敲开语音彩蛋即可解锁新的AI语音,或通过提示词和图像创建专属语音。从俏皮的角色到独特的问候语,几秒钟内即可生成富有表现力的声音。

NOIZ AI
用表情符号为节日问候赋予情感
假期并非总是欢乐的。有时距家乡遥远,有时缺少某个人。Noiz 让用户能够发送真正表达自己感受的语音消息。表情符号指引语音中的情感——不仅是装饰,更是方向指示。消息可以停顿、柔和、微笑或哽咽。无论是圣诞老人的声音还是用户自己的嗓音,都可以传递那些在无法亲身出席时难以表达的心意。

Typeless
真正智能的 AI 语音听写工具
只需自然说话,Typeless 就能将语音转化为精炼的消息、邮件和文档,读起来如同精心打字撰写一般。AI 能够理解上下文、修正语法并适应个人风格,从而专注于表达内容本身,而非表达方式。

Krisp Accent Conversion
实时理解带口音的语音
面向听者的口音转换功能,实时消除口音带来的理解障碍。该功能在听者端将带口音的英语实时转换为标准的美式英语,说话者无需改变自己的说话方式,听者即可瞬间理解。完全在设备端运行,延迟近乎为零,兼容 Zoom、Teams 和 Meet 等主流会议平台。专为全球化团队打造,旨在解决因频繁要求重复而悄然拖慢沟通效率的问题。

Krisp Accent Converter for YouTube
YouTube 视频,现在每个人都能听得清清楚楚
YouTube 有倍速播放、字幕、自动翻译——但没有口音转换功能。现在有了。免费 Chrome 扩展,设备端 AI 处理,一键开启。

SUN-to-Spotify
用 SUN 生成音频内容并同步至 Spotify 音乐库
下载 👉 https://github.com/sunapp-ai/sun-to-spotify SUN-to-Spotify 是一项技能,能够生成 AI 播客、有声书,并直接发布到 Spotify 音乐库中,支持在线播放或离线收听。只需描述想听的内容:创业建议、历史深度解读、哲学、新闻或自定义学习内容,SUN 就能在几分钟内创建个性化的音频体验。专为创作者、开发者和探索 AI 原生音频未来的好奇者打造。

Gemini 3.1 Flash Live
让音频AI更自然、更可靠
Gemini 3.1 Flash Live 是谷歌推出的新一代原生音频模型,代表了该领域的最新水平。专为低延迟、实时对话场景构建,在复杂推理和函数调用方面表现出色。它正是当前为 Gemini Live 和 Google Search Live 提供动力的核心引擎。

Fish Audio S2
真实富有表现力的AI语音
我们开源了 Fish Audio S2,这是一代全新的富有表现力的文本转语音模型,能够通过自然语言指令来引导语音。添加诸如[耳语]或[紧张地笑]等提示,一次性生成多说话人对话,并创建覆盖80多种语言的逼真语音。

Vaani
为创作者、品牌和工作室打造的唇形同步 AI 配音工具
Vaani 是一款保留原声特征的 AI 配音工具,支持一次性完成 40 多种语言的配音,成本仅为传统配音的一小部分。与其他工具生成通用 AI 语音、唇形不同步不同,Vaani 能克隆原始声音、保留背景音乐、跨语言保持语义准确性,并实现逐帧唇形同步。适用于所有视频创作场景,从个人创作者、品牌到媒体公司、OTT 平台和影视工作室。

Lightning V3
专为语音 Agent 打造的文本转语音引擎
Lightning V3 是 Smallest AI 最先进的文本转语音模型。它具备 100 毫秒的超低延迟,WVMOS 评分高达 3.89,并支持英语、印地语、西班牙语、泰米尔语等超过 15 种语言。在盲听测试中,76.2% 的听众更倾向于选择 V3,而非 OpenAI 的 GPT-4o-mini-TTS。该模型可输出 44.1 kHz 的高质量音频,为语音助手、交互式语音应答系统、内容创作和对话式 AI 提供类人语音支持。仅需 10 秒音频即可实现即时语音克隆。实时响应,富有表现力,满足企业级需求。

SUN
按需生成的个性化AI音频课程
SUN 按需创建交互式音频内容。可生成任何主题的播客、有声书或课程,在收听过程中随时提问,并在生活场景中学习。与静态平台不同,SUN 能够理解用户的世界——从笔记、邮件到AI工具——从而提供真正个性化的音频体验。专为持续、无需屏幕的学习而设计,助力每日成长。

ElevenCreative by ElevenLabs
AI创作平台,为内容赋予生命力
ElevenCreative 是一体化平台,依托先进的语音、音乐、音效、图像与视频模型,可在数分钟内完成高质量音视频的生成、编辑与本土化适配,目前已为全球数百万创作者、营销团队与媒体企业提供服务。
Wave
语音转文字——本地或云端,自由选择
Wave 允许在 macOS 上通过语音随时调用 AI 模型。按住快捷键,说话,松开——语音即被转录、处理,结果会精准出现在需要的位置。在输入状态下,它会替换或插入文本;在阅读状态下,它会显示浮动答案。支持所有应用,并可将选中文本作为上下文使用。

Voxtral Transcribe 2 by Mistral
实时语音转文字,支持说话人分离
Voxtral Transcribe 2 提供超快速、高精度的语音转文字服务,具备实时转录和说话人分离功能。专为实时应用、语音智能体和会议场景构建,支持 13 种语言、词级时间戳,并采用隐私优先的部署方案。所有功能均以行业领先的速度和成本提供。

Lyria 3 Pro by Google Deepmind
创作更长、结构可控的 AI 音乐曲目
Gemini 应用中的 Lyria 3 Pro 可创作长达 3 分钟的 AI 生成音乐,并支持包含主歌、副歌、桥段等结构化元素。从专注音乐到定制配乐和广告曲,它提供了更丰富的创作控制,并通过 SynthID 水印技术确保负责任地使用。

Gemini 3.5 Live Translate
最新音频模型,实现实时语音对语音翻译
Gemini 3.5 Live Translate 为 Google AI Studio、Google Translate 和 Google Meet 带来近乎实时的自然语音翻译功能。

VoiceOS
开口即完成,语音驱动效率提升十倍
VoiceOS 是适用于电脑的通用语音→动作执行系统。它消除了在不同应用间频繁切换的麻烦,最大限度地提升专注度和生产力。用户只需自然说出指令,VoiceOS 即可即时执行工作流程,并通过快速确认步骤确保用户保持控制权。该系统可在 Mac 和 Windows 上全局运行。

ElevenLabs Image & Video
顶级音频、图像和视频模型现已集于一个平台
ElevenLabs 现已支持图像和视频生成。可使用 Sora、Veo 和 Kling 等顶级模型生成视觉内容,然后导出到 Studio 添加高质量配音、音乐、AI 音效和字幕。这是一个统一的创意平台。

NVIDIA PersonaPlex
支持任意角色与音色的自然对话式 AI
PersonaPlex 是一款全双工会话 AI 模型,支持使用可自定义的音色和角色进行自然对话。该模型能够处理对话中的打断和反馈信号,同时保持所选定的角色设定,在对话动态和任务遵循方面均优于现有系统。

Krisp Voice Translation API
实时语音到语音翻译 API
大多数语音翻译 API 在演示中表现出色,但当真实用户带着背景噪音、口音和容易被混淆的验证码出现时,效果就大打折扣。Krisp 的技术基于百万次真实客服中心通话打造,在这些场景中准确率不容有失。实际通话准确率达 96%,零患者安全事故,支持 61 种以上语言的任意语言对翻译。翻译 API 现已开放自助接入,注册开发者面板即可获得 60 分钟免费额度。

AudioPriorityBar
macOS 菜单栏优先级音频切换工具
一款原生 macOS 菜单栏应用,自动管理音频设备优先级。设置扬声器、耳机和麦克风的偏好顺序,应用将自动切换到已连接的最高优先级设备。

Monologue for iOS
将语音转化为精炼文字——随时随地。
Monologue 将语音转化为精炼文字——在您日常使用的应用内即可完成。无论是终端编程,还是给祖父发送一条简短信息,Monologue 都是语音与文字之间最短的路径。与基础听写不同,Monologue 不仅仅是转录。它会进行重写、删除填充词、添加标点,并适应上下文。让短信读起来像短信,邮件听起来有人情味,笔记则转化为清晰的列表和结构化的思考。

Chatterbox Turbo
快速、富有表现力的开源文本转语音,内置原生水印
Chatterbox Turbo 是一个 350M 参数的开源文本转语音模型。具有副语言学标签功能(可控制笑声、叹气等),支持零样本声音克隆,运行速度比实时快 6 倍。独特之处在于内置 PerTh 水印技术,以确保安全性。

Hathora
探索、测试和部署生产级语音模型
在开源或闭源模型基础上构建语音 agent,无需 DevOps。从共享端点快速启动,升级至专用基础设施以满足隐私、合规或 VPC 需求。模型在 14 个地区运行,实现超低延迟。扩展时可自带模型或自定义容器。

Producer AI by Google Labs
与AI共同制作人一起,将创意转化为音乐曲目
ProducerAI 是一个创意协作伙伴,无论是创作歌词、开发旋律还是尝试不同音乐流派,都能提供支持。借助 ProducerAI,可以将想象力转化为充满活力的音乐曲目。目前,Producer AI 已加入 Google Labs。

Ghost Pepper 🌶️
100% 本地私密 AI 语音转文字与会议记录工具
Ghost Pepper 是一款 100% 本地运行的 macOS 语音模型工具,支持语音转文字和会议转录。无需云端 API,未经明确授权不会有任何数据离开设备。

Obi
运行一对一用户引导通话的 AI
为每位用户提供如同最佳现场通话般的引导体验。Obi 是一个语音 AI agent,通过对话引导用户完成设置、实时回答问题,并在每次会话后分享洞察。告别笨拙的产品导览或视频——只需真实的对话,7x24 小时全天候服务,可扩展至任何规模。欢迎访问官网试用 Obi!

Google AI Edge Eloquent
谷歌推出的离线优先 AI 听写应用,由 Gemma 驱动
Google AI Edge Eloquent 是一款免费的离线优先听写应用。基于设备端 Gemma 模型,能够自动去除口头禅和语句中的磕绊。所有处理 100% 在本地完成,充分保障隐私安全,同时提供可选的 Gemini 云端模式,用于更高级的文本清理。

Voxtral TTS by Mistral AI
具备真实感与表现力的多语言文本转语音模型
Voxtral TTS 是 Mistral AI 推出的首款文本转语音模型,具备业界领先的多语言文本转语音能力,能生成真实且富有情感表现力的语音。其低延迟、支持语音克隆以及覆盖 9 种语言的特性,使其成为构建可扩展语音 agent 和企业工作流程的理想选择。

Parrot Speech-to-text API
快速、精准的语音转文字 API,专为生产级语音 agent 打造
Parrot 是 Ringg 推出的语音转文字模型,专为生产级语音 agent 设计。能够在印地语密集、噪声环境下的真实对话中实现高质量转录,具备低延迟推理能力、更强的转录质量,并内置印地语验证功能,为下游工作流提供可靠支持。

Google Veo 3.1 Lite
谷歌最具成本效益的视频生成模型
Veo 3.1 Lite 是 Gemini API 上最具成本效益的视频生成模型。它支持大规模的文本到视频和图像到视频创作,成本低于 Fast 模型的 50%,提供 720p/1080p 输出、灵活的宽高比和可调时长,适用于可扩展的视频应用。

Voice Anywhere
随处可用的悬浮麦克风,将语音实时转为文字
Voice Anywhere 是一款全场景 AI 语音转文字应用。无论是应用、网站还是编程 IDE,只要能打字的地方,就能进行语音输入。一个可固定位置的悬浮麦克风始终悬浮在所有窗口之上,确保随时可用。支持快速的设备端识别、100多种语言,并可选择启用 AI 引擎。专为追求效率的创始人和沉浸式程序员打造。专业提示:使用 "SHIFT + R" 快捷键快速开启或关闭。

Google Gemini 3.1 Flash TTS
支持自然语言语音指令的文本转语音 API
Google 推出的 TTS API,支持内联音频标签、多说话人对话以及 70 多种语言。面向通过 Gemini API 和 Vertex AI 构建语音 agent、配音工具或 AI 内容产品的开发者。

SAM Audio
通过文本、视觉或时间提示分割任何声音
SAM Audio 是一个统一的模型,能够从任何源分离任何声音。通过文本("狗叫声")、视频上的视觉点击或时间跨度来隔离特定音频。它将语音、音乐和音效分离统一为一个可提示的模型。

Omnilingual ASR
推进 1,600+ 语言的自动语音识别
Meta 的 Omnilingual ASR 是一个开源(Apache 2.0 许可证)语音识别模型,支持 1,600+ 种语言。它采用基于 LLM 的架构,可以仅通过几个上下文示例扩展到新语言,无需重新训练。

Qwen3-TTS
语音设计、克隆与97毫秒流式生成
一系列支持10种语言的SOTA语音模型(0.6B和1.7B参数)。具备基于提示词的语音设计、3秒零样本克隆以及极低延迟的流式生成能力。

Voquill
开源的 WisprFlow 替代方案
Voquill 是 WisprFlow 的开源替代品。通过语音输入实现 4 倍更快的文字处理。支持任何应用,原生运行于 MacOS、Windows 或 Linux。无论是在 agent 模式还是 AI 听写模式下,Voquill 都能理解意图,将语音转化为格式精美的文本。

Keeby
为 Mac 带来真实的机械键盘打字音效
Keeby 为 MacBook 添加真实的机械键盘音效。每一个声音都录制自真实的轴体,而非合成生成。提供 11 种轴体音效方案,包括 Gateron Red、Holy Panda、Alps Blue、Box Navy 等。空间音频技术让左侧按键的声音从左扬声器发出,右侧按键从右扬声器发出。实时可视化效果会跟随打字节奏动态响应。音色控制功能可在低沉的 thock 和清脆的 clack 之间自由调节。应用从菜单栏运行,完全离线,不收集任何数据。
Vocova
转录来自 1000 多个平台的音频与视频
Vocova 可将音频和视频转录为文本,支持 100 多种语言。只需粘贴来自 YouTube、TikTok、Zoom 或 1000 多个平台的链接,或上传任意文件。其独特之处在于:- 具备彩色编码标签和时间戳的说话人识别功能 - 可将转录文本翻译成 145 多种语言,并提供双语并排视图 - 直接在浏览器中编辑转录文本 - 导出为 PDF、DOCX、SRT、VTT、TXT 或 CSV 格式 - 提供 AI 摘要和问答提取功能。免费开始使用,无需信用卡。

Avatars in ElevenCreative
专为真人头像说话视频打造的一站式入口
顶级 AI 语音,现已具备面部形象。只需一段脚本、一个声音和一个虚拟形象,即可在同一平台内创建专业级别的说话视频。

Grok's Text to Speech API
Grok 文本转语音 API 现已开放使用
利用自然语音和富有表现力的控制功能进行开发,为应用程序注入活力。
Pop
日常消息沟通,语音优先
Pop 将语音消息提升为日常沟通的核心载体。提供出色的转录功能、用于摘要或润色的魔法编辑器,甚至可以通过编辑转录文本来修改语音内容。

Cohere Transcribe
开源语音识别领域的新标杆
Cohere Transcribe 是一款拥有 20 亿参数、采用开放权重的最先进语音识别模型。专为企业级工作负载优化,具备高吞吐量,并在 14 种语言上实现了领先的 5.42% 词错误率,非常适合私有化、本地化或桌面端部署。

Seagull
为所有电脑音频提供实时翻译叠加层
适用于 Mac、Windows 和 Linux 的实时翻译叠加工具。可捕获任何应用程序的音频,并即时显示翻译结果。

LocalClicky
完全本地化的 Mac 语音控制助手
LocalClicky 是一款 Mac 菜单栏应用,支持与电脑进行真实的语音对话——完全离线运行。只需说出"Computer"即可启动会话,系统会持续监听,支持连续下达多条指令,说"goodbye"即可结束。所有功能均在本地运行:语音转录、LLM 多模型推理、语音活动检测(VAD)、macOS 语音合成。无需 API 密钥,无需订阅,数据不会离开本机。采用 MIT 开源许可。

Grok Voice Think Fast 1.0
最强语音 agent 现已可通过 API 调用
一款面向复杂、多步骤工作流打造的先进语音模型,具备快速响应和高准确率。

Expressive Mode for ElevenAgents
根据上下文自适应调整语调、时机与情感的AI语音助手
Expressive Mode 是一款极具表现力的语音助手,其表现力足以模糊AI与人类对话之间的界限。它由 Eleven v3 Conversational 模型和一套全新的对话轮转系统驱动,能够实现响应时机更佳、打断更少的自然对话。

VoxCPM2
开源 48kHz 文本转语音模型,支持语音设计与克隆
VoxCPM2 是一个 20 亿参数的开源 TTS 模型,支持 30 种语言,输出 48kHz 高质量音频,仅通过文本即可进行语音设计,实现可控的语音克隆,其实时流式处理速度足以满足生产级语音工作流需求。

Grok Voice API
以最佳价格提供快速、准确的 STT 与 TTS API
Grok 现已为开发者提供独立的语音转文字和文字转语音 API。新的语音技术栈覆盖实时与批量转写、多说话人区分、多声道音频、文本格式化、支持语音标签的表现型 TTS、多语言支持,以及简单的按量计费模式。

CastReader
AI 文本转语音阅读器
CastReader 是一款 AI 文本转语音阅读器,可视化呈现角色与对话。提供匹配的声音、动画场景和人物关系图,打造沉浸式阅读体验。

VocalLab.ai
无限免费 AI 声音克隆,支持 MP3 + SRT 导出
VocalLab.ai 是专为 TikTok、YouTube Shorts 和 Reels 创作者打造的 AI 声音克隆和文字转语音平台。免费克隆声音,生成自然流畅的语音,一键下载 MP3 + SRT 字幕——无限制、无水印、无限存储空间。专为快速工作流和短视频内容设计。

Voice Notes to Text - SotiTalk
iOS 语音转文字应用,实时处理,隐私优先
SotiTalk 将语音实时转换为文字。行走时捕捉灵感,无需动手记录会议笔记,或进行无需打字的思维倾泻。即时转录内容仅保存在设备本地,录音或文本均不上传云端。告别那些永远不会再听的语音备忘录,也无需再因打字太慢而丢失想法。只需开口说话,即刻获得文字,继续工作。所有转录内容都保留在手机中。简单、快速且私密。