将播客音频快速转换为文字稿。自动生成节目笔记、博客文章和字幕,99% 准确率,支持离线使用。
播客的最大悖论是:你花了三小时精心录制的内容,只有主动收听的人才能获取——而大多数互联网流量来自搜索,搜索引擎根本「听不见」你的声音。播客转录软件解决的正是这个问题:把音频内容转化为可被搜索引擎抓取、可被读者浏览、可被剪辑再用的文字资产,让一期节目的价值在多个渠道同时释放。
传统的解决方案是外包给人工转录服务,但这意味着每小时音频花费 $60 至 $180 不等,还要等24至48小时才能拿到文稿。对于每周更新的播客节目,这个成本和延迟很快就会让人力不从心。StarWhisper 是一款运行在 Windows 本地的播客转录软件,利用 OpenAI Whisper AI 模型,在配备 GPU 的电脑上可以在5分钟内完成一小时节目的转录,全程离线,音频文件从不上传任何服务器。
对于中文播客创作者,StarWhisper 尤其有优势:Whisper 模型对普通话的识别精度极高,中英混合的对话(这在科技、商业类播客中极为常见)同样处理得当。无需针对你的声纹做专门训练,拿到新录音拖进软件就能转录。
逐字稿是节目笔记的原材料。转录后直接粘贴到 Apple Podcasts 或小宇宙的节目描述中,提升平台内搜索曝光。
把转录文稿发给 ChatGPT 或 Notion AI,几分钟生成一篇结构完整的博客文章,让谷歌也能「听到」你的节目。
从逐字稿中快速找到金句,配合视频剪辑制作短视频字幕,复用到微博、抖音、小红书。
Pro 版支持带时间戳的 SRT 字幕导出,直接上传到 YouTube 或 B 站,满足无障碍要求,提升视频完播率。
录制结束后,无需任何剪辑,将原始录音文件(MP3、WAV、M4A 均可)直接拖入 StarWhisper。选择「中文」或「自动检测」语言,选择合适的模型精度(small 速度最快,large-v3 精度最高),点击开始。5至15分钟后得到完整文字稿,完全不需要等到剪辑完成的成品音频。即使是多人访谈,StarWhisper 也能把所有声音转录为完整连续的文字,后期再手动标注嘉宾发言即可。
一份高质量的播客逐字稿可以衍生出以下内容,每种内容服务不同渠道和受众:
很多播客有几百期历史内容,但听众「找不到」想要的那一期——因为音频无法被搜索。把历史节目批量导入 StarWhisper 转录后,所有内容都变成可被全文检索的文字档案。当听众问「你们哪期讲过品牌定位?」,你可以立刻在文件夹中全文搜索找到答案,甚至提取相关片段给听众分享。
现在就开始:免费版每天500字可用于测试几分钟的音频片段。Pro 版 $10/月,无限转录,适合每周更新的播客节目。
免费下载 StarWhisper市面上的播客转录软件大致分为三类:人工转录外包服务(Rev、TypeScript等)、云端 AI 转录 SaaS(Otter.ai、Descript、Notta)、以及本地 AI 转录工具(StarWhisper)。三者各有取舍。
| 方案 | 成本 | 速度 | 隐私 | 中文效果 |
|---|---|---|---|---|
| StarWhisper(本地) | $10/月无限 | 3-5分钟/时 | 完全本地 | 极高(99%) |
| Rev(人工转录) | $1.5-2/分钟 | 12-24小时 | 上传至平台 | 中等(需中文转录员) |
| Descript(云端) | $12-24/月 | 快速 | 音频上传云端 | 良好 |
| Otter.ai(云端) | $17-30/月 | 快速 | 音频上传云端 | 有限(主要英文) |
结论:如果你的播客以中文为主,内容涉及未公开选题或嘉宾信息,或者只是不想每个月为转录单独付一大笔钱,StarWhisper 是最合理的选择。
延伸阅读:OpenAI Whisper 模型介绍 | 播客(维基百科) | 会议转录软件 | 语音转文字软件
StarWhisper 会把所有声音转录为一段连续的文字,不自动区分说话人。对于两人访谈,建议录音时用双轨录制(两个麦克风分别录制),后期可较容易地标注「主持人:…」「嘉宾:…」。对于多人同时发言的段落,保证麦克风质量和录音环境安静是准确率的关键。
使用 small 模型:CPU 约10至15分钟,有 NVIDIA GPU 约3至5分钟。使用 large-v3 模型(精度最高):CPU 约30至60分钟,有 NVIDIA RTX 30系列以上 GPU 约5至10分钟。对于每周更新的播客,建议在 GPU 设备上跑 large-v3,转录质量会明显更高,错误校对时间更短。
可以。StarWhisper 支持批量文件导入,可以同时排队处理多个音频文件。推荐在非工作时间挂机批量处理,一夜之间就能完成几十期历史节目的转录。转录完成后的文字稿按文件名自动保存,方便整理成历史档案。
Whisper 模型对中英混合语言有出色的处理能力,常见的英文品牌名(如 ChatGPT、iPhone、Notion)、人名和专业术语通常能准确识别。科技和商业类播客中常见的「英文缩写+中文解释」模式也处理良好。发现识别错误时,在内置编辑器中手动修正即可。
精度达到99%意味着一小时节目大约有几十处需要核对的地方,主要是生僻词、地名和快速说出的数字。建议转录后花10至15分钟快速通读核对,重点检查专有名词和数字。对于节目笔记和博客文章等「二次加工」用途,直接使用 AI 辅助润色即可,不必字字核对原文。
用播客转录软件把音频内容转化为持续带来流量的文字资产,从下一期节目开始。
免费下载 StarWhisper