Otter, Rev, Happy Scribe, Notta, 和 Trint 都会将您的音频上传到它们的服务器。有些会保留 30 天或更长时间。对于机密的客户通话、医疗对话、法律工作、人力资源会议和研发录音,这是一个问题。StarWhisper 在您的 Windows PC 上本地运行 OpenAI Whisper。音频绝不会离开设备。
大多数转录工具发送音频的位置,以及替代方案。
Otter, Rev, Happy Scribe, Notta, Trint, Sonix,以及几乎所有其他转录服务都会将您的音频上传到它们的服务器,通过其模型运行,并保留文件至少 30 天。有些保留时间更长,或使用它来改进其模型。便利性是真实的。代价也是真实的。
对于非敏感内容,这没问题。但对于受 NDA 约束的通话、医疗或法律对话、人力资源事务,或任何受 GDPR 或 HIPAA 保护的内容,您甚至在使用之前就必须经历采购流程和纸质记录。
StarWhisper 将 OpenAI Whisper 模型与安装程序捆绑在一起。当您转录时,模型会加载到您机器的内存中,使用您的 CPU 或 GPU 通过其神经网络运行音频,并生成文本。没有上传,没有服务器,没有可被传票要求提供的日志,也没有需要询问的保留期限。
即使拔掉网络,转录仍然有效。这是结构性隐私,而非政策承诺。
“本地处理”实际为您购买了什么
在本地模式下,音频的任何部分都不会离开设备。任何网络监控都可以验证这一点。在您信任它之前,您可以进行验证。
断开互联网连接,转录仍然有效。云工具在相同条件下会简单地失败。离线操作是本地处理最干净的证明。
云服务通常保留音频 30 天以上。本地处理没有保留问题,因为没有上传任何数据。音频只存在于您说话的期间。
一些云转录服务会通过额外的 AI 模型进行清理或总结,从而增加了访问方。本地处理将数据路径限制在一台机器上。
如果服务器上没有日志,就没有可被传票要求提供的日志。这对记者、律师以及任何其原始材料足够敏感,以至于法律程序是一个实际考虑因素的人来说很重要。
Whisper 是开源的。您今天处理的音频不会被困在某个供应商的账户中。即使 StarWhisper 不复存在,底层模型仍然可以工作。
打开任何主要的转录服务的隐私政策,您都会发现相似的结构。您上传的音频会在它们的服务器上处理,可能会通过第三方 AI 提供商,并被保留一段时间(通常是 30 天,有时是 90 天,有时是“直到您删除”)。大多数政策还保留了使用匿名音频部分来改进底层模型的权利,除非您选择退出,而这有时是一个付费层级的功能。
具体来说,以下是一些大型提供商的音频路径:
对于大多数用例,这种权衡是可以接受的。云端负责重度计算,您获得的是完善的产品,音频在传输过程中是加密的,公司拥有 SOC 2。但对于某些用例,无论政策如何完善,都是不够的,因为音频仍然离开了可信环境,而可信环境是您唯一真正能控制安全性的地方。
“本地”在营销中被宽松使用。以下是它在 StarWhisper 特指的含义。
OpenAI Whisper 模型文件与安装程序捆绑在一起。它们位于您 Windows 驱动器上的 StarWhisper 安装目录中。您可以看到它们,可以计算它们的校验和,可以复制到另一台机器上。它们不会在运行时从互联网加载。安装了应用程序后,您不需要网络连接来进行口述。
当您按下口述快捷键时,麦克风音频会被捕获到内存缓冲区,输入到已加载的 Whisper 模型,模型使用您机器的计算能力生成文本。没有数据通过网络发送。如果您的机器有 NVIDIA GPU,推理将在 CUDA 核心上运行,速度更快。如果没有,CPU 路径也有效,只是速度较慢。
这是本地和云转录最清晰的区别。云产品会向其 API 发出 HTTPS 请求。本地产品不会。您可以通过在口述时运行网络监控来确认这一点。结果与应用完全没有互联网权限时是相同的。
该应用会与网络通信,用于两个目的:检查新版本(仅当您点击按钮时,遵循 StarWhisper 严格的无自动更新政策)和验证您是否处于付费层级。这两者都不会触及您的音频。两者都可以单独检查。如果您想在气隙(air-gapped)机器上使用 StarWhisper,Free 级别根本不需要许可证检查。
受 HIPAA 保护的临床医生和患者之间的对话,除非该服务签署了 BAA 并且用例已通过合规性审查,否则不应上传到云转录服务。许多 SaaS 转录产品确实提供 BAA,但仅限于企业级。本地处理完全避免了这个问题:不需要 BAA,因为没有数据传输给第三方。我们在以下内容中详细介绍了这一点: 为治疗师进行语音转文本 以及即将推出的 HIPAA 口述参考页面。
将特权内容草拟到云转录工具中,根据司法管辖区,要么是明确有问题,要么是一个大多数法律伦理意见建议避免的灰色地带。其原因是,将特权通信存储在第三方服务器上,可能会根据某些律师协会的解释放弃特权。本地处理将内容保留在律师的机器上,这是过去五十年口述工具一直遵循的标准。
绩效评估、解雇谈话、投诉调查和薪酬讨论这类内容,绝对不应该出现在第三方转录数据库中。即使SaaS供应商的姿态再完美,这个风险面也是不必要的。本地转录消除了这个问题。
如果您的消息来源同意匿名,那么“音频在我们的云端,30天后删除”和“音频从未离开我的笔记本电脑”是两码事。信誉良好的记者在可以的情况下,默认选择后者。本地转录支持这种默认选择。
如果您的雇主的数据政策规定“不得在未经安全审查的第三方SaaS中使用客户数据”,那么同样的政策几乎肯定也适用于关于这些数据的内部对话语音记录。本地处理将对话保留在受信任的环境中。
对于任何接近SBU、CUI或机密处理级别的项目,云SaaS通常是不可行的。本地处理是唯一符合威胁模型的选择。
| 所有权 | 云转录 | StarWhisper 本地模式 |
|---|---|---|
| 音频离开设备 | 是 | 否 |
| 保留窗口 | 通常为30天,不同 | 无(不存储) |
| 第三方LLM处理 | 有时 | 否 |
| 离线可用 | 否 | 是 |
| 可传票的服务器日志 | 是 | 否 |
| HIPAA要求BAA | 是 | 不适用 |
| 用于训练供应商模型 | 有时(退出选项不同) | 从不 |
| 可在气隙后方工作 | 否 | 是 |
| 可由网络捕获验证 | 传输中可见音频 | 零出站 |
“本地”比“私密”更重要的原因是,本地是可验证的。您不需要信任任何政策声明。您可以直接验证该属性。
在 Windows 上安装网络监控器。GlassWire 是最简单的 GUI 选项;Wireshark 是全面的选择;内置的资源监视器(性能监视器 -> 网络)足以进行快速检查。在 Local Mode 下开始口述,并观察 StarWhisper 进程。在口述过程中,您应该看到向任何转录端点的出站字节为零。与该应用相关的唯一出站流量应该是与音频无关的控制平面事项,例如许可证验证或用户发起的更新检查。
完全断开网络连接。禁用 Wi-Fi,拔掉以太网线,开启飞行模式。打开 StarWhisper 并口述。它仍然可以工作。这是最干净的证明,因为这是不可能伪造的。云转录工具在气隙条件下会直接报错,因为它们无处发送音频。
打开 StarWhisper 的安装文件夹。您会看到 Whisper 模型文件(根据后端,是 GGML 或 GGUF 格式)。这些是大型二进制文件(根据模型大小,有几百MB到几GB)。它们存在于磁盘上,才使得本地处理成为可能。它们就是模型。它们就是整个流程。转录的任何内容都不需要离开它们所在的文件夹。
您无法验证该应用在丢弃音频之前是否将其缓冲到磁盘。(它不会,但这是一种代码级别的断言。)您无法验证 Microsoft Windows 本身是否独立捕获了麦克风音频。这些是不同的关注点。对于操作系统层,请遵循标准的 Windows 加固指南。
对于许多用户来说,云转录确实是正确的工具。带有说话人标签的多人会议转录,在 Otter 或 Fireflies 中的效果远胜于任何单麦克风的本地工具。跨设备同步之所以可行,是因为云充当了存储层。自动 AI 摘要在专用的 GPU 服务器上运行速度比在笔记本电脑上快。与一个小型 Windows 应用相比,来自获得风险投资支持的产品在客户支持和集成方面更强大。
如果您的内容不特别敏感,您需要在多个设备上工作,并且想要完善的 AI 摘要和分享工作流程,那么云工具可能是更好的选择。StarWhisper 专门为音频路径至关重要的用户设计,而采用的门槛在于您是否信任该路径。
StarWhisper 附带了一个可选的 Cloud Mode,它会将音频发送到 OpenAI Whisper API。之所以存在这个模式,是因为一些使用低配置机器的用户想要更快的转录速度,并且对云处理没有隐私顾虑。Cloud Mode 是:
如果考虑 StarWhisper 的原因是隐私,请保持 Cloud Mode 关闭。完整的 Local Mode 体验不需要它。更深入的本地与云对比请参阅 Whisper 本地与云 FAQ 页面。