AI 提示词口述指南

如何口述提示词
ChatGPT

直接在任何浏览器或桌面应用中,向 ChatGPT 输入框口述 500 字的提示词。 StarWhisper 是适用于 Windows 的本地优先语音转文本快捷键,可用于 ChatGPT、Claude、Gemini、Perplexity、Cursor 和任何文本框。

“为一家 B2B SaaS 撰写营销简介,内容包括...”

实现语音驱动提示词的六个步骤

从安装到在五分钟内直接口述到 ChatGPT。

1

安装 StarWhisper

下载 StarWhisper 从 starwhisper.ai 或 Microsoft Store. 安装大约需要一分钟。首次启动时,请允许麦克风访问。免费计划每天覆盖 500 字,足以完成多个长提示词。

2

在浏览器或桌面应用中打开 ChatGPT

在 Chrome、Edge、Firefox、Brave 或任何浏览器中访问 chatgpt.com。或者打开官方的 ChatGPT Windows 桌面应用。两种方式的口述流程是相同的。开始新对话或继续现有对话。

3

点击 ChatGPT 提示框

将光标放置在对话底部的消息文本输入框内。这是标记为“Ask anything”或类似的区域。StarWhisper 会输入到当前有焦点的任何 Windows 文本控件中,因此在开始之前,光标必须位于正确的位置。

4

按住 StarWhisper 快捷键

按下并按住全局口述快捷键。默认设置适用于大多数配置,如果您更喜欢其他快捷键,可以在“设置”中重新绑定。StarWhisper 图标会显示录音状态,让您知道开始说话前麦克风是否已激活。

5

口述完整的提示词

以您自然说话的速度口述整个提示词。包括长指令、背景信息、示例、限制条件、所需的输出格式,所有内容。在句子结束处停顿。Whisper 会自动处理标点符号。您可以使用任何 96 种支持的语言.

6

释放快捷键,审阅,发送

当您释放快捷键时,StarWhisper 会进行本地转录,并将结果粘贴到 ChatGPT 输入框中。阅读它,修正 Whisper 听错的任何词语,如果需要,添加澄清说明,然后点击发送。只有当您按下发送时,您的提示词才会发送给 OpenAI,就像您手动输入的一样。

为什么快捷键优于语音模式来处理提示词

为撰写长篇、结构化提示词的用户提供的特定优势。

可编辑的文本输出

提示词以文本形式出现在输入框中,您可以阅读、重组、添加项目符号、粘贴代码并完善后再发送。语音模式在您说完后就会提交。

适用于任何 AI 聊天

ChatGPT、Claude、Gemini、Perplexity、Mistral、You.com、Poe、OpenRouter chat、任何基于浏览器的 AI 都会接收到相同的口述文本。Cursor、VS Code、JetBrains、Slack、Discord、Notion、Word、Gmail 也是如此。

长提示词,告别气喘

按住快捷键,按照自己的节奏口述,完成后释放。包含示例和指令的多段落提示词会完整地到达。无需停留在语音模式的对话窗口,也不必担心 ChatGPT 会打断您。

默认本地处理

音频在您的 PC 上使用本地运行的 Whisper 进行处理。您的语音在到达 ChatGPT 之前不会上传到任何第三方转录服务。只有当您决定按下发送时,文本才会发送给 OpenAI。

日常使用免费

免费计划每天 500 字足以完成一天中的多个长提示词。Pro 定价为每月 $10 或每年 $80,可无限量口述,覆盖您日常所有的写作,而不仅仅是 ChatGPT。

96 种语言

用您的母语口述提示词,并要求 ChatGPT 以您偏好的任何语言进行回复。这对于内容创作者、翻译人员以及思维在某一语言上比其他语言更快的任何人都有用。

为什么高级用户需要为 ChatGPT 提示词使用口述功能

您使用 ChatGPT 的时间越长,您的提示词就越长。普通用户会写“总结这篇文章”。而高级用户会写一份包含角色分配、背景信息、好坏输出示例、限制条件、目标格式和需要处理的边缘案例列表的多段落简介。这个提示词有 300 到 800 字。手动输入需要五到十五分钟。口述只需要一到三分钟。

速度的差距比听起来更重要。提示词质量是 ChatGPT 输出质量最大的变量。当输入长提示词感觉很慢时,您会偷工减料,遗漏背景信息,跳过本可以引导回复的示例。而口述很快,您会包含所有内容。模型获得了更好的简介,输出也更好,来回沟通也更短。 StarWhisper 旨在让这个循环过程快速化。

口述对于重复工作也更不费力。任何全天使用 ChatGPT 的人,内容营销人员、文案撰稿人、开发人员、创始人、支持工程师、自动化工作流的运维人员都知道,手动输入提示词累积的腕部负荷是相当大的。切换到语音输入可以大致将这种负荷减半。

ChatGPT 语音模式 vs 口述:真实对比

OpenAI 为 ChatGPT 提供了自己的语音模式。它是一款适用于不同使用场景的优秀产品。两者都值得进行清晰的比较。

功能 ChatGPT 语音模式 StarWhisper 口述到 ChatGPT
最适合 对话式的来回交流 长篇结构化提示词,发送前可编辑
获得的输出 语音或文本回复,在语音会话中 可在提示框中精修的文本
兼容 Claude/Gemini/Perplexity 是,流程相同
适用于 Cursor、VS Code、Word、Notion 是,适用于任何文本框
音频处理 流式传输到 OpenAI 默认在本地模式下本地处理
订阅 需要 ChatGPT Plus 或 Team 免费计划覆盖每日口述,Pro 定价 $10/月
语言 支持集较小 通过 Whisper 支持 96 种语言

当您想像和人聊天一样与 ChatGPT 交流时,语音模式很棒。当您想撰写一份仔细、详细的简介、对其进行编辑,然后才发送时,将内容口述到提示框更佳。

在特定工作流程中的表现

内容创作者

口述一篇 1,500 字文章的简介。口述角度、目标受众、三个子主题、行动号召和品牌语调说明。编辑口述的简介,发送给 ChatGPT,获取初稿。重复此过程以生成大纲和重写内容。了解更多信息,请参阅 内容创作者的语音转文本.

开发人员

用纯英文口述重构的描述,粘贴现有代码,要求 ChatGPT 或 Claude 进行修改。或者口述测试用例作为自然语言描述。在 Cursor 和 VS Code 中都能完美运行,两者都只是 StarWhisper 的文本输入框。

研究人员

口述一个包含所有相关背景信息、来源和限制条件的超长问题,这些信息原本您需要总结。由于模型一开始就获得了完整的简介,因此能得到更扎实的答案。

创始人

在散步或通勤途中口述战略提示词(Windows 上需佩戴耳机麦克风)。回到工位后进行编辑。然后发送。2026 年,很多战略工作就是这样完成的。

隐私:音频的去向

StarWhisper Local Mode 在您自己的 CPU 或 GPU 上运行 Whisper。音频通过您的麦克风捕获,在您的设备内存中处理,并转换为文本,全程无需网络调用。转录过程中不会将任何内容上传到任何地方。StarWhisper 传输到 ChatGPT 输入框中的文本,与您手动输入的文本是完全一致的。

当您在 ChatGPT 中按下发送时,您的文本提示会到达 OpenAI 的服务器,这与手动输入没有任何区别。如果您的顾虑是 OpenAI 能看到提示内容,那么语音输入也不会改变这一点。如果您的顾虑是第三方转录服务接收到您的原始音频,那么 Local Mode 可以彻底解决这个问题。

有一个可选的 Cloud Mode 用于您需要处理困难音频并追求最高准确度的场景。它使用 OpenAI Whisper API。它绝不会意外启用,选择在 StarWhisper UI 中清晰可见,如果您偏好,您可以永久停留在 Local Mode。

撰写更优质语音提示的技巧

  • 使用完整的句子说话。当语速正常时,Whisper 生成的标点符号会更准确。
  • 在句子之间停顿。Whisper 将停顿视为句号和段落分隔的提示。
  • 在按下快捷键之前规划提示结构:角色、背景、任务、限制、示例、输出格式。
  • 使用口语化的过渡词,例如“首先”、“其次”、“例如”、“相比之下”,以帮助模型后续理解结构。
  • 用英语口述代码描述,然后手动粘贴实际代码。口述字面语法很少值得这样做。
  • 发布后,扫描语音转录的文本,查找任何听错的专有名词或技术术语,并在发送前进行修正。

经过几次使用后,工作流程会变得自然,速度提升幅度足够大,大多数用户不会再回到纯键盘输入提示的方式。

超越 ChatGPT:其他适用场景

StarWhisper 是 Windows 的系统级快捷键。语音输入的目标区域是“当前有焦点的任何文本字段”。这意味着您为 ChatGPT 使用的流程,同样适用于:

  • Claude on claude.ai 和 Claude 桌面应用
  • Google Gemini at gemini.google.com
  • Perplexity at perplexity.ai
  • Cursor 和 VS Code 进行编码工作
  • Slack、Discord、Microsoft Teams 聊天
  • 其他 ChatGPT 集成 跨越整个 Windows 生态系统
  • Gmail、Outlook 和任何电子邮件客户端
  • Notion、Word、Google Docs、Obsidian
  • X/Twitter 发布、LinkedIn 消息、任何网页表单

一次安装,一个快捷键,操作系统上的所有文本输入都支持语音转文本。这就是普通 ChatGPT 用户在几天后采用它,而不仅仅是用于 ChatGPT 的实际原因。

常见问题解答

这是否适用于 ChatGPT Plus?
是的。StarWhisper 不会以任何方式与您的 ChatGPT 账户进行交互。它直接输入到活动的文本字段中,这意味着无论您使用的是免费 ChatGPT 计划、每月 $20 的 Plus、Team 还是 Enterprise,其行为都是相同的。语音输入在您的 PC 上运行,您的订阅级别只在您按下发送按钮的那一刻重要,这与手动输入没有任何区别。
那么 Claude、Gemini、Perplexity 和其他 AI 聊天呢?
它们都以相同的方式工作。StarWhisper 在 Windows 上会输入到任何有焦点的文本字段中,因此 claude.ai、gemini.google.com、perplexity.ai、mistral.ai chat、you.com 和任何其他基于网络的 AI 聊天接收到的语音输入文本,与 ChatGPT 一致。由于 Windows 将 Claude 和 Gemini 的提示输入视为正常的文本控件,因此它们的桌面应用也以相同的方式工作。
它是否适用于 Windows 的 ChatGPT 桌面应用?
是的。OpenAI 为 ChatGPT 发布了 Windows 桌面应用,StarWhisper 输入到其提示框中的方式与在浏览器中输入的方式相同。这两种方式都是有效的。桌面应用感觉稍微流畅一些,因为它没有浏览器标签的间接层,但语音输入体验本身两者是完全相同的。请选择您对 ChatGPT 已经习惯的方式。
为什么不直接使用 ChatGPT 的语音模式呢?
语音模式是为对话设计的,您说话,ChatGPT 回应,模型在您思考时给出回复。这与口述包含结构、示例和明确指令的 500 字提示不同。语音模式保持在音频状态,而语音输入则为您提供了一个可以在发送前编辑的文本提示。那些希望像书面写作一样撰写详细提示的高级用户通常更喜欢语音输入。
我能将代码口述到 ChatGPT 中吗?
您可以非常有效地口述代码提示的自然语言部分(即您想要描述的内容、限制条件、需要匹配的现有模式)。在任何语音转文本系统中,逐个字符口述字面源代码都是笨拙的,因为口语词汇不能清晰地映射到语法上。典型的流程是口述请求,手动粘贴相关的代码片段,然后让 ChatGPT 完成修改。
它会自动添加标点符号吗?
是的。Whisper 将标点符号视为转录的一部分,而不是要求您把每个逗号和句号都说出来。您自然地说话,在句子结束的地方停顿,Whisper 就会插入符合语调和语法的标点符号。如果您想覆盖自动行为,您也可以口述明确的标点符号,例如说 period 来强制结束句子,而 Whisper 原本可能会使用逗号。
它支持哪些语言的语音输入?
StarWhisper 通过 OpenAI Whisper 支持 96 种语言,涵盖范围广泛,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、波兰语、瑞典语、日语、中文、韩语、印地语、俄语、阿拉伯语、土耳其语、越南语和印度尼西亚语等。ChatGPT 本身可以以任何语言回复,因此您可以用母语口述提示,并指示模型用另一种语言回复,这对于起草双语内容非常有用。
我的提示音频会被上传到任何地方吗?
在默认的 Local Mode 下,不会。StarWhisper 在您自己的 CPU 或 GPU 上运行 Whisper,并在设备本地将语音转换为文本。音频绝不会离开您的 PC,流程中没有第三方转录服务器。一旦文本粘贴到 ChatGPT 并按下发送,OpenAI 自然会接收到文本提示,但这与您手动输入是等效的。对于需要最高准确度的工作,有一个可选的 Cloud Mode,它使用 OpenAI Whisper API,该模式有明确标记,并且默认不会开启。

免费开始在 ChatGPT 中语音输入

免费计划每天 500 字。无需信用卡。可在 Windows 的任何文本字段使用。

下载适用于 Windows 的 StarWhisper