What is wrong with Windows Voice Typing (Win+H)?

Windows Voice Typing uses Microsoft's older speech recognition stack, which dates to the pre-transformer era. Accuracy on clear North American English is around 88 percent. It degrades quickly on accented English, technical vocabulary, proper nouns, and non-English languages. It also struggles with longer-form dictation because it does not maintain enough context between utterances. None of this is news to Microsoft; the underlying tech is just old.

Why is OpenAI Whisper more accurate?

Whisper is a newer transformer-based speech recognition model from OpenAI, trained on around 680,000 hours of multilingual audio. The training corpus is roughly two orders of magnitude larger than what the older Microsoft stack was trained on, and the architecture is more modern. Independent benchmarks consistently put Whisper accuracy on clear English around 97 to 98 percent, with strong performance on accents and non-English languages where the Windows stack collapses.

Do I have to uninstall Windows Dictation to use StarWhisper?

No. Windows Voice Typing and StarWhisper coexist peacefully. They use different hotkeys (Win+H for the built-in, configurable for StarWhisper) and do not interfere with each other. You can keep using Win+H for quick single-sentence dictation and reach for StarWhisper when you need accuracy on longer text, accented English, or non-English content. Most users just stop opening Win+H once they have StarWhisper running.

Can I use both at the same time?

Technically you can have both installed and active. In practice, they listen to the same microphone, so triggering both simultaneously confuses your audio device. Pick one per session. Most users either replace Win+H entirely or use StarWhisper for content and keep Win+H for the rare case where it is faster to hit Win+H than to switch.

What about accents? Does Whisper handle them better?

Yes, substantially better. Whisper was trained on multilingual audio that included a wide range of regional accents, code-switching, and second-language speakers. Indian English, Scottish, Caribbean, Singaporean, South African, Australian, all transcribe with high accuracy. Windows Voice Typing was trained primarily on American English and shows it. If your accent is anything other than North American, the accuracy gap is much larger than 10 percentage points.

What about other languages?

Whisper supports 96+ languages, including German, French, Spanish, Italian, Portuguese, Dutch, Polish, Swedish, Danish, Norwegian, Finnish, Czech, Hungarian, Romanian, Japanese, Chinese, Korean, Hindi, Russian, Arabic, Turkish, Vietnamese, Thai, Indonesian, and Ukrainian among others. Windows Voice Typing supports a shorter list and accuracy varies widely by language. For non-English dictation on Windows, the gap is large enough that Whisper is functionally the only practical option.

Does Whisper run on integrated GPU?

Whisper runs on CPU just fine, which means any modern Windows laptop, including those with only integrated graphics, can run it. NVIDIA GPUs accelerate transcription via CUDA. AMD and Intel GPUs are supported through the Vulkan path. If you have no discrete GPU at all, the CPU path is still fast enough for real-time dictation on the small and medium Whisper models that StarWhisper uses by default.

What about older Windows 10 machines, will Whisper still work?

Yes. StarWhisper supports Windows 10 and Windows 11. The minimum requirements are modest: a multi-core x64 CPU, 4 GB of RAM (8 GB recommended for the larger Whisper models), and around 1 GB of disk space for the bundled model files. Machines from the last 7-8 years all run it without issue. The CPU path runs on essentially any Windows 10 machine.

Windowsのディクテーションはなぜこんなに悪いのか？（無料のWhisper修正）| StarWhisper

Name: StarWhisper
Rating: 4.8 (50 reviews)
Author: StarWhisper

なぜWindowsのディクテーションは2014年止まりに感じるのか

Microsoftは20年以上にわたりWindowsで音声認識機能を提供してきました。Windows Vistaには、ほとんど誰も使わなかったキーボード操作型のディクテーションツールであるWindows Speech Recognition (WSR)がありました。Windows 10では2017年にVoice Typingの再設計が追加され、Win+Hホットキーからアクセスできるようになりました。Windows 11ではUIがさらに洗練されました。しかし、本質的に変わっていないのは、基盤となる音声モデルです。

Windowsの音声入力の基盤となる音響モデルは、プリトランスフォーマー時代に遡ります。これは、主にアメリカ英語の比較的少ないコーパスでトレーニングされたリカレントニューラルネットワークアーキテクチャを使用しています。対照的に、この分野はすでに二度も進化しています。まずトランスフォーマーベースのモデルへ、次に大規模な多言語事前学習へと進みました。Whisperは、96言語にわたる680,000時間のトレーニングデータを持つ、第2波の最も著名なオープンソースの例です。

精度の差は、調整の問題ではなく構造的な問題です。Microsoftは次世代の音声認識に取り組んでいると思われますが、現時点では、内蔵のWindowsツールは古い技術の上に成り立っています。もし、PixelスマートフォンやiPhoneでのディクテーションの方がWindowsラップトップよりも正確だと感じたことがあるなら、それは同じ理由です。それらのスマートフォンはより新しいモデルを動作させているからです。

Win+Hが失敗する具体的な例

精度の違いは、実際の文章で即座に現れます。以下は、ユーザーからの報告に基づく典型的な例です。発話された列が実際に話された内容です。Win+Hの列がそのままの出力です。Whisperの列が、同一の音声からStarWhisperが生成した内容です。

発話された内容	Win+Hの出力	Whisper (StarWhisper) の出力
"The deployment went to staging at 3 PM"	the deployment went to staging at three p m	The deployment went to staging at 3 PM.
"Schedule a meeting with Aoife on Thursday"	schedule a meeting with eva on Thursday	Schedule a meeting with Aoife on Thursday.
"The patient reported intermittent dyspnea"	the patient reported intermittent disney	The patient reported intermittent dyspnea.
"Refactor the auth middleware to use JWT tokens"	refactor the off middleware to use jay w t tokens	Refactor the auth middleware to use JWT tokens.
"Send the contract to [email protected]"	send the contract to monara at example dot com	Send the contract to [email protected].

これらの例は都合よく選ばれたものではありません。これらは、最も一般的なアメリカ英語の語彙以外で、どのくらいの長さでもディクテーションを行う場合に遭遇するエラーの種類の代表例です。

Whisperが技術的に異なる点

精度の差は魔法ではなく、アーキテクチャと規模によるものです。Whisperは、大規模で多様な音声コーパスでエンドツーエンドにトレーニングされた、シーケンス・トゥ・シーケンス・トランスフォーマーです。 StarWhisper Whisperモデルをバンドルし、Windows PCローカルで動作させます。

より大きく、より多様なトレーニングデータ

OpenAIは、ウェブから収集された約680,000時間の音声データ（うち多言語データが117,000時間、翻訳データが125,000時間）でWhisperをトレーニングしました。これは、古いMicrosoftスタックがトレーニングされたデータ量よりも、桁違いに多くのデータ量です。より大きく、より多様なトレーニングデータこそが、Whisperがアクセント、専門用語、非英語言語をうまく処理できる最大の理由です。

トランスフォーマーアーキテクチャ

Whisperは、GPTや最新の翻訳モデルと同じ一般的なアーキテクチャであるエンコーダー・デコーダー・トランスフォーマーを使用しています。このアーキテクチャは、2010年代を通じて音声認識を支配していたリカレントモデルよりも、長距離の文脈把握に遥かに優れています。これが、Whisperが文脈の通った段落を生成する一方で、古いシステムは文脈の通った文章を生成し、その間の論点を失ってしまう理由です。

マルチタスクトレーニング

Whisperは、書き起こし、翻訳、言語識別、音声活動検出という複数の音声タスクを組み合わせてトレーニングされました。このマルチタスク設定により、単一タスクモデルでは性能が低下する状況においてもロバストなモデルが生成されます。実際には、Whisperが無音の隙間、背景ノイズ、言語の切り替えをスムーズに処理できることを意味します。

ローカルで動作します

Whisperはオープンソースであり、サイズも適切であるため、コンシューマー向けのWindowsマシンに搭載でき、CPUで実用的な速度で動作します。だからこそ、StarWhisperがこれを無料のローカルツールとしてパッケージ化できるのです。クラウドのサブスクリプションは不要で、音声データがPC外に出ることはありません。また、インターネット接続に関わらず、精度の優位性が適用されます。モデルがローカルでどのように動作するかについての全詳細は、プライバシーとオフライン機能のページに記載されています。.

Win+Hが優れている点、正直なところ

内蔵ツールにもその役割はあります

Windows Voice Typingは無料で、標準搭載されており、すべてのWindows 10および11マシンに搭載され、セットアップは一切不要です。アクセント、専門用語、非英語の文章を気にせず、単一の文章をテキストボックスに口述したいというケースでは機能します。多くのユーザーは、短いメッセージに使用する際、スマートフォン上の組み込みのディクテーション機能でも十分な価値を得ています。

もしディクテーションのニーズが「Notepadで時折、短い文章を、クリアなアメリカ英語で、固有名詞なし」に限定されるのであれば、何も追加でインストールする必要はありません。数週間に一度の文章のために、別のアプリをインストールする手間はそれに見合っていません。

具体的には、Win+Hは以下のような場合に問題ありません。

時々しかディクテーションをしない場合。 週に一度、一度に一文だけ、カジュアルなテキストフィールドに入力する場合。
話す英語がクリアなアメリカ英語である場合。 標準的な語彙で、固有名詞や略語がない場合。
何もインストールしたくない場合。 すでに搭載されており、セットアップ費用はゼロです。
ボイス入力の試用段階である場合。 Win+Hは、ボイス入力全般がワークフローに適しているかどうかを教えてくれます。

機能比較（並列比較）

機能	Windows Voice Typing (Win+H)	StarWhisper (Whisper)
クリアな英語の精度	~88%	~97-98%
アクセントのある英語	弱い	強い
非英語言語	限定的	96言語
専門的/医療/法律の語彙	崩れる	維持される
自動句読点	手動（「,」「.」）	自動的
自動数字（午後3時 vs three p m）	いいえ	はい
音声がデバイスを離れるか	はい（Microsoft cloud）	いいえ（Local Mode）
オフラインで動作するか	いいえ	はい
GPU acceleration	いいえ	NVIDIA CUDA + Vulkan
コスト	無料、標準搭載	無料（最大500 wpd）、$10/月で無制限
ホットキー	Win+H（固定）	設定可能
あらゆるテキストフィールドで動作	ほとんどの場合	すべての場合

修正をインストールし、Win+Hを維持する方法

どちらかを選ぶ必要はありません。両方を共存させることができます。最も簡単な手順をご紹介します。

StarWhisperをインストールする

StarWhisperのホームページから無料インストーラーをダウンロードします。
インストーラーを実行します。デフォルト設定で問題ありません。バンドルされたWhisperモデルも含まれています。
アプリが起動し、システムトレイに常駐します。

ホットキーを設定する

StarWhisperの設定を開きます。Win+Hと競合しないホットキーを選択してください。多くのユーザーは、メニューキーのようなサイドキーを選ぶか、Caps Lockを再マッピングします。
Notepadを開き、ホットキーを押して、文章を話すことでテストします。
Win+Hはフォールバックとして残しておく。

Win+Hは引き続き動作します。組み込みツールを好む、どのような簡単なケースにも使用してください。

精度や非英語サポートが必要なすべてにStarWhisperを使用する。
ほとんどのユーザーは、一週間もすると、精度に大きな差があるため、組み込みツールが煩わしく感じられ、Win+Hを押すのを完全にやめることに気づきます。両ツールを並べてより深く比較したい場合は、専用の

StarWhisper vs Windows Voice Typing ページでトレードオフをより詳しく解説しています。 page covers the trade-offs in more detail.

ハードウェア：必要なマシン要件

Whisperは本物のニューラルネットワークであり、高速に動作させるにはある程度の計算能力を必要としますが、その要件は2026年の基準から見ると控えめです。

最小構成

Windows 10 (64-bit) または Windows 11
過去7〜8年間に製造されたマルチコア x64 CPU
RAM 4 GB（より大きなWhisperモデルには8 GBを推奨）
バンドルモデルファイル用に空きディスクスペース約1 GB

高速構成

CUDAサポート付きNVIDIA GPU（GTX 10シリーズ以降であれば十分）
システムRAM 16 GB
SSDストレージ（必須ではありませんが、より快適です）

古い、またはスペックの低いマシン向けには、StarWhisperが適切なWhisperモデルサイズを自動的に選択します。小型モデルは、統合グラフィックスであっても、基本的にどの最新のWindowsラップトップでもリアルタイムで動作します。中型および大型モデルは、より遅いですが、より正確で、GPUの恩恵を受けます。Vulkanは、AMDおよびIntelカード向けのクロスベンダーGPUパスとして利用可能です。

もし「なぜWindowsのディクテーションはこんなに悪いのか」という理由が、ハードウェアを尊重する無料のローカルな修正を求めているからである場合、答えは「はい、お持ちのマシンでも動作します」です。詳細については、 professional accuracy features page.

特定のWindowsディクテーションの問題について

「Windows voice typingが全く動作しない」

これはよくあるWin+Hの不満点です。Microsoftのサポートドキュメントによる修正は、通常、音声の権限をリセットするか、言語パックを再インストールすることです。もしこれを何度も経験し、より安定したツールを望むのであれば、別のディクテーションアプリをインストールするのが合理的な回避策です。StarWhisperはWindowsの音声スタックとは独立して動作するため、同じような形で機能が停止することはありません。

「Windows dictationが句読点をつけてくれない」

Win+Hはデフォルトでは自動で句読点をつけません。最近のWindowsビルドでは「auto-punctuation」という設定を有効にできますが、動作が一貫していません。Whisperは、文章構造に基づいて文脈的に句読点を処理するため、手動の介入なしに、話す間のポーズがコンマになり、文の終わりがピリオドになる、といった処理が可能です。

「Windows dictationが私のアクセントを理解してくれない」

これが最も一般的な不満点であり、最も改善の余地が大きい点です。Whisperは、ネイティブスピーカーに近い精度でアクセントのある英語を処理します。もしあなたのアクセントがアメリカ英語以外である場合、その差は大きく、Whisperベースのツールに切り替えることは、まるで初めて眼鏡をかけたような感覚を覚えるでしょう。

「Windows dictationが[特定のアプリ]で動作しない」

Win+Hはほとんどの標準的なWindowsテキストフィールドで動作しますが、特定のアプリではエッジケースがあります。StarWhisperは、他のどのWindows IMEと同じペーストメカニズムを使用するため、Win+Hが失敗するアプリを含め、キーボードが動作する場所ならどこでも機能します。これはWord、Outlook、Chromeのアドレスバー、Slackなどにも適用されます。専用の offline voice dictation FAQ 互換性リストを解説しています。

コスト：無料から開始でき、無制限が必要な場合は$10/月です。

無料プランでは1日あたり500語がカバーされており、これだけで数週間分の実際の作業における精度の差を評価するのに十分です。もしディクテーションを頻繁に使用する場合（ライター、研究者、コンテンツクリエイター、1日に数千語以上を生成するすべての人）は、Proが月額$10、年額$80です。シートごとの計算やアップセル階層はありません。価格の詳細は、 homepage pricing section.

特にライターにとって、精度が障壁ではなくなれば、Whisperベースのディクテーションのスピードが最大の魅力となります。 voice to text for writers 長文の執筆ワークフローに特化したものです。

よくある質問

Windows Voice Typing (Win+H) の問題点は何ですか？

Windows Voice Typingは、トランスフォーマー以前の時代に遡る、Microsoftの古い音声認識スタックを使用しています。クリアな北米英語での精度は約88パーセントです。アクセントのある英語、専門用語、固有名詞、非英語言語では急激に精度が低下します。また、発話間のコンテキストを十分に維持できないため、長文のディクテーションでも苦戦します。これらはMicrosoftにとって新しい情報ではありませんが、基盤となる技術が単に古いのです。

OpenAI Whisperはなぜより正確なのですか？

Whisperは、OpenAIによる新しいトランスフォーマーベースの音声認識モデルであり、約680,000時間の多言語オーディオでトレーニングされています。トレーニングコーパスは、古いMicrosoftスタックがトレーニングされたものよりもおよそ2桁大きく、アーキテクチャもよりモダンです。独立したベンチマークでは、Whisperのクリア英語での精度は一貫して97〜98パーセントに達し、Windowsスタックが崩壊するアクセントや非英語言語においても高い性能を発揮します。

StarWhisperを使用するためにWindows Dictationをアンインストールする必要がありますか？

Windows Voice TypingとStarWhisperは平和的に共存できます。それぞれ異なるホットキーを使用します（内蔵機能の場合はWin+H、StarWhisperの場合は設定可能）。そのため、互いに干渉することはありません。簡単な単文のディクテーションにはWin+Hを使い続け、より正確な文章、アクセントのついた英語、または非英語のコンテンツが必要な場合はStarWhisperをお使いいただけます。ほとんどのユーザーは、StarWhisperを起動したらWin+Hを開くのをやめています。

同時に両方使えますか？

技術的には、両方をインストールしてアクティブにすることは可能です。しかし、実際には同じマイクを聴くため、両方を同時にトリガーするとオーディオデバイスが混乱します。セッションごとにどちらか一方をお使いください。ほとんどのユーザーは、Win+Hを完全に置き換えるか、コンテンツ作成にはStarWhisperを使い、Win+HはWin+Hを押す方が切り替えるより速いという稀なケースに留めています。

アクセントはどうですか？Whisperの方がうまく処理しますか？

はい、大幅に優れています。Whisperは、幅広い地域アクセント、コードスイッチング、第二言語話者を含む多言語の音声でトレーニングされています。インド英語、スコットランド英語、カリブ海英語、シンガポール英語、南アフリカ英語、オーストラリア英語など、すべて高い精度で書き起こされます。Windows Voice Typingは主にアメリカ英語でトレーニングされており、それが現れています。もしお客様のアクセントが北米以外の地域であれば、精度の差は10パーセントポイントを大きく超えます。

他の言語はどうですか？

Whisperは、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語、ポーランド語、スウェーデン語、デンマーク語、ノルウェー語、フィンランド語、チェコ語、ハンガリー語、ルーマニア語、日本語、中国語、韓国語、ヒンディー語、ロシア語、アラビア語、トルコ語、ベトナム語、タイ語、インドネシア語、ウクライナ語など、96以上の言語をサポートしています。Windows Voice Typingはサポートする言語リストが短く、言語によって精度が大きく異なります。Windowsで非英語のディクテーションを行う場合、その差は非常に大きく、機能的にはWhisperが唯一の実用的な選択肢となります。

Whisperは内蔵GPUで動作しますか？

WhisperはCPU単体でも問題なく動作します。これは、内蔵グラフィックスのみの最新のWindowsラップトップを含む、あらゆる現代のWindowsラップトップで動作できることを意味します。NVIDIA GPUはCUDAを介して文字起こしを高速化します。AMDおよびIntel GPUはVulkanパスを介してサポートされています。もしディスクリートGPUを全く持っていない場合でも、StarWhisperがデフォルトで使用する小規模および中規模のWhisperモデルによるリアルタイムディクテーションには、CPUパスでも十分に高速です。

古いWindows 10マシンでも、Whisperは動作しますか？

はい。StarWhisperはWindows 10とWindows 11をサポートしています。最小要件は控えめです。マルチコアのx64 CPU、RAM 4 GB（大規模なWhisperモデルには8 GBを推奨）、およびバンドルされたモデルファイル用にディスク容量約1 GBが必要です。過去7〜8年間に製造されたマシンであれば、すべて問題なく動作します。CPUパスは、基本的にどのWindows 10マシンでも動作します。

Windowsのディクテーションはなぜこんなに悪いのか？ （そして無料の修正方法）

精度ギャップを、具体的な数字で

Windowsの音声入力（Win+H）

StarWhisper経由のOpenAI Whisper

Win+Hが間違える、Whisperが正しい6つの点

アクセントのある英語

非英語言語

専門用語

固有名詞

長いディクテーション

句読点と大文字・小文字