解決すべき問題

Windowsのディクテーションはなぜこんなに悪いのか?
(そして無料の修正方法)

Windowsの音声入力(Win+H)は、Microsoftのプリトランスフォーマー音声モデルを使用しています。クリアな英語での精度は88%前後にとどまります。アクセントや他の言語で精度が落ちます。OpenAI Whisperは、現代的な代替手段であり、クリアな英語での精度は約98%、アクセントや96言語で強力な性能を発揮し、無料で、ローカルに、同じWindows PCで動作します。

Windows向けに無料でダウンロード
Microsoft Store
  • Windowsから信頼されています
  • 簡単な30秒のセットアップ
"Whisperの精度:98%。Win+H:88%。マイクは同じ。"

精度ギャップを、具体的な数字で

同じマイク、同じWindows PC、異なる2つの音声モデル。

内蔵の

Windowsの音声入力(Win+H)

Microsoft内蔵の音声認識機能は便利ですが、古い音声認識スタックを使用しています。クリアなアメリカ英語のベンチマークでの精度は約88%(9単語に1つの誤り)。アクセントのある英語では70%台に落ち込みます。ほとんどの非英語言語では、実際の文章作成には使用不可能です。無料ですし、内蔵されているので、買い物リストなどには使えます。

修正方法

StarWhisper経由のOpenAI Whisper

Whisperは、OpenAIによる最新のトランスフォーマー音声認識モデルであり、680,000時間の音声データでトレーニングされています。独立したベンチマークによると、クリアな英語での精度は約97〜98%であり、アクセントや96言語で高い性能を発揮します。StarWhisperは、Whisperを無料でWindowsアプリとしてバンドルし、PCローカルで動作させます。マイクは同じ。テキストは大幅に優れています。

Win+Hが間違える、Whisperが正しい6つの点

初日から気づく具体的な精度の違い

アクセントのある英語

インド英語、スコットランド英語、シンガポール英語、南アフリカ英語、カリブ海英語、オーストラリア英語。Whisperはこれらすべてでトレーニングされました。Win+Hは主にアメリカ英語でトレーニングされており、それが現れています。この差は、見出しの10ポイントよりもはるかに大きいです。

非英語言語

Whisperは96言語に対応しています。Win+Hがサポートするリストははるかに短く、精度は大きくばらつきます。ドイツ語、フランス語、スペイン語、北京語、日本語、韓国語、ヒンディー語、アラビア語、ロシア語、その他ほとんどの言語において、その差は実質的に「使用可能」と「使用不可能」の違いです。

専門用語

Whisperは、トレーニングコーパスにそのコンテンツが含まれているため、プログラミング用語、医学用語、法律用語、科学用語をより正確に処理します。Win+Hは、専門用語を一般的な英語の同等語に自動修正する傾向があります。

固有名詞

人名、地名、ブランド名、製品名。Whisperはそれらをより多く保持します。Win+Hは、非英語の固有名詞を頻繁に崩したり、音韻的な推測で置き換えたりします。

長いディクテーション

Whisperは文をまたいで文脈を保持し、より一貫性のある段落を生成します。Win+Hは短い発話に最適化されており、複数文にわたるディクテーションでは途中で論点がずれる傾向があります。

句読点と大文字・小文字

Whisperは句読点を文脈に応じて挿入し、文の区切りを尊重します。Win+Hでは、「コンマ」や「ピリオド」を明示的に言う必要があり、これが自然な話し方を遅くし、不自然な書き起こしを生み出します。

なぜWindowsのディクテーションは2014年止まりに感じるのか

Microsoftは20年以上にわたりWindowsで音声認識機能を提供してきました。Windows Vistaには、ほとんど誰も使わなかったキーボード操作型のディクテーションツールであるWindows Speech Recognition (WSR)がありました。Windows 10では2017年にVoice Typingの再設計が追加され、Win+Hホットキーからアクセスできるようになりました。Windows 11ではUIがさらに洗練されました。しかし、本質的に変わっていないのは、基盤となる音声モデルです。

Windowsの音声入力の基盤となる音響モデルは、プリトランスフォーマー時代に遡ります。これは、主にアメリカ英語の比較的少ないコーパスでトレーニングされたリカレントニューラルネットワークアーキテクチャを使用しています。対照的に、この分野はすでに二度も進化しています。まずトランスフォーマーベースのモデルへ、次に大規模な多言語事前学習へと進みました。Whisperは、96言語にわたる680,000時間のトレーニングデータを持つ、第2波の最も著名なオープンソースの例です。

精度の差は、調整の問題ではなく構造的な問題です。Microsoftは次世代の音声認識に取り組んでいると思われますが、現時点では、内蔵のWindowsツールは古い技術の上に成り立っています。もし、PixelスマートフォンやiPhoneでのディクテーションの方がWindowsラップトップよりも正確だと感じたことがあるなら、それは同じ理由です。それらのスマートフォンはより新しいモデルを動作させているからです。

Win+Hが失敗する具体的な例

精度の違いは、実際の文章で即座に現れます。以下は、ユーザーからの報告に基づく典型的な例です。発話された列が実際に話された内容です。Win+Hの列がそのままの出力です。Whisperの列が、同一の音声からStarWhisperが生成した内容です。

発話された内容 Win+Hの出力 Whisper (StarWhisper) の出力
"The deployment went to staging at 3 PM" the deployment went to staging at three p m The deployment went to staging at 3 PM.
"Schedule a meeting with Aoife on Thursday" schedule a meeting with eva on Thursday Schedule a meeting with Aoife on Thursday.
"The patient reported intermittent dyspnea" the patient reported intermittent disney The patient reported intermittent dyspnea.
"Refactor the auth middleware to use JWT tokens" refactor the off middleware to use jay w t tokens Refactor the auth middleware to use JWT tokens.
"Send the contract to [email protected]" send the contract to monara at example dot com Send the contract to [email protected].

これらの例は都合よく選ばれたものではありません。これらは、最も一般的なアメリカ英語の語彙以外で、どのくらいの長さでもディクテーションを行う場合に遭遇するエラーの種類の代表例です。

Whisperが技術的に異なる点

精度の差は魔法ではなく、アーキテクチャと規模によるものです。Whisperは、大規模で多様な音声コーパスでエンドツーエンドにトレーニングされた、シーケンス・トゥ・シーケンス・トランスフォーマーです。 StarWhisper Whisperモデルをバンドルし、Windows PCローカルで動作させます。

より大きく、より多様なトレーニングデータ

OpenAIは、ウェブから収集された約680,000時間の音声データ(うち多言語データが117,000時間、翻訳データが125,000時間)でWhisperをトレーニングしました。これは、古いMicrosoftスタックがトレーニングされたデータ量よりも、桁違いに多くのデータ量です。より大きく、より多様なトレーニングデータこそが、Whisperがアクセント、専門用語、非英語言語をうまく処理できる最大の理由です。

トランスフォーマーアーキテクチャ

Whisperは、GPTや最新の翻訳モデルと同じ一般的なアーキテクチャであるエンコーダー・デコーダー・トランスフォーマーを使用しています。このアーキテクチャは、2010年代を通じて音声認識を支配していたリカレントモデルよりも、長距離の文脈把握に遥かに優れています。これが、Whisperが文脈の通った段落を生成する一方で、古いシステムは文脈の通った文章を生成し、その間の論点を失ってしまう理由です。

マルチタスクトレーニング

Whisperは、書き起こし、翻訳、言語識別、音声活動検出という複数の音声タスクを組み合わせてトレーニングされました。このマルチタスク設定により、単一タスクモデルでは性能が低下する状況においてもロバストなモデルが生成されます。実際には、Whisperが無音の隙間、背景ノイズ、言語の切り替えをスムーズに処理できることを意味します。

ローカルで動作します

Whisperはオープンソースであり、サイズも適切であるため、コンシューマー向けのWindowsマシンに搭載でき、CPUで実用的な速度で動作します。だからこそ、StarWhisperがこれを無料のローカルツールとしてパッケージ化できるのです。クラウドのサブスクリプションは不要で、音声データがPC外に出ることはありません。また、インターネット接続に関わらず、精度の優位性が適用されます。モデルがローカルでどのように動作するかについての全詳細は、 プライバシーとオフライン機能のページに記載されています。.

Win+Hが優れている点、正直なところ

内蔵ツールにもその役割はあります

Windows Voice Typingは無料で、標準搭載されており、すべてのWindows 10および11マシンに搭載され、セットアップは一切不要です。アクセント、専門用語、非英語の文章を気にせず、単一の文章をテキストボックスに口述したいというケースでは機能します。多くのユーザーは、短いメッセージに使用する際、スマートフォン上の組み込みのディクテーション機能でも十分な価値を得ています。

もしディクテーションのニーズが「Notepadで時折、短い文章を、クリアなアメリカ英語で、固有名詞なし」に限定されるのであれば、何も追加でインストールする必要はありません。数週間に一度の文章のために、別のアプリをインストールする手間はそれに見合っていません。

具体的には、Win+Hは以下のような場合に問題ありません。

  • 時々しかディクテーションをしない場合。 週に一度、一度に一文だけ、カジュアルなテキストフィールドに入力する場合。
  • 話す英語がクリアなアメリカ英語である場合。 標準的な語彙で、固有名詞や略語がない場合。
  • 何もインストールしたくない場合。 すでに搭載されており、セットアップ費用はゼロです。
  • ボイス入力の試用段階である場合。 Win+Hは、ボイス入力全般がワークフローに適しているかどうかを教えてくれます。

機能比較(並列比較)

機能 Windows Voice Typing (Win+H) StarWhisper (Whisper)
クリアな英語の精度 ~88% ~97-98%
アクセントのある英語 弱い 強い
非英語言語 限定的 96言語
専門的/医療/法律の語彙 崩れる 維持される
自動句読点 手動(「,」「.」) 自動的
自動数字(午後3時 vs three p m) いいえ はい
音声がデバイスを離れるか はい(Microsoft cloud) いいえ(Local Mode)
オフラインで動作するか いいえ はい
GPU acceleration いいえ NVIDIA CUDA + Vulkan
コスト 無料、標準搭載 無料(最大500 wpd)、$10/月で無制限
ホットキー Win+H(固定) 設定可能
あらゆるテキストフィールドで動作 ほとんどの場合 すべての場合

修正をインストールし、Win+Hを維持する方法

どちらかを選ぶ必要はありません。両方を共存させることができます。最も簡単な手順をご紹介します。

StarWhisperをインストールする

  • StarWhisperのホームページから無料インストーラーをダウンロードします。
  • インストーラーを実行します。デフォルト設定で問題ありません。バンドルされたWhisperモデルも含まれています。
  • アプリが起動し、システムトレイに常駐します。

ホットキーを設定する

  • StarWhisperの設定を開きます。Win+Hと競合しないホットキーを選択してください。多くのユーザーは、メニューキーのようなサイドキーを選ぶか、Caps Lockを再マッピングします。
  • Notepadを開き、ホットキーを押して、文章を話すことでテストします。
  • Win+Hはフォールバックとして残しておく。

Win+Hは引き続き動作します。組み込みツールを好む、どのような簡単なケースにも使用してください。

  • 精度や非英語サポートが必要なすべてにStarWhisperを使用する。
  • ほとんどのユーザーは、一週間もすると、精度に大きな差があるため、組み込みツールが煩わしく感じられ、Win+Hを押すのを完全にやめることに気づきます。両ツールを並べてより深く比較したい場合は、専用の

StarWhisper vs Windows Voice Typing ページでトレードオフをより詳しく解説しています。 page covers the trade-offs in more detail.

ハードウェア:必要なマシン要件

Whisperは本物のニューラルネットワークであり、高速に動作させるにはある程度の計算能力を必要としますが、その要件は2026年の基準から見ると控えめです。

最小構成

  • Windows 10 (64-bit) または Windows 11
  • 過去7〜8年間に製造されたマルチコア x64 CPU
  • RAM 4 GB(より大きなWhisperモデルには8 GBを推奨)
  • バンドルモデルファイル用に空きディスクスペース約1 GB

高速構成

  • CUDAサポート付きNVIDIA GPU(GTX 10シリーズ以降であれば十分)
  • システムRAM 16 GB
  • SSDストレージ(必須ではありませんが、より快適です)

古い、またはスペックの低いマシン向けには、StarWhisperが適切なWhisperモデルサイズを自動的に選択します。小型モデルは、統合グラフィックスであっても、基本的にどの最新のWindowsラップトップでもリアルタイムで動作します。中型および大型モデルは、より遅いですが、より正確で、GPUの恩恵を受けます。Vulkanは、AMDおよびIntelカード向けのクロスベンダーGPUパスとして利用可能です。

もし「なぜWindowsのディクテーションはこんなに悪いのか」という理由が、ハードウェアを尊重する無料のローカルな修正を求めているからである場合、答えは「はい、お持ちのマシンでも動作します」です。詳細については、 professional accuracy features page.

特定のWindowsディクテーションの問題について

「Windows voice typingが全く動作しない」

これはよくあるWin+Hの不満点です。Microsoftのサポートドキュメントによる修正は、通常、音声の権限をリセットするか、言語パックを再インストールすることです。もしこれを何度も経験し、より安定したツールを望むのであれば、別のディクテーションアプリをインストールするのが合理的な回避策です。StarWhisperはWindowsの音声スタックとは独立して動作するため、同じような形で機能が停止することはありません。

「Windows dictationが句読点をつけてくれない」

Win+Hはデフォルトでは自動で句読点をつけません。最近のWindowsビルドでは「auto-punctuation」という設定を有効にできますが、動作が一貫していません。Whisperは、文章構造に基づいて文脈的に句読点を処理するため、手動の介入なしに、話す間のポーズがコンマになり、文の終わりがピリオドになる、といった処理が可能です。

「Windows dictationが私のアクセントを理解してくれない」

これが最も一般的な不満点であり、最も改善の余地が大きい点です。Whisperは、ネイティブスピーカーに近い精度でアクセントのある英語を処理します。もしあなたのアクセントがアメリカ英語以外である場合、その差は大きく、Whisperベースのツールに切り替えることは、まるで初めて眼鏡をかけたような感覚を覚えるでしょう。

「Windows dictationが[特定のアプリ]で動作しない」

Win+Hはほとんどの標準的なWindowsテキストフィールドで動作しますが、特定のアプリではエッジケースがあります。StarWhisperは、他のどのWindows IMEと同じペーストメカニズムを使用するため、Win+Hが失敗するアプリを含め、キーボードが動作する場所ならどこでも機能します。これはWord、Outlook、Chromeのアドレスバー、Slackなどにも適用されます。専用の offline voice dictation FAQ 互換性リストを解説しています。

コスト:無料から開始でき、無制限が必要な場合は$10/月です。

無料プランでは1日あたり500語がカバーされており、これだけで数週間分の実際の作業における精度の差を評価するのに十分です。もしディクテーションを頻繁に使用する場合(ライター、研究者、コンテンツクリエイター、1日に数千語以上を生成するすべての人)は、Proが月額$10、年額$80です。シートごとの計算やアップセル階層はありません。価格の詳細は、 homepage pricing section.

特にライターにとって、精度が障壁ではなくなれば、Whisperベースのディクテーションのスピードが最大の魅力となります。 voice to text for writers 長文の執筆ワークフローに特化したものです。

よくある質問

Windows Voice Typing (Win+H) の問題点は何ですか?
Windows Voice Typingは、トランスフォーマー以前の時代に遡る、Microsoftの古い音声認識スタックを使用しています。クリアな北米英語での精度は約88パーセントです。アクセントのある英語、専門用語、固有名詞、非英語言語では急激に精度が低下します。また、発話間のコンテキストを十分に維持できないため、長文のディクテーションでも苦戦します。これらはMicrosoftにとって新しい情報ではありませんが、基盤となる技術が単に古いのです。
OpenAI Whisperはなぜより正確なのですか?
Whisperは、OpenAIによる新しいトランスフォーマーベースの音声認識モデルであり、約680,000時間の多言語オーディオでトレーニングされています。トレーニングコーパスは、古いMicrosoftスタックがトレーニングされたものよりもおよそ2桁大きく、アーキテクチャもよりモダンです。独立したベンチマークでは、Whisperのクリア英語での精度は一貫して97〜98パーセントに達し、Windowsスタックが崩壊するアクセントや非英語言語においても高い性能を発揮します。
StarWhisperを使用するためにWindows Dictationをアンインストールする必要がありますか?
Windows Voice TypingとStarWhisperは平和的に共存できます。それぞれ異なるホットキーを使用します(内蔵機能の場合はWin+H、StarWhisperの場合は設定可能)。そのため、互いに干渉することはありません。簡単な単文のディクテーションにはWin+Hを使い続け、より正確な文章、アクセントのついた英語、または非英語のコンテンツが必要な場合はStarWhisperをお使いいただけます。ほとんどのユーザーは、StarWhisperを起動したらWin+Hを開くのをやめています。
同時に両方使えますか?
技術的には、両方をインストールしてアクティブにすることは可能です。しかし、実際には同じマイクを聴くため、両方を同時にトリガーするとオーディオデバイスが混乱します。セッションごとにどちらか一方をお使いください。ほとんどのユーザーは、Win+Hを完全に置き換えるか、コンテンツ作成にはStarWhisperを使い、Win+HはWin+Hを押す方が切り替えるより速いという稀なケースに留めています。
アクセントはどうですか?Whisperの方がうまく処理しますか?
はい、大幅に優れています。Whisperは、幅広い地域アクセント、コードスイッチング、第二言語話者を含む多言語の音声でトレーニングされています。インド英語、スコットランド英語、カリブ海英語、シンガポール英語、南アフリカ英語、オーストラリア英語など、すべて高い精度で書き起こされます。Windows Voice Typingは主にアメリカ英語でトレーニングされており、それが現れています。もしお客様のアクセントが北米以外の地域であれば、精度の差は10パーセントポイントを大きく超えます。
他の言語はどうですか?
Whisperは、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語、ポーランド語、スウェーデン語、デンマーク語、ノルウェー語、フィンランド語、チェコ語、ハンガリー語、ルーマニア語、日本語、中国語、韓国語、ヒンディー語、ロシア語、アラビア語、トルコ語、ベトナム語、タイ語、インドネシア語、ウクライナ語など、96以上の言語をサポートしています。Windows Voice Typingはサポートする言語リストが短く、言語によって精度が大きく異なります。Windowsで非英語のディクテーションを行う場合、その差は非常に大きく、機能的にはWhisperが唯一の実用的な選択肢となります。
Whisperは内蔵GPUで動作しますか?
WhisperはCPU単体でも問題なく動作します。これは、内蔵グラフィックスのみの最新のWindowsラップトップを含む、あらゆる現代のWindowsラップトップで動作できることを意味します。NVIDIA GPUはCUDAを介して文字起こしを高速化します。AMDおよびIntel GPUはVulkanパスを介してサポートされています。もしディスクリートGPUを全く持っていない場合でも、StarWhisperがデフォルトで使用する小規模および中規模のWhisperモデルによるリアルタイムディクテーションには、CPUパスでも十分に高速です。
古いWindows 10マシンでも、Whisperは動作しますか?
はい。StarWhisperはWindows 10とWindows 11をサポートしています。最小要件は控えめです。マルチコアのx64 CPU、RAM 4 GB(大規模なWhisperモデルには8 GBを推奨)、およびバンドルされたモデルファイル用にディスク容量約1 GBが必要です。過去7〜8年間に製造されたマシンであれば、すべて問題なく動作します。CPUパスは、基本的にどのWindows 10マシンでも動作します。

Win+Hをより正確なものに置き換える

Freeプランは1日あたり500語までカバーします。Windows PC上でローカルに動作します。インストール以上の設定は不要です。

StarWhisperをダウンロード