Windowsの音声入力(Win+H)は、Microsoftのプリトランスフォーマー音声モデルを使用しています。クリアな英語での精度は88%前後にとどまります。アクセントや他の言語で精度が落ちます。OpenAI Whisperは、現代的な代替手段であり、クリアな英語での精度は約98%、アクセントや96言語で強力な性能を発揮し、無料で、ローカルに、同じWindows PCで動作します。
同じマイク、同じWindows PC、異なる2つの音声モデル。
Microsoft内蔵の音声認識機能は便利ですが、古い音声認識スタックを使用しています。クリアなアメリカ英語のベンチマークでの精度は約88%(9単語に1つの誤り)。アクセントのある英語では70%台に落ち込みます。ほとんどの非英語言語では、実際の文章作成には使用不可能です。無料ですし、内蔵されているので、買い物リストなどには使えます。
Whisperは、OpenAIによる最新のトランスフォーマー音声認識モデルであり、680,000時間の音声データでトレーニングされています。独立したベンチマークによると、クリアな英語での精度は約97〜98%であり、アクセントや96言語で高い性能を発揮します。StarWhisperは、Whisperを無料でWindowsアプリとしてバンドルし、PCローカルで動作させます。マイクは同じ。テキストは大幅に優れています。
初日から気づく具体的な精度の違い
インド英語、スコットランド英語、シンガポール英語、南アフリカ英語、カリブ海英語、オーストラリア英語。Whisperはこれらすべてでトレーニングされました。Win+Hは主にアメリカ英語でトレーニングされており、それが現れています。この差は、見出しの10ポイントよりもはるかに大きいです。
Whisperは96言語に対応しています。Win+Hがサポートするリストははるかに短く、精度は大きくばらつきます。ドイツ語、フランス語、スペイン語、北京語、日本語、韓国語、ヒンディー語、アラビア語、ロシア語、その他ほとんどの言語において、その差は実質的に「使用可能」と「使用不可能」の違いです。
Whisperは、トレーニングコーパスにそのコンテンツが含まれているため、プログラミング用語、医学用語、法律用語、科学用語をより正確に処理します。Win+Hは、専門用語を一般的な英語の同等語に自動修正する傾向があります。
人名、地名、ブランド名、製品名。Whisperはそれらをより多く保持します。Win+Hは、非英語の固有名詞を頻繁に崩したり、音韻的な推測で置き換えたりします。
Whisperは文をまたいで文脈を保持し、より一貫性のある段落を生成します。Win+Hは短い発話に最適化されており、複数文にわたるディクテーションでは途中で論点がずれる傾向があります。
Whisperは句読点を文脈に応じて挿入し、文の区切りを尊重します。Win+Hでは、「コンマ」や「ピリオド」を明示的に言う必要があり、これが自然な話し方を遅くし、不自然な書き起こしを生み出します。
Microsoftは20年以上にわたりWindowsで音声認識機能を提供してきました。Windows Vistaには、ほとんど誰も使わなかったキーボード操作型のディクテーションツールであるWindows Speech Recognition (WSR)がありました。Windows 10では2017年にVoice Typingの再設計が追加され、Win+Hホットキーからアクセスできるようになりました。Windows 11ではUIがさらに洗練されました。しかし、本質的に変わっていないのは、基盤となる音声モデルです。
Windowsの音声入力の基盤となる音響モデルは、プリトランスフォーマー時代に遡ります。これは、主にアメリカ英語の比較的少ないコーパスでトレーニングされたリカレントニューラルネットワークアーキテクチャを使用しています。対照的に、この分野はすでに二度も進化しています。まずトランスフォーマーベースのモデルへ、次に大規模な多言語事前学習へと進みました。Whisperは、96言語にわたる680,000時間のトレーニングデータを持つ、第2波の最も著名なオープンソースの例です。
精度の差は、調整の問題ではなく構造的な問題です。Microsoftは次世代の音声認識に取り組んでいると思われますが、現時点では、内蔵のWindowsツールは古い技術の上に成り立っています。もし、PixelスマートフォンやiPhoneでのディクテーションの方がWindowsラップトップよりも正確だと感じたことがあるなら、それは同じ理由です。それらのスマートフォンはより新しいモデルを動作させているからです。
精度の違いは、実際の文章で即座に現れます。以下は、ユーザーからの報告に基づく典型的な例です。発話された列が実際に話された内容です。Win+Hの列がそのままの出力です。Whisperの列が、同一の音声からStarWhisperが生成した内容です。
| 発話された内容 | Win+Hの出力 | Whisper (StarWhisper) の出力 |
|---|---|---|
| "The deployment went to staging at 3 PM" | the deployment went to staging at three p m | The deployment went to staging at 3 PM. |
| "Schedule a meeting with Aoife on Thursday" | schedule a meeting with eva on Thursday | Schedule a meeting with Aoife on Thursday. |
| "The patient reported intermittent dyspnea" | the patient reported intermittent disney | The patient reported intermittent dyspnea. |
| "Refactor the auth middleware to use JWT tokens" | refactor the off middleware to use jay w t tokens | Refactor the auth middleware to use JWT tokens. |
| "Send the contract to [email protected]" | send the contract to monara at example dot com | Send the contract to [email protected]. |
これらの例は都合よく選ばれたものではありません。これらは、最も一般的なアメリカ英語の語彙以外で、どのくらいの長さでもディクテーションを行う場合に遭遇するエラーの種類の代表例です。
精度の差は魔法ではなく、アーキテクチャと規模によるものです。Whisperは、大規模で多様な音声コーパスでエンドツーエンドにトレーニングされた、シーケンス・トゥ・シーケンス・トランスフォーマーです。 StarWhisper Whisperモデルをバンドルし、Windows PCローカルで動作させます。
OpenAIは、ウェブから収集された約680,000時間の音声データ(うち多言語データが117,000時間、翻訳データが125,000時間)でWhisperをトレーニングしました。これは、古いMicrosoftスタックがトレーニングされたデータ量よりも、桁違いに多くのデータ量です。より大きく、より多様なトレーニングデータこそが、Whisperがアクセント、専門用語、非英語言語をうまく処理できる最大の理由です。
Whisperは、GPTや最新の翻訳モデルと同じ一般的なアーキテクチャであるエンコーダー・デコーダー・トランスフォーマーを使用しています。このアーキテクチャは、2010年代を通じて音声認識を支配していたリカレントモデルよりも、長距離の文脈把握に遥かに優れています。これが、Whisperが文脈の通った段落を生成する一方で、古いシステムは文脈の通った文章を生成し、その間の論点を失ってしまう理由です。
Whisperは、書き起こし、翻訳、言語識別、音声活動検出という複数の音声タスクを組み合わせてトレーニングされました。このマルチタスク設定により、単一タスクモデルでは性能が低下する状況においてもロバストなモデルが生成されます。実際には、Whisperが無音の隙間、背景ノイズ、言語の切り替えをスムーズに処理できることを意味します。
Whisperはオープンソースであり、サイズも適切であるため、コンシューマー向けのWindowsマシンに搭載でき、CPUで実用的な速度で動作します。だからこそ、StarWhisperがこれを無料のローカルツールとしてパッケージ化できるのです。クラウドのサブスクリプションは不要で、音声データがPC外に出ることはありません。また、インターネット接続に関わらず、精度の優位性が適用されます。モデルがローカルでどのように動作するかについての全詳細は、 プライバシーとオフライン機能のページに記載されています。.
Windows Voice Typingは無料で、標準搭載されており、すべてのWindows 10および11マシンに搭載され、セットアップは一切不要です。アクセント、専門用語、非英語の文章を気にせず、単一の文章をテキストボックスに口述したいというケースでは機能します。多くのユーザーは、短いメッセージに使用する際、スマートフォン上の組み込みのディクテーション機能でも十分な価値を得ています。
もしディクテーションのニーズが「Notepadで時折、短い文章を、クリアなアメリカ英語で、固有名詞なし」に限定されるのであれば、何も追加でインストールする必要はありません。数週間に一度の文章のために、別のアプリをインストールする手間はそれに見合っていません。
| 機能 | Windows Voice Typing (Win+H) | StarWhisper (Whisper) |
|---|---|---|
| クリアな英語の精度 | ~88% | ~97-98% |
| アクセントのある英語 | 弱い | 強い |
| 非英語言語 | 限定的 | 96言語 |
| 専門的/医療/法律の語彙 | 崩れる | 維持される |
| 自動句読点 | 手動(「,」「.」) | 自動的 |
| 自動数字(午後3時 vs three p m) | いいえ | はい |
| 音声がデバイスを離れるか | はい(Microsoft cloud) | いいえ(Local Mode) |
| オフラインで動作するか | いいえ | はい |
| GPU acceleration | いいえ | NVIDIA CUDA + Vulkan |
| コスト | 無料、標準搭載 | 無料(最大500 wpd)、$10/月で無制限 |
| ホットキー | Win+H(固定) | 設定可能 |
| あらゆるテキストフィールドで動作 | ほとんどの場合 | すべての場合 |
どちらかを選ぶ必要はありません。両方を共存させることができます。最も簡単な手順をご紹介します。
StarWhisper vs Windows Voice Typing ページでトレードオフをより詳しく解説しています。 page covers the trade-offs in more detail.
Whisperは本物のニューラルネットワークであり、高速に動作させるにはある程度の計算能力を必要としますが、その要件は2026年の基準から見ると控えめです。
古い、またはスペックの低いマシン向けには、StarWhisperが適切なWhisperモデルサイズを自動的に選択します。小型モデルは、統合グラフィックスであっても、基本的にどの最新のWindowsラップトップでもリアルタイムで動作します。中型および大型モデルは、より遅いですが、より正確で、GPUの恩恵を受けます。Vulkanは、AMDおよびIntelカード向けのクロスベンダーGPUパスとして利用可能です。
もし「なぜWindowsのディクテーションはこんなに悪いのか」という理由が、ハードウェアを尊重する無料のローカルな修正を求めているからである場合、答えは「はい、お持ちのマシンでも動作します」です。詳細については、 professional accuracy features page.
これはよくあるWin+Hの不満点です。Microsoftのサポートドキュメントによる修正は、通常、音声の権限をリセットするか、言語パックを再インストールすることです。もしこれを何度も経験し、より安定したツールを望むのであれば、別のディクテーションアプリをインストールするのが合理的な回避策です。StarWhisperはWindowsの音声スタックとは独立して動作するため、同じような形で機能が停止することはありません。
Win+Hはデフォルトでは自動で句読点をつけません。最近のWindowsビルドでは「auto-punctuation」という設定を有効にできますが、動作が一貫していません。Whisperは、文章構造に基づいて文脈的に句読点を処理するため、手動の介入なしに、話す間のポーズがコンマになり、文の終わりがピリオドになる、といった処理が可能です。
これが最も一般的な不満点であり、最も改善の余地が大きい点です。Whisperは、ネイティブスピーカーに近い精度でアクセントのある英語を処理します。もしあなたのアクセントがアメリカ英語以外である場合、その差は大きく、Whisperベースのツールに切り替えることは、まるで初めて眼鏡をかけたような感覚を覚えるでしょう。
Win+Hはほとんどの標準的なWindowsテキストフィールドで動作しますが、特定のアプリではエッジケースがあります。StarWhisperは、他のどのWindows IMEと同じペーストメカニズムを使用するため、Win+Hが失敗するアプリを含め、キーボードが動作する場所ならどこでも機能します。これはWord、Outlook、Chromeのアドレスバー、Slackなどにも適用されます。専用の offline voice dictation FAQ 互換性リストを解説しています。
無料プランでは1日あたり500語がカバーされており、これだけで数週間分の実際の作業における精度の差を評価するのに十分です。もしディクテーションを頻繁に使用する場合(ライター、研究者、コンテンツクリエイター、1日に数千語以上を生成するすべての人)は、Proが月額$10、年額$80です。シートごとの計算やアップセル階層はありません。価格の詳細は、 homepage pricing section.
特にライターにとって、精度が障壁ではなくなれば、Whisperベースのディクテーションのスピードが最大の魅力となります。 voice to text for writers 長文の執筆ワークフローに特化したものです。