日本語 / 日本語ディクテーション

日本語ディクテーションソフトウェア:
Windowsで使えるネイティブ日本語対応Whisper

日本語の音声入力。自動で漢字、ひらがな、カタカナに変換しながら、あらゆるWindowsアプリに日本語をディクテーションできます。IMEを完全にスキップできます。1日500語まで無料です。

Windows版をダウンロード
Microsoft Store
  • Windowsユーザーから信頼されています
  • 30秒で簡単にセットアップ
「お世話になっております。ご確認のほど...」

Windowsで働く日本人ライターのために開発されました

ネイティブなスクリプト出力、丁寧語、そしてIMEの煩わしさから解放されます

自動漢字/ひらがな/カタカナ変換

日本語が実際に書かれる混交表記で出力されます。名詞は漢字、助詞はひらがな、外来語はカタカナなど。変換候補メニューは不要です。

IMEをバイパス

何十年もの間、日本語のタイピングを遅くしてきたローマ字-かな-漢字の変換プロセスをスキップします。文章を話すだけで、正しいスクリプトの混交状態でカーソル位置に書き起こしが表示されます。

敬語を保持

丁寧語(です/ます)、謙譲語、尊敬語が話した通りに書き起こされます。ビジネスメール、クライアントへのやり取り、正式な文書など、すべて対応します。

日本語-英語のコードスイッチング

日本語の文章内に埋め込まれた英語のブランド名、専門用語、短いフレーズも正しく処理されます。テクノロジー、金融、コンサルティングの文章も自然に流れます。

ローカル処理

ローカルモードでは、音声データがお客様のWindowsマシン内に留まります。機密性の高いクライアントとのやり取り、社内メモ、個人的な文章は外部に漏れません。

個人利用は無料

1日500語、週3,500語。Pro版(月額$10)にアップグレードすれば、大量の日本語ライティングに対応した無制限のディクテーションが可能です。

IMEの制約を受けない日本語音声入力

Windowsでの日本語入力は、過去30年間、同じような苦痛なワークフローでした。IMEにローマ字を入力し、それがひらがなに変換されるのを見て、スペースキーを押して漢字の変換候補を確認し、適切なものを選び、単語ごとに繰り返す。経験豊富なタイピストでさえ、IMEの候補ウィンドウを監視するという認知的負荷のために、思考速度を大きく下回る壁にぶつかります。音声ディクテーションは、この一連のプロセス全体を取り除きます。

StarWhisperは、OpenAIのWhisperモデルを使用して、日本語が実際に書かれる混交の漢字-ひらがな-カタカナ表記に、日本語の音声を直接書き起こします。自然な日本語を話すだけで、IMEメニューや変換候補のダンスなしに、正しいスクリプトの混交状態でカーソル位置に書き起こしが表示されます。本アプリケーションはWindowsデスクトップツールであるため、Word、Outlook、OneNote、Excel、Teams、Slack、Notion、ブラウザ、およびテキスト入力が可能な他のすべてのWindowsアプリで動作します。 日本語はWhisperがサポートする言語の一つであり、日本の放送、ポッドキャスト、アニメ、ドラマ、ニュース、YouTubeなどから大量の学習データを用いています。このモデルは、単に日本語の音や文法だけでなく、日本語の表記の慣習も学習しています。どの単語が慣習的に漢字で書かれるか、どれがひらがなで残るか、どれがカタカナで使われるかといった点です。この慣習に従う点が、手動での後編集なしに使える出力となる理由です。

Japanese is one of Whisper's supported languages with substantial training data from Japanese broadcasts, podcasts, anime, drama, news, and YouTube. The model has learned not just Japanese sounds and grammar, but Japanese orthographic conventions: which words are conventionally written in kanji, which stay in hiragana, and which appear in katakana. That convention-following is what makes the output usable without manual post-editing.

ネイティブなスクリプト出力: 漢字、ひらがな、カタカナ

日本語は3つのスクリプトを同時に用いて書かれます。漢字(中国文字)は、名詞、動詞の語幹、形容詞の語幹といった語彙的な内容を担います。ひらがなは、文法的な助詞、動詞の活用語尾、そして漢字を使うと重く感じる固有の日本語の単語を処理します。カタカナは、外来語、擬音語、および特定の文体的な用法に使われます。ネイティブな書き手は、一つの文章の中でこれら3つのスクリプトを絶えず使い分け、どのスクリプトをどこで使うかのルールは、部分的に慣習的であり、部分的に文体的なものです。

Whisperは、この混交表記を直接生成します。例えば、「今日の会議は午後3時に変更になりました」という文章は、今日、会議、午後が漢字で、時、変更が漢字で、助詞のの、は、にがひらがなで、動詞の語尾なりましたがひらがなで、というように、書かれた通りに正確に出力されます。ローマ字は入力していません。文章を話すだけで、ネイティブな書き手が生成する内容と一致します。

外来語のカタカナ化は自動です。Computerはコンピューターに、meetingはミーティングに、projectはプロジェクトに、systemはシステムになります。ブランド名や英語の固有名詞は、元のラテン文字(Microsoft, Google, GitHub)のまま維持されます。出力は、ネイティブな速度で任意のWindowsアプリに流し込まれます。

敬語:丁寧語、謙譲語、尊敬語

日本語には、英語にはない、洗練された敬意のレベルが存在します。同じ考えでも、友人には常体、同僚や知人には丁寧語、フォーマルな場で自分の行動を説明する際には謙譲語、尊敬する人の行動を説明する際には尊敬語というように表現が分かれます。特にビジネス日本語は、これらのレベルが層状に組み合わさることに依存しており、これを誤ると実際のプロフェッショナルなリスクとなります。

Whisperは、敬語を正規化することなく、話された通りに書き起こします。お世話になっております(標準的なビジネス文書の書き出し)とディクテーションした場合、それが書き起こしに表示されます。ご確認いただけますでしょうか(レビューを依頼する丁寧な表現)とディクテーションした場合も、そのまま表示されます。ありがとうございます、またはありがとうとディクテーションした場合も、話した通りのものが得られます。モデルは、あなたの敬語レベルを「修正」することはありません。

これにより、日本語のビジネスメールのディクテーションがそのまま利用可能です。ビジネスメールの一般的な書き出し、本文、結びのパターン(お世話になっております、さて、ご検討のほどよろしくお願いいたします)がクリーンに処理されます。社内チームチャットの常体または準フォーマルな日本語も同様に機能します。継続的な敬語が必要なクライアント向け文書も、文章を一つずつ入力するのではなく、話す速度でディクテーションできます。

ビジネスおよび技術的な日本語の語彙

標準的なビジネス日本語(営業、経理、取引先、案件、見積もり、請求書、納期、検収)は学習データに豊富に含まれており、正しく処理されます。標準的な技術日本語(システム、データベース、インターフェース、クラウド、API、リリース、デプロイ)は、カタカナの外来語側と固有の日本語側の両方で認識されます。

業界固有の専門用語は異なります。主要な業界(金融、IT、マーケティング、コンサルティング、製造、小売)に共通する一般的な用語は概ね対応可能です。非常に専門的な用語(稀な科学用語、ニッチな法律用語、社内専門用語)は、音韻的に書き起こされる可能性があり、修正が必要です。個人的な検索・置換リストで繰り返し発生する誤りを処理できます。モデルは、セッションごとにあなたの修正から学習することはないため、データはローカルに保たれますが、一貫した用語は一貫性を保ちます。

長文の日本語ライティングワークフローについては、こちらのページをご覧ください。 コンテンツクリエイター向けの音声からテキストへの変換 ページ。同様のワークフローが日本語の出力にも適用されます。多言語ワークフロー全般については、こちらの 多言語機能ページ サポートされている全範囲を網羅しています。

日本語-英語のコードスイッチング

現代の日本の職場や学術的な文章では、英語のブランド名、英語の専門用語、短い英語のフレーズが日本語の文章内に日常的に埋め込まれています。「明日のMTGでSlackの新機能についてレビューします」のような文章は、テクノロジーの現場では普通のことです。Whisperは、日本語の流れを途切れさせることなく、このような混在した入力を処理します。

日本語がメインのコンテンツの場合は、StarWhisperの言語設定を日本語にしてください。埋め込まれた英語のブランド名、略語、短いフレーズは、元の大文字・小文字を保持したまま処理されます。また、日本語が採用した英語の単語のカタカナ表記も認識します(話者が元の英語を使うか、カタカナバージョンを使うかによって、同じ単語が異なる形で現れる場合があります)。長い英語の段落と長い日本語の段落が混在する文書の場合は、言語を自動検出に切り替えて、エンジンがセグメントごとに判断するようにしてください。

日本語から英語への翻訳ワークフローの場合、日本語のソースを一つのドキュメントにディクテーションし、その結果に任意の翻訳ツールを使用してください。一方、英語から日本語へのドラフト作成の場合、英語をディクテーションしてから翻訳するのではなく、日本語で直接ディクテーションすることをお勧めします。ターゲット言語で話す方が、出力品質が一貫して向上します。

Windowsでの日本語ディクテーションのユースケース

ビジネスメールと文書作成

OutlookやGmailのメッセージ、社内チームの更新情報、クライアントへのフォローアップ、敬語を用いた正式な文書作成など。冒頭の「お世話になっております」、本文、結びの「よろしくお願いいたします」といった日本のビジネスメールの形式が非常にきれいにディクテーションできます。長いビジネスメールを日本語でディクテーションする場合、IMEで入力する時間の約3分の1で完了し、結果のレビューは単語ごとに変換候補を監視するよりも速いです。

ライトノベルや漫画の脚本執筆

ライトノベル作家、漫画脚本家、ビジュアルノベル作家は、話すスピードで初稿をディクテーションできます。異なるキャラクターの口調(カジュアル、丁寧、古風、ロール言語)の会話は、話された通りに反映されます。標準的な日本語による長い物語の記述もスムーズに機能します。長編のフィクション作品の場合、無制限のProプランを利用することで、日々の単語制限がなくなります。詳しくは、 作家向けの音声入力機能 一般的な長文ワークフローのためのページです。

プロの日本語文字起こし

録音された会議、インタビュー、講義、ポッドキャストを日本語のテキストに文字起こしします。StarWhisperは、リアルタイムディクテーションと音声ファイルからの文字起こしの両方をサポートしています。クリアな録音環境での標準日本語は、高い精度で文字起こしされます。

翻訳ドラフトワークフロー

日本語に翻訳する作業者は、IMEで入力する代わりに、翻訳内容を直接ディクテーションできます。出力はラフドラフトの品質であり、推敲のプロセスを経ることで品質が向上しますが、IME入力と比較してスピードの優位性は非常に大きいです。英語のソース資料を口頭で話すだけで日本語訳を作成する方が、入力するよりも速いです。

個人的な執筆活動

日本語での日記、ブログ記事、ソーシャルメディア、Notionの記事、Twitter/Xのスレッド作成など。Freeプランでは、ほとんどの個人的な執筆量をカバーできます。コンテンツワークフローの一部として毎日日本語で執筆するユーザーには、Proがより適しています。

日本市場と未開拓の機会

日本は、スクリプトの複雑さ、IME中心のタイピング文化、そして古い音声認識システムにおける日本語のトレーニングデータの不足が組み合わさることで、歴史的に欧米の音声ディクテーションツールから取り残されてきました。Whisperはエンジン側でこの状況を変えました。日本語と英語の出力品質のギャップは、3年前と比べて大幅に小さくなっています。

StarWhisperのファネルデータによると、日本はWindowsアプリのデイリーインストール数が約14件であり、これは意味のある成長市場です。現在の日本語ユーザーのファーストサクセス率は約16.7パーセントであり、同じデータセットにおけるドイツ語ユーザーの57パーセントというレートよりも低くなっています。この差は、日本語ユーザー特有のセットアップの摩擦(スクリプトの選択、言語設定、マイクの構成)と、入力が自然な日本語と埋め込まれた英語が混在する場合のディクテーションの真の難しさの2点に起因します。どちらも製品の改善に伴って向上しています。

日常的な執筆において、音声ディクテーションがIME入力に取って代わるのに十分な品質か検討している日本語ユーザーにとって、実用的な答えは、エンジン品質は十分であるということです。制限要因は、セットアップと習慣になりました。Freeプランを利用すれば、コミットメントなしでご自身の環境でワークフローを試すことができます。詳しくは、 FAQ 一般的な日本語のセットアップに関する疑問点、および プライバシーとオフラインモード ページでは、ローカル処理の体制について説明しています。

日本語ユーザー向けの料金プラン

プラン単語数価格 (USD)
Free500単語/日、3,500単語/週$0
Pro Monthly無制限$10/月
Pro Annual無制限$80/年 ($6.67/月)

請求はStripeを通じてUSDで行われます。お客様の銀行が現地レートでJPYに換算します。日本向けの追加料金はありません。日本語を含む96以上の言語パックがFreeインストーラーに含まれています。単語数は、英語よりも「単語」あたりの文字密度がはるかに高い日本語に対して、適切なヒューリスティックを用いて測定されます。

Freeプランは、個人的な日本語の執筆量(ビジネスメール、日記、ブログ記事、ソーシャルメディア)には十分に実用的です。Proを月額$10に設定することは、長文の日本語を毎日書くユーザー(小説家、翻訳家、ジャーナリスト、フルタイムのビジネスコレスポンデント、コンテンツクリエイター)にとって理にかなっています。年間プランは、月払いと比較して約3分の1の節約になります。完全な料金内訳は、 ホームページの料金セクションに記載されています。サブスクリプションなし ページでは、RecurringなコミットメントなしでFreeプランがどのように機能するかを説明しています。

日本語ディクテーションのためのハードウェアとセットアップ

StarWhisperはWindows 10およびWindows 11で動作します。Macやモバイルでは動作しません。インストーラーは約100 MBで、Whisperモデルファイルは初回使用時にダウンロードされます。CPUのみの動作は、合理的に最新のIntelまたはAMDマシンであればどのマシンでも機能します。NVIDIA GPUとCUDAを使用すると、より大きなモデルが大幅に高速化され、大量の日本語文字起こしに役立ちます。Vulkanは、AMDおよびIntelのディスクリートGPU向けにクロスベンダーのGPUパスを提供します。

日本語ディクテーションの場合、日本語は英語よりも追加のパラメータから恩恵を受けるため、小モデルよりも中規模または大規模のWhisperモデルを推奨します。お使いのマシンが実行できる場合は、大規模モデルが最も高精度なオプションです。

マイクの品質は、思っている以上に重要です。特に声が小さい方や背景ノイズがある部屋の場合、ラップトップ内蔵マイクよりも、USBヘッドセットや指向性デスクマイクの方が、日本語の文字起こしが目に見えてクリーンになります。5,000円のUSBマイクへの投資は、修正時間の短縮という形ですぐに元が取れます。GPUに関する詳細については、 GPUアクセラレーション機能ページをご覧ください。.

よくある質問

StarWhisperは正しい漢字を出力しますか、それともひらがなだけですか?
正しい漢字を、ネイティブのライターが使用するのと同程度の比率で出力します。Whisperは、日本語が書かれる混在した漢字と仮名の正書法に、日本語の音声を直接書き起こします。ひらがなのみ、またはローマ字ではありません。このモデルは、音声と同期した書き言葉の日本語のトレーニングを通じて、どの単語が慣習的に漢字を使用し、どれがひらがなに残るかを学習しています。一般的な単語は漢字を使用し(時間、会議、質問)、助詞や文末はひらがな(の、が、を、です、ます)で残り、外来語はカタカナ(コンピューター、ミーティング、プロジェクト)で表示されます。その結果は、IMEでの処理が不要な、出版レベルの日本語となります。
敬語(丁寧語)は対応していますか?
はい。丁寧語(です/ます調)、謙譲語、尊敬語は、話された通りに文字起こしされます。ビジネス敬語(お世話になっております、よろしくお願いいたします、ご確認いただけますでしょうか)でディクテーションした場合、トランスクリプトにはそれが表示されます。エンジンは、敬語を常体やその逆に正規化しません。これにより、日本語のビジネスメールディクテーションが実用的になります。メールを書くように話せば、トランスクリプトがそれに一致します。職場の文書、会議の要約、クライアント向けの資料など、日本のビジネス文書の慣習が期待するレジスターで全て機能します。
専門的またはビジネス日本語をディクテーションできますか?
はい。ビジネス日本語(営業、経理、取引先、案件、見積もり)や標準的な技術日本語(システム、データベース、インターフェース、API、クラウド)は、正しく認識されます。トレーニングコーパスには、大規模な日本語のビジネスおよび技術コンテンツが含まれているため、ほとんどの職場の語彙は修正なしで機能します。非常に専門的な業界用語(稀な科学用語、ニッチな法律用語、社内専門用語)は修正が必要な場合があります。モデルはユーザーの修正から学習しないため、一貫した用語はセッションをまたいで一貫性を保ちます。大量の専門的な執筆を行う場合は、個人用の検索・置換リストが稀なケースに対応します。
ローマ字入力はどうですか?
StarWhisperは、ローマ字ではなく、ネイティブの日本語スクリプト(漢字、ひらがな、カタカナ)で音声を書き起こします。これは意図的な仕様です。日本語での音声入力の目的全体は、何十年にもわたって日本語のタイピングを遅らせてきた、不自然なローマ字からかなから漢字へのIME変換パイプラインを回避することにあります。何らかの理由でローマ字の出力が必要な場合(日本語文字を受け付けないシステム、書き起こしタスク、学習資料など)は、ネイティブの出力をコンバーターやWordの検索・置換機能に貼り付けることができます。デフォルトかつ推奨される出力はネイティブの日本語スクリプトです。なぜなら、ほとんどすべての日本のユーザーが実際に必要としているものがそれだからです。
文章の途中で日本語と英語を切り替えますか?
はい。Whisperは日本語と英語のコードスイッチングに対応しています。これは、現代の日本の職場や技術文書において、英語のブランド名、英語の専門用語、短い英語のフレーズが日本語の文章に常に埋め込まれているため重要です。StarWhisperの言語を日本語に設定し、自然に話しかけてください。埋め込まれた英語のトークンは正しく処理されます。英語のブランド名(Microsoft, Google, Salesforce, GitHub)は、元の大文字・小文字を保持します。長い英語の文章と長い日本語の文章が混在する文書の場合、自動言語検出機能を使用すると、エンジンがセグメントごとに言語を判断します。英語の借用語のカタカナ表記(computerをコンピューター、meetingをミーティングなど)は、その借用語が日本語に取り入れられている箇所に適用されます。
日本語のディクテーションは無料ですか?
はい。無料プランは、サポートされているすべての言語で同じです。1日500語、週3,500語で、開始にクレジットカードやアカウントは不要です。日本語は、無料インストーラーに含まれる96以上の言語パックに含まれています。日本語に追加の料金はかかりません。Pro版($10/月または$80/年)にアップグレードすると、無制限のディクテーションが利用でき、長文の日本語執筆、専門的な文書作成、ライトノベルや漫画の脚本作業、または日々のビジネス文書作成に役立ちます。請求はUSDで行われ、お使いの銀行がその時点のレートでJPYに換算します。単語数は、日次/週次の上限に対して適切なヒューリスティックを用いて日本語の文字数で測定されます。
WindowsでWord、Excel、メールでStarWhisperを使用できますか?
はい。StarWhisperは、どのWindowsアプリケーションでも、カーソル位置に日本語テキストを挿入します。日本語文書のためのMicrosoft Word、日本語のセル内容のためのExcel、日本語のメールのためのOutlook、日本語のチャットのためのTeams、Slack、Discord、OneNote、Notion、どのWindowsブラウザでのGoogle Docs、およびテキスト入力が可能なその他のすべてのWindowsアプリに対応しています。特別な統合は必要ありません。なぜなら、StarWhisperはOSレベルでキーボード入力をシミュレートするからです。つまり、日本語IMEを起動したり、入力モードを切り替えたり、Windowsでの日本語タイピングを遅くする通常のIME設定を行う必要がありません。ホットキーを押して話すだけです。
手書きの日本語文字はどうですか?
いいえ。StarWhisperは、音声からテキストへのディクテーションツールであり、手書き認識ツールではありません。日本語を話すと、エンジンが日本語のテキストを生成します。手書き文字の認識(手書きの漢字のOCR、タブレットへのスタイラス入力)を行うには、別の手書き認識ツールが必要です。Windowsには、タッチスクリーンやスタイラスをお持ちの場合、日本語IMEを通じて組み込みの手書き入力機能があります。StarWhisperは、手書きやタイピングを避けたいユーザーのために、このキーボード入力のステップを音声に置き換えることで補完します。

日本語で無料でディクテーションを始める

1日500語、アカウントは不要です。Pro版は無制限で$10/月です。

Windows向けStarWhisperのダウンロード