日本語の音声入力。自動で漢字、ひらがな、カタカナに変換しながら、あらゆるWindowsアプリに日本語をディクテーションできます。IMEを完全にスキップできます。1日500語まで無料です。
ネイティブなスクリプト出力、丁寧語、そしてIMEの煩わしさから解放されます
日本語が実際に書かれる混交表記で出力されます。名詞は漢字、助詞はひらがな、外来語はカタカナなど。変換候補メニューは不要です。
何十年もの間、日本語のタイピングを遅くしてきたローマ字-かな-漢字の変換プロセスをスキップします。文章を話すだけで、正しいスクリプトの混交状態でカーソル位置に書き起こしが表示されます。
丁寧語(です/ます)、謙譲語、尊敬語が話した通りに書き起こされます。ビジネスメール、クライアントへのやり取り、正式な文書など、すべて対応します。
日本語の文章内に埋め込まれた英語のブランド名、専門用語、短いフレーズも正しく処理されます。テクノロジー、金融、コンサルティングの文章も自然に流れます。
ローカルモードでは、音声データがお客様のWindowsマシン内に留まります。機密性の高いクライアントとのやり取り、社内メモ、個人的な文章は外部に漏れません。
1日500語、週3,500語。Pro版(月額$10)にアップグレードすれば、大量の日本語ライティングに対応した無制限のディクテーションが可能です。
Windowsでの日本語入力は、過去30年間、同じような苦痛なワークフローでした。IMEにローマ字を入力し、それがひらがなに変換されるのを見て、スペースキーを押して漢字の変換候補を確認し、適切なものを選び、単語ごとに繰り返す。経験豊富なタイピストでさえ、IMEの候補ウィンドウを監視するという認知的負荷のために、思考速度を大きく下回る壁にぶつかります。音声ディクテーションは、この一連のプロセス全体を取り除きます。
StarWhisperは、OpenAIのWhisperモデルを使用して、日本語が実際に書かれる混交の漢字-ひらがな-カタカナ表記に、日本語の音声を直接書き起こします。自然な日本語を話すだけで、IMEメニューや変換候補のダンスなしに、正しいスクリプトの混交状態でカーソル位置に書き起こしが表示されます。本アプリケーションはWindowsデスクトップツールであるため、Word、Outlook、OneNote、Excel、Teams、Slack、Notion、ブラウザ、およびテキスト入力が可能な他のすべてのWindowsアプリで動作します。 日本語はWhisperがサポートする言語の一つであり、日本の放送、ポッドキャスト、アニメ、ドラマ、ニュース、YouTubeなどから大量の学習データを用いています。このモデルは、単に日本語の音や文法だけでなく、日本語の表記の慣習も学習しています。どの単語が慣習的に漢字で書かれるか、どれがひらがなで残るか、どれがカタカナで使われるかといった点です。この慣習に従う点が、手動での後編集なしに使える出力となる理由です。
Japanese is one of Whisper's supported languages with substantial training data from Japanese broadcasts, podcasts, anime, drama, news, and YouTube. The model has learned not just Japanese sounds and grammar, but Japanese orthographic conventions: which words are conventionally written in kanji, which stay in hiragana, and which appear in katakana. That convention-following is what makes the output usable without manual post-editing.
日本語は3つのスクリプトを同時に用いて書かれます。漢字(中国文字)は、名詞、動詞の語幹、形容詞の語幹といった語彙的な内容を担います。ひらがなは、文法的な助詞、動詞の活用語尾、そして漢字を使うと重く感じる固有の日本語の単語を処理します。カタカナは、外来語、擬音語、および特定の文体的な用法に使われます。ネイティブな書き手は、一つの文章の中でこれら3つのスクリプトを絶えず使い分け、どのスクリプトをどこで使うかのルールは、部分的に慣習的であり、部分的に文体的なものです。
Whisperは、この混交表記を直接生成します。例えば、「今日の会議は午後3時に変更になりました」という文章は、今日、会議、午後が漢字で、時、変更が漢字で、助詞のの、は、にがひらがなで、動詞の語尾なりましたがひらがなで、というように、書かれた通りに正確に出力されます。ローマ字は入力していません。文章を話すだけで、ネイティブな書き手が生成する内容と一致します。
外来語のカタカナ化は自動です。Computerはコンピューターに、meetingはミーティングに、projectはプロジェクトに、systemはシステムになります。ブランド名や英語の固有名詞は、元のラテン文字(Microsoft, Google, GitHub)のまま維持されます。出力は、ネイティブな速度で任意のWindowsアプリに流し込まれます。
日本語には、英語にはない、洗練された敬意のレベルが存在します。同じ考えでも、友人には常体、同僚や知人には丁寧語、フォーマルな場で自分の行動を説明する際には謙譲語、尊敬する人の行動を説明する際には尊敬語というように表現が分かれます。特にビジネス日本語は、これらのレベルが層状に組み合わさることに依存しており、これを誤ると実際のプロフェッショナルなリスクとなります。
Whisperは、敬語を正規化することなく、話された通りに書き起こします。お世話になっております(標準的なビジネス文書の書き出し)とディクテーションした場合、それが書き起こしに表示されます。ご確認いただけますでしょうか(レビューを依頼する丁寧な表現)とディクテーションした場合も、そのまま表示されます。ありがとうございます、またはありがとうとディクテーションした場合も、話した通りのものが得られます。モデルは、あなたの敬語レベルを「修正」することはありません。
これにより、日本語のビジネスメールのディクテーションがそのまま利用可能です。ビジネスメールの一般的な書き出し、本文、結びのパターン(お世話になっております、さて、ご検討のほどよろしくお願いいたします)がクリーンに処理されます。社内チームチャットの常体または準フォーマルな日本語も同様に機能します。継続的な敬語が必要なクライアント向け文書も、文章を一つずつ入力するのではなく、話す速度でディクテーションできます。
標準的なビジネス日本語(営業、経理、取引先、案件、見積もり、請求書、納期、検収)は学習データに豊富に含まれており、正しく処理されます。標準的な技術日本語(システム、データベース、インターフェース、クラウド、API、リリース、デプロイ)は、カタカナの外来語側と固有の日本語側の両方で認識されます。
業界固有の専門用語は異なります。主要な業界(金融、IT、マーケティング、コンサルティング、製造、小売)に共通する一般的な用語は概ね対応可能です。非常に専門的な用語(稀な科学用語、ニッチな法律用語、社内専門用語)は、音韻的に書き起こされる可能性があり、修正が必要です。個人的な検索・置換リストで繰り返し発生する誤りを処理できます。モデルは、セッションごとにあなたの修正から学習することはないため、データはローカルに保たれますが、一貫した用語は一貫性を保ちます。
長文の日本語ライティングワークフローについては、こちらのページをご覧ください。 コンテンツクリエイター向けの音声からテキストへの変換 ページ。同様のワークフローが日本語の出力にも適用されます。多言語ワークフロー全般については、こちらの 多言語機能ページ サポートされている全範囲を網羅しています。
現代の日本の職場や学術的な文章では、英語のブランド名、英語の専門用語、短い英語のフレーズが日本語の文章内に日常的に埋め込まれています。「明日のMTGでSlackの新機能についてレビューします」のような文章は、テクノロジーの現場では普通のことです。Whisperは、日本語の流れを途切れさせることなく、このような混在した入力を処理します。
日本語がメインのコンテンツの場合は、StarWhisperの言語設定を日本語にしてください。埋め込まれた英語のブランド名、略語、短いフレーズは、元の大文字・小文字を保持したまま処理されます。また、日本語が採用した英語の単語のカタカナ表記も認識します(話者が元の英語を使うか、カタカナバージョンを使うかによって、同じ単語が異なる形で現れる場合があります)。長い英語の段落と長い日本語の段落が混在する文書の場合は、言語を自動検出に切り替えて、エンジンがセグメントごとに判断するようにしてください。
日本語から英語への翻訳ワークフローの場合、日本語のソースを一つのドキュメントにディクテーションし、その結果に任意の翻訳ツールを使用してください。一方、英語から日本語へのドラフト作成の場合、英語をディクテーションしてから翻訳するのではなく、日本語で直接ディクテーションすることをお勧めします。ターゲット言語で話す方が、出力品質が一貫して向上します。
OutlookやGmailのメッセージ、社内チームの更新情報、クライアントへのフォローアップ、敬語を用いた正式な文書作成など。冒頭の「お世話になっております」、本文、結びの「よろしくお願いいたします」といった日本のビジネスメールの形式が非常にきれいにディクテーションできます。長いビジネスメールを日本語でディクテーションする場合、IMEで入力する時間の約3分の1で完了し、結果のレビューは単語ごとに変換候補を監視するよりも速いです。
ライトノベル作家、漫画脚本家、ビジュアルノベル作家は、話すスピードで初稿をディクテーションできます。異なるキャラクターの口調(カジュアル、丁寧、古風、ロール言語)の会話は、話された通りに反映されます。標準的な日本語による長い物語の記述もスムーズに機能します。長編のフィクション作品の場合、無制限のProプランを利用することで、日々の単語制限がなくなります。詳しくは、 作家向けの音声入力機能 一般的な長文ワークフローのためのページです。
録音された会議、インタビュー、講義、ポッドキャストを日本語のテキストに文字起こしします。StarWhisperは、リアルタイムディクテーションと音声ファイルからの文字起こしの両方をサポートしています。クリアな録音環境での標準日本語は、高い精度で文字起こしされます。
日本語に翻訳する作業者は、IMEで入力する代わりに、翻訳内容を直接ディクテーションできます。出力はラフドラフトの品質であり、推敲のプロセスを経ることで品質が向上しますが、IME入力と比較してスピードの優位性は非常に大きいです。英語のソース資料を口頭で話すだけで日本語訳を作成する方が、入力するよりも速いです。
日本語での日記、ブログ記事、ソーシャルメディア、Notionの記事、Twitter/Xのスレッド作成など。Freeプランでは、ほとんどの個人的な執筆量をカバーできます。コンテンツワークフローの一部として毎日日本語で執筆するユーザーには、Proがより適しています。
日本は、スクリプトの複雑さ、IME中心のタイピング文化、そして古い音声認識システムにおける日本語のトレーニングデータの不足が組み合わさることで、歴史的に欧米の音声ディクテーションツールから取り残されてきました。Whisperはエンジン側でこの状況を変えました。日本語と英語の出力品質のギャップは、3年前と比べて大幅に小さくなっています。
StarWhisperのファネルデータによると、日本はWindowsアプリのデイリーインストール数が約14件であり、これは意味のある成長市場です。現在の日本語ユーザーのファーストサクセス率は約16.7パーセントであり、同じデータセットにおけるドイツ語ユーザーの57パーセントというレートよりも低くなっています。この差は、日本語ユーザー特有のセットアップの摩擦(スクリプトの選択、言語設定、マイクの構成)と、入力が自然な日本語と埋め込まれた英語が混在する場合のディクテーションの真の難しさの2点に起因します。どちらも製品の改善に伴って向上しています。
日常的な執筆において、音声ディクテーションがIME入力に取って代わるのに十分な品質か検討している日本語ユーザーにとって、実用的な答えは、エンジン品質は十分であるということです。制限要因は、セットアップと習慣になりました。Freeプランを利用すれば、コミットメントなしでご自身の環境でワークフローを試すことができます。詳しくは、 FAQ 一般的な日本語のセットアップに関する疑問点、および プライバシーとオフラインモード ページでは、ローカル処理の体制について説明しています。
| プラン | 単語数 | 価格 (USD) |
|---|---|---|
| Free | 500単語/日、3,500単語/週 | $0 |
| Pro Monthly | 無制限 | $10/月 |
| Pro Annual | 無制限 | $80/年 ($6.67/月) |
請求はStripeを通じてUSDで行われます。お客様の銀行が現地レートでJPYに換算します。日本向けの追加料金はありません。日本語を含む96以上の言語パックがFreeインストーラーに含まれています。単語数は、英語よりも「単語」あたりの文字密度がはるかに高い日本語に対して、適切なヒューリスティックを用いて測定されます。
Freeプランは、個人的な日本語の執筆量(ビジネスメール、日記、ブログ記事、ソーシャルメディア)には十分に実用的です。Proを月額$10に設定することは、長文の日本語を毎日書くユーザー(小説家、翻訳家、ジャーナリスト、フルタイムのビジネスコレスポンデント、コンテンツクリエイター)にとって理にかなっています。年間プランは、月払いと比較して約3分の1の節約になります。完全な料金内訳は、 ホームページの料金セクションに記載されています。。 サブスクリプションなし ページでは、RecurringなコミットメントなしでFreeプランがどのように機能するかを説明しています。
StarWhisperはWindows 10およびWindows 11で動作します。Macやモバイルでは動作しません。インストーラーは約100 MBで、Whisperモデルファイルは初回使用時にダウンロードされます。CPUのみの動作は、合理的に最新のIntelまたはAMDマシンであればどのマシンでも機能します。NVIDIA GPUとCUDAを使用すると、より大きなモデルが大幅に高速化され、大量の日本語文字起こしに役立ちます。Vulkanは、AMDおよびIntelのディスクリートGPU向けにクロスベンダーのGPUパスを提供します。
日本語ディクテーションの場合、日本語は英語よりも追加のパラメータから恩恵を受けるため、小モデルよりも中規模または大規模のWhisperモデルを推奨します。お使いのマシンが実行できる場合は、大規模モデルが最も高精度なオプションです。
マイクの品質は、思っている以上に重要です。特に声が小さい方や背景ノイズがある部屋の場合、ラップトップ内蔵マイクよりも、USBヘッドセットや指向性デスクマイクの方が、日本語の文字起こしが目に見えてクリーンになります。5,000円のUSBマイクへの投資は、修正時間の短縮という形ですぐに元が取れます。GPUに関する詳細については、 GPUアクセラレーション機能ページをご覧ください。.
日本語ディクテーションと相性の良いその他のStarWhisperのページ