ブラウザ内のWhisper AIで音声ファイルをローカルで文字起こし

AI音声文字起こしツールとは？

AI音声文字起こしツールは、OpenAIが開発したWhisperモデルをブラウザ内で直接実行し、音声ファイルをテキストに変換するツールです。WebGPU技術を活用することで、すべての処理がお使いのデバイス上でローカルに行われます。音声データがサーバーに送信されることは一切なく、機密性の高い会議の録音や個人的な音声メモも安心して文字起こしできます。英語・日本語・フランス語・ドイツ語を含む多数の言語に対応しており、言語の自動検出機能も備えています。

使い方

AIモデルを選択します。Whisper Large V3 Turboは速度と精度のバランスが良く、日本語にも対応しているため推奨です。
「AIモデルを読み込む」をクリックしてモデルをダウンロードします。初回のみ必要で、以降はブラウザにキャッシュされます。
音声の言語を選択します。「自動検出」を選ぶとWhisperが自動的に判別しますが、言語を指定するとより高い精度が得られます。
音声ファイルをドロップゾーンにドラッグ＆ドロップするか、クリックして選択します。MP3、WAV、M4A、OGG、WebM、FLACに対応しています。
必要に応じて「タイムスタンプ表示」をオンにし、「文字起こしする」をクリックします。処理が完了するとテキストが表示されます。

仕組み

本ツールはOpenAIのWhisperモデルをTransformers.jsライブラリ経由でブラウザ上に読み込みます。WebGPUはGPUに直接アクセスするための最新ブラウザAPIで、これにより大規模なAIモデルをネイティブアプリに近い速度で実行できます。音声ファイルは16kHzのモノラルPCMにデコードされた後、30秒ごとのチャンクに分割されてWhisperモデルに入力されます。モデルは音声パターンを解析し、対応するテキストを生成します。タイムスタンプモードでは各チャンクの開始・終了時間も出力されるため、議事録作成や字幕制作にも活用できます。

対応音声フォーマット

MP3、WAV、M4A（AAC）、OGG（Vorbis）、WebM、FLACの6種類に対応しています。ファイルサイズの上限は100 MBです。ステレオ音声は自動的にモノラルに変換され、サンプリングレートも16kHzにリサンプリングされます。録音品質が高いほど文字起こし精度が向上するため、可能な限りノイズの少ないクリアな音声ファイルをお使いください。

よくある質問

音声データはサーバーに送信されますか？

いいえ、一切送信されません。AIモデルはWebGPUを使ってブラウザ内で完全にローカル実行されます。音声ファイルのデータはデバイスから外部に出ることがないため、社外秘の会議録音や医療・法律関連の音声なども安心して処理できます。インターネット接続はモデルの初回ダウンロード時のみ必要です。

どの言語に対応していますか？

Whisperモデルは英語、日本語、フランス語、ドイツ語、スペイン語、中国語、韓国語、ポルトガル語、イタリア語、ロシア語など90以上の言語に対応しています。言語を手動で指定することも、自動検出に任せることもできます。手動指定のほうが認識精度が高くなる傾向があります。

ファイルサイズの上限は？

ファイルサイズの上限は100 MBです。長時間の音声ファイルも30秒ごとのチャンクに分割して順次処理されるため、数十分の録音でも文字起こし可能です。ただし、ファイルが大きいほど処理時間が長くなるため、GPUメモリが4 GB以上のデバイスでの使用を推奨します。処理が長い場合はWhisper Smallモデル（約250 MB）を選択すると、精度はやや低下しますが高速に処理できます。

AI音声文字起こし