日本語の会議を文字起こしするなら、結論はシンプルです。日本語中心なら Kotoba Whisper v2.0(軽くて速く、日本語で高精度)、多言語が必要なら Whisper large-v3(汎用で最高精度クラス・そのぶん重い)。どちらも OffReco(オフレコ)なら完全ローカルで選べます。この記事では、両者の違いと「精度・速度・必要メモリ」の比べ方を、出典つきで整理します。
そもそも何が違うのか
ざっくり言うと、汎用の多言語モデルと日本語特化の軽量モデルの違いです。
- Whisper large-v3: OpenAI の Whisper シリーズの最上位。多言語を1つのモデルでまかなう汎用モデルで、精度は高い一方、パラメータ数が大きく処理は重めです。
- Kotoba Whisper v2.0: その large-v3 を**教師にして蒸留(distillation)**した日本語特化モデルです。HuggingFace のモデルカードによると、エンコーダは large-v3 をそのまま使い、デコーダを2層に軽量化したうえで日本語データで学習し直した、とされています(出典: HuggingFace モデルカード)。
つまり Kotoba v2.0 は「large-v3 の日本語力を引き継ぎつつ、軽く速くした」立ち位置です。
精度・速度・メモリの比較
数値はすべて HuggingFace のモデルカードに基づくものだけを挙げます。
| 観点 | Kotoba Whisper v2.0 | Whisper large-v3 |
|---|---|---|
| 種類 | 日本語特化(large-v3 から蒸留) | 多言語の汎用モデル |
| 日本語の誤り率 | large-v3 と同等以上とされる(例: CommonVoice 8 日本語で CER 9.2) | 多言語で高精度な汎用モデル |
| 速度 | large-v3 と比べ約 6.3倍高速とされる | 大きめで処理は重め |
| 推論ライブラリ | faster-whisper 向けの重みも提供 | 一般的な Whisper 実装で動作 |
ポイントは、モデルカードによると Kotoba v2.0 は日本語で large-v3 と同等以上の誤り率(CER)でありながら、約 6.3倍高速とされている点です(例として CommonVoice 8 日本語で CER 9.2)。さらに高速推論ライブラリ faster-whisper 向けの重みも提供されています。large-v3 はサイズが大きいぶん処理が重く、必要なメモリも増えやすい――という定性的な傾向も、こうした軽量化の背景にあります。
なお、ここに挙げた以外の数値はあえて足していません。実際の精度・速度は録音環境や端末によって変わるため、最終的には自分の会議で確かめるのが確実です。
どちらを選ぶ?
選び方は用途で分かれます。
- 日本語が中心の会議: まず Kotoba Whisper v2.0 が有力です。日本語で高精度なうえ軽く速く、特別なGPUがなくても多くのMacで現実的な速度で動きやすい。
- 多言語が必要(英語や他言語が混ざる): Whisper large-v3 が向きます。1つのモデルで幅広い言語をまかなえます。
- スペックに余裕がない / とにかく速く回したい: 軽量な Kotoba v2.0 が無難です。faster-whisper 向けの重みもあり、実用的なスピードを出しやすい。
迷ったら、日本語の議事録づくりなら Kotoba v2.0 から試し、多言語の必要が出たら large-v3 に切り替える、という順番が扱いやすいです。
OffRecoでの使い分け
OffReco は、この両モデルを完全ローカルで選んで使えるのが特徴です。
- どちらもローカルで動く: Apple Silicon は GPU(mlx)、Intel は CPU(faster-whisper)で推論します。セットアップ画面でモデルを切り替えられます(モデルの選び方)。
- 音声・本文を外部に送らない: 録音から文字起こし・話者分離まで端末内で完結し、音声・文字起こし本文を外部に送りません。機内モードでも文字起こしが動きます(初回のモデル取得時だけ通信が必要です)。
- 全自動 × 低い入口: 会議を自動検知して終了で自動文字起こし。初月無料、その後は月¥200 / 年¥2,000、macOS 14.2以降で動作します。
日本語中心なら軽くて速い Kotoba v2.0、多言語が要るなら large-v3。どちらもクラウドに上げずに使えるので、まずはダウンロードして自分の会議で比べてみてください。関連して、日本語に強い文字起こしアプリの選び方(Kotoba Whisperとは)や、Whisperをローカルで動かす(設定不要の選択肢)も参考になります。