OffReco

公開日:

Kotoba Whisper v2.0 vs Whisper large-v3|日本語の精度と速度を比較

日本語の会議を文字起こしするなら、結論はシンプルです。日本語中心なら Kotoba Whisper v2.0(軽くて速く、日本語で高精度)、多言語が必要なら Whisper large-v3(汎用で最高精度クラス・そのぶん重い)。どちらも OffReco(オフレコ)なら完全ローカルで選べます。この記事では、両者の違いと「精度・速度・必要メモリ」の比べ方を、出典つきで整理します。

そもそも何が違うのか

ざっくり言うと、汎用の多言語モデル日本語特化の軽量モデルの違いです。

  • Whisper large-v3: OpenAI の Whisper シリーズの最上位。多言語を1つのモデルでまかなう汎用モデルで、精度は高い一方、パラメータ数が大きく処理は重めです。
  • Kotoba Whisper v2.0: その large-v3 を**教師にして蒸留(distillation)**した日本語特化モデルです。HuggingFace のモデルカードによると、エンコーダは large-v3 をそのまま使い、デコーダを2層に軽量化したうえで日本語データで学習し直した、とされています(出典: HuggingFace モデルカード)。

つまり Kotoba v2.0 は「large-v3 の日本語力を引き継ぎつつ、軽く速くした」立ち位置です。

精度・速度・メモリの比較

数値はすべて HuggingFace のモデルカードに基づくものだけを挙げます。

観点Kotoba Whisper v2.0Whisper large-v3
種類日本語特化(large-v3 から蒸留)多言語の汎用モデル
日本語の誤り率large-v3 と同等以上とされる(例: CommonVoice 8 日本語で CER 9.2)多言語で高精度な汎用モデル
速度large-v3 と比べ約 6.3倍高速とされる大きめで処理は重め
推論ライブラリfaster-whisper 向けの重みも提供一般的な Whisper 実装で動作

ポイントは、モデルカードによると Kotoba v2.0 は日本語で large-v3 と同等以上の誤り率(CER)でありながら、約 6.3倍高速とされている点です(例として CommonVoice 8 日本語で CER 9.2)。さらに高速推論ライブラリ faster-whisper 向けの重みも提供されています。large-v3 はサイズが大きいぶん処理が重く、必要なメモリも増えやすい――という定性的な傾向も、こうした軽量化の背景にあります。

なお、ここに挙げた以外の数値はあえて足していません。実際の精度・速度は録音環境や端末によって変わるため、最終的には自分の会議で確かめるのが確実です。

どちらを選ぶ?

選び方は用途で分かれます。

  • 日本語が中心の会議: まず Kotoba Whisper v2.0 が有力です。日本語で高精度なうえ軽く速く、特別なGPUがなくても多くのMacで現実的な速度で動きやすい。
  • 多言語が必要(英語や他言語が混ざる): Whisper large-v3 が向きます。1つのモデルで幅広い言語をまかなえます。
  • スペックに余裕がない / とにかく速く回したい: 軽量な Kotoba v2.0 が無難です。faster-whisper 向けの重みもあり、実用的なスピードを出しやすい。

迷ったら、日本語の議事録づくりなら Kotoba v2.0 から試し、多言語の必要が出たら large-v3 に切り替える、という順番が扱いやすいです。

OffRecoでの使い分け

OffReco は、この両モデルを完全ローカルで選んで使えるのが特徴です。

  • どちらもローカルで動く: Apple Silicon は GPU(mlx)、Intel は CPU(faster-whisper)で推論します。セットアップ画面でモデルを切り替えられます(モデルの選び方)。
  • 音声・本文を外部に送らない: 録音から文字起こし・話者分離まで端末内で完結し、音声・文字起こし本文を外部に送りません。機内モードでも文字起こしが動きます(初回のモデル取得時だけ通信が必要です)。
  • 全自動 × 低い入口: 会議を自動検知して終了で自動文字起こし。初月無料、その後は月¥200 / 年¥2,000、macOS 14.2以降で動作します。

日本語中心なら軽くて速い Kotoba v2.0、多言語が要るなら large-v3。どちらもクラウドに上げずに使えるので、まずはダウンロードして自分の会議で比べてみてください。関連して、日本語に強い文字起こしアプリの選び方(Kotoba Whisperとは)や、Whisperをローカルで動かす(設定不要の選択肢)も参考になります。