REAPER向け音声認識プラグイン「ReaSpeech Lite」

AI使ってます？私はたまーにREAPERの小物スクリプトをChatGPTに作ってもらうくらいであとは全然…
このまま世の中に取り残されてしまうのは辛いので、今回はOpenAIの「Whisper」を使用した音声認識VST3/ARAプラグインの「ReaSpeech Lite」をご紹介しつつAIを使いこなしている気分に浸ってみたいと思います。

概要
インストール
1. プラグインのダウンロードとインストール
2. CUDA Toolkitをインストール
使い方
1分ちょっとのナレーション（走れメロス冒頭）
1. 処理時間
2. 認識精度
10分くらいバイノーラル録音音声
まとめ

概要

tadave様作、音声認識VST3/ARAプラグインです。

ReaSpeech Lite: Speech Recognition VST3/ARA plugin - Cockos Incorporated Forums

ReaSpeech Lite: Speech Recognition VST3/ARA plugin ReaScript, JSFX, REAPER Plug-in Extensions, Developer Forum

文字起こし用プラグインと言った方が分かりやすいでしょうか。
トラックやオーディオアイテムにプラグインを挿して「Process」ボタンを押すと音声をテキストに変換してくれます。
変換後はプラグイン内のテキスト部分をクリックするとその場所から再生します。その他にはREAPER上にマーカー、リージョン、テキストアイムを配置してくれる機能もあります。
インターフェースにReaImguiが使われていないので日本語も文字化けせずに表示してくれる親切設計。ありがてぇありがてぇ…😭

ところでこれこれLite版となっていますけど、Liteじゃない版はReaImguiが使われていて日本語だと文字化けしちゃうのと、Dockerという仮想環境？を走らせる必要があったので、DAWで文字起こしするためにこの環境を揃えるのはちょっと厳しいな…という感じでした。
Lite版はCUDA Toolkitのインストールがほぼ必須ではありますが、Dockerを走らせることに比べればはるかに手軽なので、今後の開発はLite版が中心になっていきそうな雰囲気はあります。

あとこれVSTプラグインなので試しにCuBASE14でも使ってみたところARAとして問題無く動作しました。ただしマーカーやリージョンにテキストを配置する機能はREAPER専用なので使えないです。

インストール

プラグインのダウンロードとインストール

Githubのreleasesページから環境に合ったプラグインをダウンロードしてください。
ただしWindowsのCPU版とCUDA版はプラグイン名が同じなのでどちらか一方しかインストールできません。（試していませんがLinux版も同様かもです）

Releases · TeamAudio/reaspeech-lite

Speech-to-text transcription VST3/ARA plugin. Contribute to TeamAudio/reaspeech-lite development by creating an account ...

CUDAとは

NVIDIA社が開発・提供している並列計算を行うプラットフォームだそうです。
CUDAを動作させるグラフィックボード内のコアがCUDAコアで、私が使っているRTX3060はCUDAコアが3584基搭載されています。
ざっくりCUDA版＝NVIDIAのグラボ用だと思って大丈夫かと。

CUDA Toolkitをインストール

CUDA版を使う方はCUDA Toolkitのインストールが必要です。CPU版やMacを使う方は不要です。

CUDA Toolkit 12.1 Downloads

Get the latest feature updates to NVIDIA's proprietary compute stack.

環境に合ったバージョンを選択してダウンロード、インストールしてください。
私の環境だと入れていなかったNVIDIA Appがインストールされましたがまぁそのくらいはいいかなと。インストール中に出てくるインストールオプションは「高速（推奨）」で進めました。

使い方

プラグインをインサート

FXブラウザからVST3「ReaSpeechLite (TechAudio)」を音声のあるトラックにインサート、またはオーディオアイテムにドラッグします。
あとは音声認識モデルと言語を選択してProcessボタンを押すだけです。

ちなみにCubaseの場合はオーディオイベント上で右クリック＞エクステンション＞ReaSpeechLite、という流れになります。

音声認識モデルに関して

最初の使用時にはモデルファイルが無いのでダウンロードが始まります。
モデルファイルは4種類選べて、それぞれファイルサイズが結構大きいのでご注意ください。

モデルファイルは以下の場所にダウンロードされます。

Win：C:\Users\ユーザー名\AppData\Local\Temp\models
Mac：/Users/ユーザー名/Library/Caches/ReaSpeechLite/models

各モデルの説明からしてTurboモデルが一押しに見えますね。実際TurboモデルはMediumよりも変換が早く、認識率も優秀で、ファイルサイズもLargeに比べて約半分なので非常に使い勝手が良いと感じました。
ただ、Windows版はTempフォルダだからなのか、再起動などで結構すぐにモデルファイルが消えてしまったのでちょっとショック。

マーカーなどに書き出す

変換後、「Create」ボタンからマーカー、リージョン、ノート（テキストアイテム）にテキストを書き出せます。

Notes（テキストアイテム）の文字を見やすくする

アイテムのモードを「アイテムに合わせて伸縮」にすると拡大した際に文字が大きく表示されるので多少ですが見やすくなります。
ただしReaSpeech Liteから書き出されるNotesは「画像を非表示」モードで統一される仕様なので、選択アイテムを「アイテムに合わせて伸縮」に変換するLuaスクリプトをChatGPTに作ってもらいました。私の環境では特に問題無く動いていますが、ちゃんとしたデバッグはしていないので使われる方は自己責任でお願いします🙇
できれば「ワードラップ」もオンにしたかったのですがスクリプトでの触り方が分かりませんでした😭

Set_EmptyItem_StretchToFit.lua

-- DAWのREAPERで、選択されたEmpty Itemを「Stretch Image/text」に変換するLuaスクリプトを作ってください。
-- モードの変更には「reaper.BR_SetMediaItemImageResource」というapiを使ってください。


-- スクリプト開始
reaper.Undo_BeginBlock()

-- 選択中のメディアアイテム数を取得
local num_items = reaper.CountSelectedMediaItems(0)

for i = 0, num_items - 1 do
  local item = reaper.GetSelectedMediaItem(0, i)

  -- "Empty Item"（中身がないアイテム）かどうかチェック
  local take = reaper.GetActiveTake(item)
  if not take or reaper.TakeIsMIDI(take) == false then
    reaper.BR_SetMediaItemImageResource(item, nil, 3)
  end
end

reaper.UpdateArrange()
reaper.Undo_EndBlock("Set selected Empty Items to Stretch Image/text", -1)

-- DAWのREAPERで、選択されたEmpty Itemを「Stretch Image/text」に変換するLuaスクリプトを作ってください。

-- モードの変更には「reaper.BR_SetMediaItemImageResource」というapiを使ってください。

-- スクリプト開始

reaper.Undo_BeginBlock()

-- 選択中のメディアアイテム数を取得

local num_items = reaper.CountSelectedMediaItems(0)

for i = 0, num_items - 1 do

local item = reaper.GetSelectedMediaItem(0, i)

-- "Empty Item"（中身がないアイテム）かどうかチェック

local take = reaper.GetActiveTake(item)

if not take or reaper.TakeIsMIDI(take) == false then

reaper.BR_SetMediaItemImageResource(item, nil, 3)

end

reaper.UpdateArrange()

reaper.Undo_EndBlock("Set selected Empty Items to Stretch Image/text", -1)

1分ちょっとのナレーション（走れメロス冒頭）

ちょっと短くて申し訳ないのですが、AI音声のVOICEPEAKで走れメロスの冒頭1分ちょいを作って、各種モデルでの変換時間などを計測してみました。AIの音声をAIで文字起こし…いいですね、AIに浸ってる感出てきました。
VOICEPEAKは商用可能6ナレーターセット内の「女性1」で、速度を少しだけ落とし、明らかに間違っている（と思われる）アクセントを手動で直した以外はほぼベタ打ちです。Synthesizer VもVOICEPEAKもホント凄いです…

処理時間

	Small	Medium	Large	Turbo
CPU（Intel 265K）	1分14秒	未計測	未計測	6分08秒
CUDA（RTX3060）	3.7秒	6.5秒	8.2秒	3.8秒
Mac Studio（M1 Max吊るし）	2.9秒	6.0秒	9.4秒	3.9秒

やはりと言いますか、CPUはAIの処理に向いていないのですっごい時間かかります。
実用的ではないと判断し、CPUのMediumとLargeモデルは省略しました。Windows環境の方はNVIDIAのグラボが必須と思っていただいて間違いないかと。処理中はCPUファンもうなりを上げていました。

CUDA版はCPU版と比べると本当にあっという間で十分実用的だと感じました。すげーなCUDAコア。人類は皆NVIDIAの株と革ジャンを買うべきである。

Mac Studioは長い音声も含めるとRTX3060には及ばなかったものの、予想よりはるかに早くてちょっとビビりました…2022年のMac Studioでこれですから現行のM3やM4のMacならもっと早いと思います。
それとMac版のREAPERはWin版のようにフォント周りの不満も全然無いですし、DAW用途でしたら断然Macがおすすめです。値段はちょっと高いですけども。

認識精度

モデルごとの誤認識部分にマーカーを引いてみました。

元の文章
Small
Medium
Large
Turbo

メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。

メロスには政治がわからぬ。
メロスは、村の牧人である。
笛を吹き、羊と遊んで暮して来た。
けれども邪悪に対しては、人一倍に敏感であった。
きょう未明メロスは村を出発し、野を越え山越え、十里はなれたこのシラクスの市にやって来た。
メロスには父も、母も無い。女房も無い。十六の、内気な妹と二人暮しだ。
この妹は、村の或る律気な一牧人を、近々、花婿として迎える事になっていた。
結婚式も間近かなのである。
メロスは、それゆえ、花嫁の衣裳やら祝宴の御馳走やらを買いに、はるばる市にやって来たのだ。
先ず、その品々を買い集め、それから都の大路をぶらぶら歩いた。

メロスは激怒した。
必ず、かのジャチ防御の王を除かなければならぬと決意した。

メロスには政治がわからぬ。
メロスは村の牧人である。
ふえを吹き、羊と遊んで暮らしてきた。
けれどもジャークに対しては、人一倍に敏感であった。
今日見め、メロスは村を出発し、脳声、山声、樹離離れたこのシラクスの死にやってきた。
メロスには父も母もない、寝坊もない。16のうちきな妹と二人暮らしだ。
この妹は村のある立木な一牧人を、近々、花向こうとして迎えることになっていた。
結婚式も間近なのである。
メロスは、それゆえ、花嫁の衣装やら宿園のごちそうやらを買いに、春々市にやってきたのだ。
まず、その品々を買い集め、それから宮古の王子をブラブラ歩いた。

メロスは激怒した。
必ず、かの邪地暴虐の王を除かなければならぬと決意した。

メロスには政治がわからぬ。
メロスは村の牧人である。
笛を吹き、羊と遊んで暮らしてきた。
けれども邪悪に対しては、人一倍に敏感であった。
今日未明メロスは村を出発し、農小へ山小へ、十里離れたこのシラクスの死にやってきた。
メロスには父も母もない、妞婆もない、十六のうちきな妹と二人暮らしだ。
この妹は村のある律儀な一牧人を、近々花むことして迎えることになっていた。
結婚式も間近なのである。
メロスは、それゆえ、花嫁の衣装やら祝宴のごちそうやらを買いに、春晴る死にやってきたのだ。
まず、そのしなじなを買い集め、それから都の王子をぶらぶら歩いた。

メロスは激怒した。
必ず、かの邪知暴虐の王を除かなければならぬと決意した。

メロスには政治がわからぬ。
メロスは村の牧人である。
笛を吹き、羊と遊んで暮らしてきた。
けれども邪悪に対しては、人一倍に敏感であった。
今日未明メロスは村を出発し、農小へ山小へ、十里離れたこのシラクスの市にやってきた。
メロスには父も母もない、女房もない、十六の内気な妹と二人暮らしだ。
この妹は村のある律儀な一牧人を、近々花婿として迎えることになっていた。
結婚式も間近なのである。
メロスはそれゆえ、花嫁の衣装やら祝縁のご馳走やらを買いに、はるばる市にやってきたのだ。
まず、その品々を買い集め、それから都の王子をぶらぶら歩いた。

メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。

メロスには政治がわからぬ。
メロスは村の牧人である。
笛を吹き、羊と遊んで暮らしてきた。
けれども邪悪に対しては、人一倍に敏感であった。
今日未明メロスは村を出発し、能越え山越え、十里離れたこのシラクスの死にやってきた。
メロスには父も母もない、女房もない、十六の内気な妹と二人暮らしだ。
この妹は村のある律儀な一牧人を近々、花婿として迎えることになっていた。
結婚式も間近なのである。
メロスは、それゆえ、花嫁の衣装やら祝縁のご馳走やらを買いに、はるばる死にやってきたのだ。
まず、その品々を買い集め、それから都の王子をぶらぶら歩いた。

Largeの精度が最も高かったですが、Turboでも十分かと思います。
「野を越え山越え」は誤認識というより音声の調整不足が原因っぽいかな。あと都の「大路」はアクセントも相まって仕方ない気はします。現代だとあまり使われない言葉ですし。
個人的には、精度はいらないのでざっくりとした目安が欲しい時はSmall、それ以外はTurboの二択でいいかなと。

10分くらいバイノーラル録音音声

さすがに1分ちょっとの音声の計測だけでは短すぎなので、バイノーラル録音された約9分30秒の音声でも試してみました。仕事で扱った音声なので内容は書けませんが全て女性による会話です。

	Small	Medium	Large	Turbo
CUDA（RTX3060）	11.5秒	26.1秒	56.5秒	20.7秒
Mac Studio（M1 Max吊るし）	14.1秒	36.4秒	1分23秒	30.8秒

CUDA、Macともに十分実用的な処理速度だと感じます。（CPU版は計測してないです）
バイノーラル録音のステレオデータでも認識率は全く問題無く、一般的な会話という事もあってかSmallモデルでも誤認識は非常に少なかったです。
全体的に見ると使い勝手がいいのはやはりTurboモデルかなと。

まとめ

考えてみるとDAWでの文字起こしって使いどころに悩みそうです。
セリフやナレーションの収録ですと、チェックの際には台本にタイムや小節番号（意外と便利）を書き込むエンジニアさんが多いので、DAW上にテキストがあってもそこまで便利にはならないかも…🤔
歌の収録は小節番号や「サビ4つ前から」みたいにセクションで指示される事がほとんどなので、もしオケの上に歌詞が出ていたとしてもそんなに見ないような気がします。

私のような収録データを編集するポジションですと…修正指示にタイムが書かれていない場合、文字起こしがあるとセリフを探しやすくなりそうです。他にはぱっと思い付かないのですが、きっと柔軟な方が活用方法を編み出してくれることでしょう。私は頭が固いのです。

それはさておき、AIを活用した機能追加は営業的にも強そうなので今後はどんどんDAWに搭載されていくのではないでしょうか。最近だとProToolsの「Speech To Text」がありましたね。あとACON DIGITALのAcousticaにもWhisperを使用した認識機能が載っていたと思います。
プロセッサに搭載されるNPUも凄い勢いで高性能化しそうですし、将来的にはレコーディング中にリアルタイムに近い早さで文字起こししてくれそうな予感。