Google AI Studioで音声からの文字起こしに成功 – 裏表悟(うらおもてさとる)@認識技術で悟った統合失調症の男

ノジェス先生のＸのノジェス水曜日の音声データ(mp3)について、Google AI Studioというツールを使った文字起こしに成功しました。専門用語についてはうまく文字起こしできていませんが、なかなかの出来栄えだと感じました。しかも、無料で利用できていますので、試す価値ありです。今回、実施した手順について、同志への贈り物としてブログ化させていただきました。

1 Google AI Studioの右ペインで初期設定
2 Google AI Studioに音声ファイルを読み込ませて、文字起こし実施
- 2.1 音声ファイルのMP3を読み込ませる
- 2.2 プロンプトを入力する
3 出力結果
- 3.1 出力結果のコピーは「 ⋮ 」→「Copy rendered」で実施
4 注意点：途中で処理が止まった場合は「続きをお願いします」と入力

Google AI Studioの右ペインで初期設定

Modelは「Gemini 1.5 Pro 002」へ変更

2024/10/06時点で一番いいモデルは上記です。日々進化しているため、最新モデルを選びましょう。

Temperatureを1から2へ変更

温度？の設定を初期値の1から2へ変更してみました。クラウド上のコンピューターについて、温度設定ってよくわかりませんね。おそらく、ハードウエアの熱耐性を上げるのだと思います。

「Edit safety settings」を一番ゆるいく設定

ハラスメントやヘイトなどのトピックだと判断されると、エラーとなり処理が途中で止まってしまうので、制限がなにもない状態に変更しました。

温度とセーフティの設定を変更することによって、文字起こし時のエラーが減りました。個人の感覚ですが・・・、だまされたと思ってやってみてください。

Google AI Studioに音声ファイルを読み込ませて、文字起こし実施

音声ファイルのMP3を読み込ませる

今回はみなさまにも見える形にするため、Googleドライブに音声データのMP3ファイルをアップロードしています。普通にやる分には＋ボタンを押して、ドラックランドドロップなどでMP3ファイルをアップロードしてください。

プロンプトを入力する

私が使ったプロンプトを以下、文字で残しておきますので、コピペして使ってくださいね。

この音声データを読み込んでください。そして、その音声をすべて、文字起こしをしてください。タイムスタンプは不要です。「うん」とか「あー」とかは削除した状態で生成してください。

もっといいプロンプトに編集できたら、コメント欄にて教えてほしいです。

出力結果

Google AI Studioのコピーを保存して、みなさまが見れるよう「リンクを知っている全員」に編集者権限を付与してみました。これで見れるはずですので、リンク先へ飛んでみてくださいね。

https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%2210ui4q-YlL2dx2LBTeYnXil7Z7EG6XqZD%22%5D,%22action%22:%22open%22,%22userId%22:%22101817371319161113896%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing, https://drive.google.com/file/d/1J-dwtBwJDjiScGfvltl7qwg7OO_7_qqw/view?usp=sharing

リンク先で見れなかった場合を考えて、ここに画像を貼っておきますね。

どうですか？　なかなかの精度だとおもいませんか？

専門用語や名前などがちょっと違和感ある程度で、文字起こしがされていますよね？

これを手で補正していけばいいと思いましたぁ。

出力結果のコピーは「 ⋮ 」→「Copy rendered」で実施

注意点：途中で処理が止まった場合は「続きをお願いします」と入力

30分くらいの音声データならば、止まらずに出力できる印象です。１時間とか５時間とかの長い音声データの場合、途中で止まってしまう可能性があります。そんなときは、「続きをお願いします」とか「Continue」とか入れてみましょう。後続そ出力してくれるはずですので・・・。

ではでは、みなさまGoogle AI Studioつかってみてね(^o^)