ノジェス先生のXのノジェス水曜日の音声データ(mp3)について、Google AI Studioというツールを使った文字起こしに成功しました。専門用語についてはうまく文字起こしできていませんが、なかなかの出来栄えだと感じました。しかも、無料で利用できていますので、試す価値ありです。今回、実施した手順について、同志への贈り物としてブログ化させていただきました。
目次
Google AI Studioの右ペインで初期設定
Modelは「Gemini 1.5 Pro 002」へ変更
2024/10/06時点で一番いいモデルは上記です。日々進化しているため、最新モデルを選びましょう。
Temperatureを1から2へ変更
温度?の設定を初期値の1から2へ変更してみました。クラウド上のコンピューターについて、温度設定ってよくわかりませんね。おそらく、ハードウエアの熱耐性を上げるのだと思います。
「Edit safety settings」を一番ゆるいく設定
ハラスメントやヘイトなどのトピックだと判断されると、エラーとなり処理が途中で止まってしまうので、制限がなにもない状態に変更しました。
温度とセーフティの設定を変更することによって、文字起こし時のエラーが減りました。個人の感覚ですが・・・、だまされたと思ってやってみてください。
Google AI Studioに音声ファイルを読み込ませて、文字起こし実施
音声ファイルのMP3を読み込ませる
今回はみなさまにも見える形にするため、Googleドライブに音声データのMP3ファイルをアップロードしています。普通にやる分には+ボタンを押して、ドラックランドドロップなどでMP3ファイルをアップロードしてください。
プロンプトを入力する
私が使ったプロンプトを以下、文字で残しておきますので、コピペして使ってくださいね。
この音声データを読み込んでください。そして、その音声をすべて、文字起こしをしてください。タイムスタンプは不要です。「うん」とか「あー」とかは削除した状態で生成してください。
もっといいプロンプトに編集できたら、コメント欄にて教えてほしいです。
出力結果
Google AI Studioのコピーを保存して、みなさまが見れるよう「リンクを知っている全員」に編集者権限を付与してみました。これで見れるはずですので、リンク先へ飛んでみてくださいね。
リンク先で見れなかった場合を考えて、ここに画像を貼っておきますね。
どうですか? なかなかの精度だとおもいませんか?
専門用語や名前などがちょっと違和感ある程度で、文字起こしがされていますよね?
これを手で補正していけばいいと思いましたぁ。
出力結果のコピーは「 ⋮ 」→「Copy rendered」で実施
注意点:途中で処理が止まった場合は「続きをお願いします」と入力
30分くらいの音声データならば、止まらずに出力できる印象です。1時間とか5時間とかの長い音声データの場合、途中で止まってしまう可能性があります。そんなときは、「続きをお願いします」とか「Continue」とか入れてみましょう。後続そ出力してくれるはずですので・・・。
ではでは、みなさまGoogle AI Studioつかってみてね(^o^)