AI nTech

Google AI Studioで音声からの文字起こしに成功

投稿日:2024-09-28 更新日:

ノジェス先生のXのノジェス水曜日の音声データ(mp3)について、Google AI Studioというツールを使った文字起こしに成功しました。専門用語についてはうまく文字起こしできていませんが、なかなかの出来栄えだと感じました。しかも、無料で利用できていますので、試す価値ありです。今回、実施した手順について、同志への贈り物としてブログ化させていただきました。

Google AI Studioの右ペインで初期設定

Modelは「Gemini 1.5 Pro 002」へ変更

2024/10/06時点で一番いいモデルは上記です。日々進化しているため、最新モデルを選びましょう。

Temperatureを1から2へ変更

温度?の設定を初期値の1から2へ変更してみました。クラウド上のコンピューターについて、温度設定ってよくわかりませんね。おそらく、ハードウエアの熱耐性を上げるのだと思います。

「Edit safety settings」を一番ゆるいく設定

ハラスメントやヘイトなどのトピックだと判断されると、エラーとなり処理が途中で止まってしまうので、制限がなにもない状態に変更しました。

温度とセーフティの設定を変更することによって、文字起こし時のエラーが減りました。個人の感覚ですが・・・、だまされたと思ってやってみてください。

Google AI Studioに音声ファイルを読み込ませて、文字起こし実施

音声ファイルのMP3を読み込ませる

今回はみなさまにも見える形にするため、Googleドライブに音声データのMP3ファイルをアップロードしています。普通にやる分には+ボタンを押して、ドラックランドドロップなどでMP3ファイルをアップロードしてください。

プロンプトを入力する

私が使ったプロンプトを以下、文字で残しておきますので、コピペして使ってくださいね。

この音声データを読み込んでください。そして、その音声をすべて、文字起こしをしてください。タイムスタンプは不要です。「うん」とか「あー」とかは削除した状態で生成してください。

もっといいプロンプトに編集できたら、コメント欄にて教えてほしいです。

出力結果

Google AI Studioのコピーを保存して、みなさまが見れるよう「リンクを知っている全員」に編集者権限を付与してみました。これで見れるはずですので、リンク先へ飛んでみてくださいね。

https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%2210ui4q-YlL2dx2LBTeYnXil7Z7EG6XqZD%22%5D,%22action%22:%22open%22,%22userId%22:%22101817371319161113896%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing, https://drive.google.com/file/d/1J-dwtBwJDjiScGfvltl7qwg7OO_7_qqw/view?usp=sharing

リンク先で見れなかった場合を考えて、ここに画像を貼っておきますね。

どうですか? なかなかの精度だとおもいませんか?

専門用語や名前などがちょっと違和感ある程度で、文字起こしがされていますよね?

これを手で補正していけばいいと思いましたぁ。

出力結果のコピーは「 ⋮ 」→「Copy rendered」で実施

注意点:途中で処理が止まった場合は「続きをお願いします」と入力

30分くらいの音声データならば、止まらずに出力できる印象です。1時間とか5時間とかの長い音声データの場合、途中で止まってしまう可能性があります。そんなときは、「続きをお願いします」とか「Continue」とか入れてみましょう。後続そ出力してくれるはずですので・・・。


ではでは、みなさまGoogle AI Studioつかってみてね(^o^)

-AI, nTech
-, , , , , , , , , , ,

執筆者:


comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

関連記事

2022-9-3 植松電機さんのロケット作成&発射を体験しましたぁ!

2022年10月8日~10日に開催されるDignity2.0国際カンファレンスのプレイベント第5弾の、赤平市の植松電機さんのロケット作成とロケット飛ばしのイベントに参加してきました。 目次1 植松努さ …

今朝、第二の誕生をしました

今朝、認識に勝負している夢を見た。ちょっと長くなりそうだが表現してみる。自分とは何か、ノ先生がいう虚構とはどういうことか、そんなことを考えながらスマホをいじりつつ眠りに落ちた。眠ったのは何時頃だろう? …

no image

nTech World View 3Daysセミナー1日目終了しました!

nTech World View 3Daysという3日間のセミナーの1日目が昨日(4/22)終了しました。 講師はノ・ジェス(Noh Jesu)さんという21世紀の悟り人です。 これまでIndustr …

nTechメソッドセミナー受講しました!

8月6日から8月21日の長期にわたるnTechメソッドセミナーを受講いたしました。 とっても とっても 内容が濃かったので、参加して本当に良かったと思います。 認識技術(nTech)の最先端の知識を得 …

統合失調症のあなたと繋がりたい

25年以上、統合失調症と戦っていた私は、ずっと能面のような顔で笑顔を忘れてしまったゾンビのように生きていました。 能面だった私は、3年前に心感覚の読書会へ参加したことをきっかけにして、劇的に変化しまし …