Googleドキュメントを利用した音声のテキスト化の方法 | 【試行錯誤中】いろいろとやってみる

MP4の字幕ファイルを抽出するという記事を記載しましたが、字幕ファイルは必ずしも抽出できるわけではありません。
しかし、文字データとして出力したいという場合もあると思います。そんな時に利用したいのが、Googleドキュメントの音声入力機能です。

Googleドキュメントとは
音声入力の環境を整える
- VoiceMeeter Bananaのインストール
- VoiceMeeter Bananaの設定と動作確認
音声入力を実行する
音声入力の精度
最後に

Googleドキュメントとは

Googleドキュメントとは、Googleがオンライン上(一部オフラインでも利用可能)で提供している文書の記述に役立つアプリケーションです。

利用されたことのある方も多い、Microsoftの”Word”やAppleの”Pages”などと似たものをオンラインで利用できると考えるとよいでしょう。

今回利用する音声入力機能は、オンラインでの機能ですので利用される際はオンライン環境で行うようにしてください。

音声入力の環境を整える

音声入力という機能の特性上、マイクからの入力を前提として機能が作られています。
そのため、PCで再生している音声をマイク入力に繋げてやる必要があるのですが、ヘッドフォン出力端子とマイク入力端子をケーブルで繋げればよいというものではもちろんありません。

そこで、ここでは”VoiceMeeter Banana”というソフトを導入して、PC内音声を仮想的にマイク入力に入れるという方法を採用しています。

VoiceMeeter Bananaのインストール

インストール前に、現状のオーディオの設定を記録(既定のデバイスが何になっているか確認)しておくことをお勧めします。（インストール後から設定が変更されてしまいます）

設定の確認は、スタートメニューの[設定]→[システム]→[サウンド]へ進み、サウンドの項目の下の方に[サウンドコントロールパネル]へ進みます。

コントロールパネルのウィンドウにて、”既定のデバイス”にどのデバイスが設定されているかを[再生]タブ、[録音]タブともに確認しておきます。

既定のデバイスが確認できましたら、VoiceMeeter Bananaのページ内にあるダウンロードから、インストーラーをダウンロードします。

Zip PackageでもExe Fileでもどちらでも動作は変わりません。
上図のようにZip Packageをダウンロードした場合は、ダウンロードしたファイルを解凍して中に含まれるインストーラーを実行してください。(Exe Fileの場合はそのまま実行してください)

下のようなインストール画面が表示されますので、[Install]をクリックします。

インストールが完了すると再起動を促すメッセージが表示(全部英語で書かれています)されますので、PCの再起動を実行します。

再起動が完了しますと、スタートメニューにVoicemeeter Bananaが追加されていますので起動してください。

VoiceMeeter Bananaの設定と動作確認

この段階でサウンドコントロールパネル内の[再生]タブにある”既定”の出力先がVoicemeeter AUX Inputに変更され、PCから音が出なくなります。（正常なので焦らないでください。）

この状態で音を鳴らしてみると、サウンドコントロールパネルの右の方にある、緑色のバーが上がったり下がったりしているので、PCでなっている音が全てVoiceMeeter AUX Inputという仮想的なミキサーへ入力されていることが分かります。

このままでは音が鳴っているかどうか判別ができないため、利用しているスピーカーからも音が出るように設定を変更しておきます。

設定は非常に簡単で、VoiceMeeter Bananaを起動した画面右上の方にある、A1とかかれた部分をクリックし、リストに表示されるデバイスからもともと”既定のデバイス”として設定されていたデバイスを選択するだけです。

正しいデバイスを選択することができれば、PCからも再び音が出力されるようになります。

この設定でPCから音が出るのは、このVoiceMeeterアプリが起動している時だけですので、利用しない場合は、”既定のデバイス”を元のスピーカーなどに戻しておきましょう。

次にやることは、PCで再生されている音を仮想的にマイク入力に設定します。

再度”サウンドコントロールパネル”を開き、今度は[録音]タブを開きます。
するとここにもVoiceMeeterの項目が追加されています。

この中にある”VoiceMeeter Output”を右クリックし、”既定のデバイスとして設定”します。

※この時に間違って”既定の通信デバイスとして設定”を選ばないように注意してください。

以上でGoogleドキュメントの音声入力へPC音を入力する準備は完了です！

音声入力を実行する

ここからは実際に音声入力を実施する方法を記載していきます。

まずはGoogleドライブを立ち上げ、左上にある[新規]からGoogleドキュメントを選択します。

Googleドキュメントが起動したら、上部メニューにある[ツール]→[音声入力]を選択します。

すると「クリックして話します」と書かれたマイクのマークが表示されるので、マイクのマークをクリックします。

クリックするとマークの表示が赤地に白のマークに変化し、音声入力が始まります。

この時に注意したいのが、PCでの再生を実行後にマイクのマークをクリックする必要があること。その後もGoogleドキュメントのウィンドウから他のウィンドウへフォーカス移動すると録音が停止してしまうことです。
油断して他のことをしてしまうと録音が停止していた。。。なんてことも起きてしまうので、十分注意してください。

もし、再生音声の開始直後から音声が入っている場合は再生リストを活用するなどの工夫が必要です。

音声入力の精度

では、実際にどれくらいの精度で記録されるのでしょうか？

試しに、2020年7月22日夕方にradikoのFM石川で放送された天気予報の一部を再生してみた結果は次のようになりました。

“土曜日以降の予報ですね連休の後半土曜日25日曇り1時雨その後日曜26日から29日の水曜まで何も予報は富山県です富山県の今夜は東部西部とも曇りで所によって夜遅くなって雨が降るでしょう明日は富山も曇り時々雨の見込みです明後日スポーツの日は曇り一時雨でしょうね今夜の降水確率は20%深夜0時から朝にかけては40%明日は日中映して60%明日の夜は20%です”

ネットワークの状況があまり良くなかったのか、ところどころ途切れてしまっていますが、かなり精度が出ているように見えますね。
句読点がなかったり、改行がないため読みにくいということは当然ありますが、そのあたりを整えれば読めないことは無いといった感じですね。
あとは欠落している部分を何とか補完すればよさそうです。

次に試したのが上述と同じくradikoから、朝の8:10から放送されているHonda Smile Missionのタイトルコールから、今週のリサーチエリアの紹介までです。

“ホンダスマイルミッションコンプリート東京探偵事務所フラワーカンパニーエージェントたちがリサーチに取り組んでいてブログのテーマは美容室前をあなたに笑顔を届けますよおはようございます塚地武雅です今週のルーシーリサーチは山形県です”

さすがに読みづらいですし、無茶苦茶な部分もありますね。
これはおそらく、バックで流れているサウンドの影響や、日本語認識の設定なのに英語の発音表現が出てきているのが原因でしょうね。

最後にYouTubeにある宮沢賢治の雨ニモマケズの朗読版を再生してみた結果がこちらです。

“雨ニモマケズ宮沢賢治雨にも負けず風にも負けず雪にも夏の暑さにも負けぬ丈夫な体を持ち欲はなく決して怒らずいつも静かに笑っている一日に玄米四合と味噌と少しの野菜を食べあらゆることを自分を勘定に入れずによく見聞きし分かりそして忘れず野原ノ松ノ林の陰の小さな茅葺きの小屋にいて東に病気の子供あればいって看病してやり西に疲れた母あれば言ってその稲の束を負い”

完璧すぎる結果ですね。
こちらは聞いていても、雑音もほとんどなく、ゆったり、はっきりした口調でしたので、ここまでの結果が出たのだと思われます。

最後に

Googleドキュメントを利用した音声認識はかなりの精度が期待できそうだということが分かりましたが、やはり元データがどれほど状態の良い環境で録音されたものかによって大きく左右されるということが分かりますね。

あと気になるとすればイントネーションや方言、訛りがどの程度認識(許容)されるのかも気になりますが、今回はそこまで元データが準備できませんでしたので試せませんでした。

とはいえ上々の結果だったので、音声データのテキスト化に悩まれている方がいましたら、一度試されてみるのもいいと思います。

※音声入力の利用が完了した後は、”サウンドコントロールパネル”から”既定のデバイス”を元に戻すのを忘れないようにしましょう！
次に利用したときに、音が出なくて一瞬かなり焦ります。。(体験談)

＼最新情報をチェック／