AIによる自動文字起こし 精度を上げる方法
昨今の人工知能の発達はめざましく、かつては人の手でポチポチ入力していたものが音声入力が可能になり、さらにはAIが音声ファイルから文字起こしを自動でしてくれる時代になりました。
ただ、これには少しコツがあります。人間が少し録音環境に注意するだけで、AIによる文字起こしはもっともっと精度を高めることができます。
日ごろテープ起こしのお仕事をするなかで、録音環境や録音中のコミュニケーションの取り方に関する事例やちょっとした提案を書いてみたいと思います。
AI文字起こしの失敗例
例えば、AIの文字起こしの精度が不十分な場合、通常、文字起こしを修正していくのは手入力するよりも時間がかかることもあります。AIが生成した文字起こしを変更する場合、最初から全部を打ち直した方が早くて正確な場合もあるのです。
また、書き直すよりも、個人的に音声を聞いて文章をリライトしていくほうが、思考も追いつきやすいので、タイプスピードが上がるものです。これは、ほとんどのライターや作家はご存じだと思います。
さらに、お話の時系列が飛び飛びになっている場合、そのまま書き写したとしても、読んだときには中身が全く理解できない文章になってしまう場合があります。
最善の方法は、スピーチの「誰が、いつ、どこで……」などに注意しながら、あらかじめ話の構成をまとめておくことです。
一般に、講演やセミナーでは、要約やガイドラインがあります。これは、本の目次のような1枚の紙で、レジュメとか次第と呼ばれています。前もって段取りがあると、会話や対話が途切れず話しやすくなり、聞き手の理解度も上がります。さらに内容一覧表も用意されると、詳細な情報を帰ってからも確認しなおすことができます。
話し方、アクセントについて
聴衆の理解度を高めるためには、一定のリズムで言葉を発することが重要です。また、文末に休符を入れることで、より正確な表現が可能になります。AIによる文字起こしにも句読点がきちんと入っていきます。
しかし、あまりにゆっくりとしたテンポで話すと、途切れ途切れの印象になり、AIは改行を入れてきたりします。AI文字起こしを利用するとあらかじめわかっているのでしたら、リズム感を持って話すことはとても大切です。
可能であれば、話者と一緒に、一般の人にはなじみのない方言や訛りについて、事前に確認しておくとよいでしょう。もし、「先生」と呼ばれる人がいる場合、コーディネーターはそのような要望を出しにくいかもしれませんが、スピーチをより良いものにすることに前向きな人であれば、そうするようにお勧めしましょう。
このように、自分のスピーチのスタイルを意識することは大変な努力が必要ですが、コミュニケーションを成功させるためには努力する価値があります。
AIの精度にもよりますが、指向性マイクの半径10~20cmの範囲での録音精度が高ければ高いほど、AI文字起こしは良い結果が得られます。
人間の耳が録音を聞き取れても、マイクが遠ければ文字起こしの精度は弱まります。人間が思い込みで誤認してしまうことがあっても、AIは「音」を正確に聞き取っていきます。これを緩和するためには、AIにトレーニングをさせる必要があるかもしれません。
また、聞き手がストーリーに集中できるように、バックグラウンドで音楽が流れていないことが望ましいと思います。
話し手にプレゼン方法を指示することが目的ではありませんが、会議や研修会、プレゼン、講演会を最高のものにするためには、互いの協力が必要です。
話者に無理強いはできませんが、一緒に最高の出会いのチャンスを作っていきたいものですね。
録音データmp3を最速で文字起こしする方法
Windows365(有料サブスク)のWord for Web
※ 1 か月あたり 300 分まで無料で利用できます。
IBM Watson Speech to Text
※ 1 か月あたり 500 分まで無料で利用できます。
AIを使ったオープンソースと高性能のGPUを使い、mp3をテキストに変換する方法を、今、実験中です。(120分mp3データを起こすのに30分程度で完了)
プログラミングを理解する必要があり、まだまだ調整が必要ですが、これができると、文字起こしの効率化が格段に上がると思います。
音声ファイルの質について参考
- 良い音声ファイル
バックグラウンドノイズが少ない
マイクとの距離は10~20㎝
最小限のアクセント
会場の扉や窓を閉める
防音室やカーテン設置
── 結果:90-95%の精度 - 難しい音声ファイル
重いバックグラウンドノイズ
会場の窓や扉が開いている
話者がマイクから遠い
活舌が悪い、声が小さい
マイク周辺で資料をめくったり、ヒソヒソ話
── 結果:ほとんど使用不可※ 会話録音/インタビュー/会議/学習/音楽録音/在宅勤務などに適用
- 高性能マイク、ノイズキャンセリング機能付 MP3プレーヤー機能付(-70%)