音声からテキストへ、AIと人間/トランスクリプト技術者

トランスクリプト技術者

音声をテキストに書き写すことを「トランスクリプト」と呼びます。そういう仕事をする人のことを、「トランスクリプト技術者」と呼ぶことがあります。あみきんは、トランスクリプト技術者です。会議や講演会、インタビューなどの録音した音声データをテキストにします。昔はテープ起こしとも言いましたが、すでにテープなどというものは使われていませんね。 

米国では、トランスクリプト技術者は、音声認識や自然言語処理などの技術を活用して、音声をテキストに書き写すことを主な仕事としているようです。日本ではまだまだ、手打ちでテープ起こしを行っている人は多いと思います。 

このような仕事は、映画やテレビ番組、ラジオ番組、出版、特集記事、セミナーや講演会、シンポジウム、会議での会話やプレゼンテーション、そしてWeb制作、YouTube制作など、様々な場面で求められることがあります。 

トランスクリプト技術者の役割

また、トランスクリプト技術者は、音声の文法や人による違がある発音の特徴を理解して、適切な文章を書き写すことが求められます。さらに、収録された音声について、わかりにくい部分や聞き取りにくい部分を補正することもあります。 

AIも人間も同じですが、業界でしか使われない言葉や専門用語など、分野によっては難しい言葉や外来語もあり、特定の言葉を正確に書き写すことができるとは限りません。また、AIは音声認識の精度は上がりましたが、専門用語や固有名詞など、学習していない言葉は理解できません。 

トランスクリプト技術者は、最終原稿の時点で専門用語や固有名詞を正確に書き写すことができるように、音声認識の結果を精査し、必要に応じて補正する必要があります。 

また、トランスクリプト技術者は、音声認識の結果を基に概要を作成したり、数字やURLデータ、本の正式タイトルなど、話し手が話した内容が明らかに間違っていることに気づいたら、確認する必要もあるでしょう。例えば、「あれ(会場のどこかにあるもの)」といったものが何かを具体的に示す必要がある場合もあります。 


そのためには、音声の文法や発音の特徴を理解するだけではなく、社会状況や話されている場の環境などにも留意して、適切な文章を作成することが求められます。
 

トランスクリプト技術者は、音声を聞いて内容を理解することができるだけでなく、それを文章に書き写すこともできるようになっていることが多いです。そのため、トランスクリプト技術者は、音声を正確に理解し、それを文章に書き写すことができることが求められます。 

音声認識AIを使ったトランスクリプトの進化

音声認識を使ったトランスクリプトでは、聞いたままを文字にしてしまう場合も多いのですが、AIが「あー」や「えっと」など、いわゆる「ケバ」と言われているものを除外して、文字にすることができるモデルもあります。これは、音声認識のモデルに、「あー」や「えっと」などのような言葉を含めないように設定することで実現されることがあります。 

また、音声認識のモデルには、言葉を文章に組み込むことができるように、文章を解析する能力があります。そのため、音声認識のモデルは、「あー」や「えっと」などのような言葉を文章から除外することができるようになっていることがあります。 

さらに、音声認識のモデルは、文章を構成する単語や文法のパターンを学習しています。そのため、音声認識のモデルは、「あー」や「えっと」などのような言葉が文章に含まれている場合には、それらを文章から除外することができるものもあります。 

また、音声認識のモデルは、文章を構成する単語や文法のパターンを学習しています。そのため、音声認識のモデルは、文章を解析することができるようになっています。そのため、一定の感情分析などもできるようになりました。ただし、音声から文字認識するのと比較すれば、感情認識というのは録音技術や声の質、録音環境などもかかわるため、難しい課題がまだまだ残っているそうです。人間がテープ起こしをするときも同じで、雑音が多い環境で録音されたものを文字化するのはとても認識が難しく、何度も聞きなおさなければいけないこともあるので、時間がかかります。

テープ起こしのStream編集室/名古屋