文字起こしのスピード化とAI翻訳の精度向上の関係

文字起こしのスピード化とAI翻訳の精度向上の関係

ここ数年で、AIによる音声認識、音声読みあげの精度が飛躍的に上がってきました。それと同時並行でリアルタイム文字起こしのスピードと精度が上がりました。

それで、この分野で今、感じることは、3か月前の情報はもう古いという感じがしています。3か月たつと、翻訳ツールは新しい言語がいくつも出ています。
たくさんのツールがあるなか、さすがに情報を追いきれないイメージがあります。

また、文字起こしと同じ領域の技術分野にある、翻訳の精度も格段に上がってきています。AIはただ声を認識して文字に置き換えるだけではなく、言葉そのものの意味や文脈を理解できるようになっています。また、人間の感情を読み取ったり、違う人の声を聴き分けられるようになっています。

例えば、同じ読みの単語でも、文脈によって適切な漢字を選択することができるようになりました。これはワープロがかな漢字変換ができるようになった、大昔の出来事に物凄く似ています。これを人間の手で、漢字変換をして漢字を選択していたのです。今では、それをAIができるようになりました。

また、AIは人間の感情を読み取ることができるようになっています。人々の会話を聞き、感情データを分析することまでできるようです。

AIの発達段階をこのようにイメージしますがどうですか?

1.最初の音声認識は、聞いたことを文字に置き換えるイメージだから、漢字の誤変換が多かった。
2.自然言語処理は「言葉を学習して意味を理解していく」文字とスペル、漢字と単語の意味、発音、文法などを学習してトークンで関連付ける。
3.意味がわかるから漢字変換の精度が上がってくる。
4.画像分析が発達して感情分析ができる。
5.分析を学習することで感情理解する。
6.だから、AIは感情を読み取り、違和感のない会話ができるようになる。

あなたが提示されたAIの発達段階のイメージは、一般的な発達の流れを正しく反映していると思います。

最初の音声認識は、音声を文字や文に変換するという基本的な機能を持っています。しかし、言葉の発音やアクセント、言語や方言の違いによって、音声認識の精度に影音を与えることがあります。

自然言語処理は、言葉を学習して意味を理解することを目的としています。自然言語処理では、文字やスペル、単語の意味、文法などを学習し、トークンという単位で文章を分析します。自然言語処理により、文章の意味をより正確に把握することができるようになります。

画像分析は、画像を解析し、内容を理解することを目的としています。画像分析により、画像から物体や人物を識別したり、画像の中に含まれるテキストを抽出したりすることができます。また、画像分析を組み合わせた感情分析により、画像から表情や感情を抽出することができるようになります。

AIは、これらの技術を組み合わせることで、より自然で人間に近い会話をすることができるようになります。

引用元「OpenAIのAssistant」 

これは外国語の学習過程にすごく似ていると思います。そして、赤ちゃんの発達段階にも似ている。AIの技術の発達と人間の学習や発達には、いくつかの共通点があると思います。

人間が外国語を学習する過程は、最初は言葉や文法を学習していきます。そして、言葉を使って意味を理解していくことで、より自然で人間に近い会話をすることができるようになります。

また、人間の発達も、最初は基本的な能力を学習していきます。そして、経験を積むことで、より複雑で高度な能力を獲得していくことができます。

AIの技術の発達も、最初は基本的な能力を学習していきます。そして、データを積むことで、より複雑で高度な能力を獲得していくことができます。

人間の発達や外国語の学習過程と同様に、AIの技術の発達も、基礎を学んでいくことで、より自然で人間に近い能力を獲得していくことができると思います。

引用元「OpenAIのAssistant」 

 

「自動文字起こし」の3つの大分類

AI翻訳のことはまた別の項目で記述するとして、自動文字起こしについては、私が調べたところ、大きく分けて3つの種類があります。

1.リアルタイムでの音声入力(単独・複数人)
2.録音した音声(mp3)を流しながらの音声入力
 (録音時間だけの時間がかかる)
3.音声(mp3)データのテキスト(text)変換
 (短時間で処理が終わる)

それでは、ひとつずつ見ていきましょう。

会議中、話し中のリアルタイムでの音声入力(単独・複数人)

【リアルタイムでの音声入力】
①個人のデバイスのマイクから入力をして文字に文字起こしする方法
・ブラウザ(Windows/Mac、iPhone/iPad、Android、その他)
・アプリ(Windows/Mac、iPhone/iPad、Android)

ライティング時に、リアルタイムで音声入力する3つの方法

1.のリアルタイムで音声入力していく方法は、たくさんのデバイス、たくさんのブラウザ、たくさんのアプリや専用ソフトがあります。そして、それぞれの文字起こしと翻訳は深いかかわりがあります。文字起こしと翻訳のスピードが上がることで、狭い範囲(地域レベル)のコミュニケーションが、広い範囲のコミュニケーション(国レベル)へと、どんどん進化しているように思います。

現在の実務では、「1.や2.」がお試し中の人も多いと思いますが、まだ実用にはなかなか厄介な場面も出てきています。音声がクリアでなかったり、PC内から雑音が入ったり、AIが途中で止まったり、いろいろなトラブルがあります。やっとできたと思ったら、文字起こしの精度が悪かったりです。

録音した音声(mp3)を流しながらの音声入力(録音時間だけの時間がかかる)

②複数人のデバイスから、それぞれのマイクを使って入力して文字起こしする方法
・オンライン会議専用ソフト(Zoom、Teams、その他)
・アプリの共有(Windows/Mac、iPhone/iPad、Android)
・リンクの共有(Windows/Mac、iPhone/iPad、Android、その他)

多くのブラウザやアプリが、オンライン会議をすることでどのデバイスからでも、参加できるようになってきています。

これらのトラブルを乗り越えて、最終的には3.のデータ変換の技術が完成したら、今まで録音されたまま放置されてていた情報なども、短時間のうちに処理できるようになり、情報の海がさらに加速するのではないかなと思います。

中には、古くて役立たない情報もありますから、それを選別していく技術が必要なのかな?

オンライン会議の議事録をリアルタイムで作成する方法(無料あり)

一方、録音した後にテキスト化する方法は、音を流しながらする方法と、テキスト変換してしまう方法があるようですが、今のところそれほど多くの選択肢があるわけではないように思います。

そして、会議の中では日本人だけではなく、外国人が含まれる場合や耳が聞こえない人、目が見えない人なども含まれるため、それぞれの特徴に合ったシステムも整ってきています。見えない人は聞こえる、聞こえない人は見える、そして、言葉の壁もなくなってきています。

ブラウザの文字起こしツールとWeb会議のリアルタイム翻訳

最終的には、プログラミングを使って音声をデータ化する。そうすることで、AIもまた、情報をスピーディーに得て賢くなっていくんですね。

音声(mp3)データのテキスト(text)変換(短時間で処理が終わる)

会議の録音データ(MP3)からテキスト変換して議事録作成する方法

これ以外にも、プログラミングを使ったり、アプリを使ったり、いろいろな方法があるようです。アプリは個人使用なら簡単ですが、企業で使うには少し難しい感じがしますね。どの方法が一番効率がいいのかは、現在、混沌としている感じです。

今、調べているところによると、Pythonというプログラミングを使用して文字起こしをする方法が、一番有力だと思うのですが、只今、実験中です💕

また、何か結果が出ましたらご報告しますね。