【ChatGPT】音声認識の歴史について聞いてみた
ChatGPTの情報は最新ではないので、さらに、このあとの進化があるとは思いますが、大手3社の「音声認識の歴史」をたどると、このような経過のようです。
- 公開時期
- 多言語対応(翻訳システム)
- 他システムとの連携方法
などについて記載されています。
このあと、音声認識だけではなく、画像認識、文書検索、文書取り込み、音声合成、クエリー機能、感情分析、性格分析、アドバイス・コンシェルジュサービス、コンサル機能等々、どんどんサービスと連携されてこれが生かされていくこと。そして、多言語対応によって、人間のコミュニケーションがどう変わっていくのかが楽しみです。
私の興味としては、Watsonだけが名前がついていることです。その他は名前がついていない、この思想の違いは何を表しているのでしょうね?
ちなみに、ChatGPTは具体的には、GPT(Generative Pre-trained Transformer)という自然言語生成モデルを使用したチャットボットなので、つまり「GPTを利用したチャットロボット」という意味を表すだけであり、「ChatGPT」というのは名前ではないそうです。
Microsoftの Speech to Textとは? 2010年開始
IBMのWatson Speech to Textとは? 2011年開始
IBM Watson(ワトソン)自体は、2006年に登場しているようです。
Google Cloud Speech-to-Textとは? 2016年開始
Amazon Transcribeとは? 2017年開始
有名な音声認識ソフト2つ
上記のAIが登場する前から音声認識についてはいろいろと研究されていました。
その例が2つのソフトがあります。
ドラゴンスピーチ/Dragon NaturallySpeaking・Dragon Dictate
ドラゴンスピーチは 米ニュアンス・コミュニケーションズ が開発した音声認識ソフトで、国内では2005年にリリースされました。
ドラゴンシステムズ社は、1998年にNuance Communications社に吸収合併されました。その後、Nuance Communications社は、Dragon NaturallySpeakingやDragon Dictateなどの製品を提供するようになりました。
※株式会社ジャストシステム販売の「ドラゴンスピーチ 11J」は販売・サポートともに既に終了しています。Windows 10に未対応サポートなし
AmiVoice
※「AmiVoice SP2」は、2018年12月31日販売終了/サポート終了は2020年3月31日
