【ChatGPT】音声認識の歴史について聞いてみた

【ChatGPT】音声認識の歴史について聞いてみた

ChatGPTの情報は最新ではないので、さらに、このあとの進化があるとは思いますが、大手3社の「音声認識の歴史」をたどると、このような経過のようです。

  • 公開時期
  • 多言語対応(翻訳システム)
  • 他システムとの連携方法

などについて記載されています。
このあと、音声認識だけではなく、画像認識、文書検索、文書取り込み、音声合成、クエリー機能、感情分析、性格分析、アドバイス・コンシェルジュサービス、コンサル機能等々、どんどんサービスと連携されてこれが生かされていくこと。そして、多言語対応によって、人間のコミュニケーションがどう変わっていくのかが楽しみです。

私の興味としては、Watsonだけが名前がついていることです。その他は名前がついていない、この思想の違いは何を表しているのでしょうね? 

ちなみに、ChatGPTは具体的には、GPT(Generative Pre-trained Transformer)という自然言語生成モデルを使用したチャットボットなので、つまり「GPTを利用したチャットロボット」という意味を表すだけであり、「ChatGPT」というのは名前ではないそうです。

Microsoftの Speech to Textとは? 2010年開始

IBMのWatson  Speech to Textとは? 2011年開始

IBM Watson(ワトソン)自体は、2006年に登場しているようです。

Google Cloud Speech-to-Textとは? 2016年開始

Amazon Transcribeとは? 2017年開始

有名な音声認識ソフト2つ

上記のAIが登場する前から音声認識についてはいろいろと研究されていました。
その例が2つのソフトがあります。

ドラゴンスピーチ/Dragon NaturallySpeaking・Dragon Dictate

ドラゴンスピーチは 米ニュアンス・コミュニケーションズ が開発した音声認識ソフトで、国内では2005年にリリースされました。

ドラゴンシステムズ社は、1998年にNuance Communications社に吸収合併されました。その後、Nuance Communications社は、Dragon NaturallySpeakingDragon Dictateなどの製品を提供するようになりました。

 ※株式会社ジャストシステム販売の「ドラゴンスピーチ 11J」は販売・サポートともに既に終了しています。Windows 10に未対応サポートなし

AmiVoice

「AmiVoice SP2」は、2018年12月31日販売終了/サポート終了は2020年3月31日

 

AIの力を活用し、会議のリアルタイム文字起こしやライティングの効率化を実現
AIの力を活用し、会議のリアルタイム文字起こしやライティングの効率化を実現 会議の文字起こしや資料作成を、手作業で行うことに疲れていませんか?  AIの力を使ってリアルタイム文字起こしを効率化する方法があります。 iPhoneから...