テキストデータをリアルで自然な音声に変換する音声生成AIは、幅広い分野で活用されています。生成AIの中でも歴史が古く、これまで様々な試みがなされています。
音声生成AIはテキストを入力するだけで音声を生成できる技術のことです。その音声は人の声に似せているため、本当に人が文章を読み上げているように聞こえるのが特徴です。音声生成AIは音声合成技術の高度な形態で、録音編集方式と規則合成方式の2種類あります。規則合成方式のひとつにコーパスベースによる音声合成技術がありますが、この技術はAIの発展とともに進化してきました。スマートフォンのAIアシスタントやコンタクトセンターの自動音声にも使われています。
現時点ではまだ不自然な点も多いのですが、技術進化も加速しているため、自然な対話ができる時代もすぐにやってくるでしょう。
音声生成AIの歴史は古く、初期のコンピュータが単純な音声信号を再現したところまで遡ります。その後の研究開発により、現在では人間の声を忠実に再現、場合によってはそれを超えるレベルにまで到達しています。
音声認識の研究は1950年代、声道の特性を数値化するところからはじまりました。最初の音声認識システムである「Audrey」はアメリカのベル研究所によって開発され、その10年後にはIBMが0から9までの数字と少数の単語を認識できる音声認識計算機「Shoebox」を発表しました。どちらもその当時は画期的な開発で、世間から大きな注目を集めたそうです。
1990年代には私たちの生活に密着した製品に音声認識技術が搭載されるようになりました。覚えている人も多いかもしれませんが、SANYOの音声認識機能付きカーナビゲーションシステムや、任天堂の音声認識を特徴とするゲーム「ピカチュウげんきでちゅう」などがそうです。
2000年代になると音声認識技術はさらに進化し、Appleの「Siri」やNTTドコモの「しゃべってコンシェル」など、音声認識を使ったサービスもどんどん登場してきました。
音声生成AIの技術が進化した背景にはAIの進化をはじめ、インターネットの普及により多種多様な音声データが容易に入手できるようになったこと、コンピューティングパワーが増大したことなどが挙げられます。
音声生成AIは日常生活において多くのメリットをもたらしてくれます。例えば、情報の検索や共有、学習支援などです。専門書や学術文献は一般書籍とは異なり、難しい文章で書かれていることが多いため、一読しただけでは理解できません。しかし、音声生成AIを使えば耳で聞き取りながらメモを取れるので、ただ読むよりも理解度が高まります。それに、視覚障がい者や近視など視力に制限がある人も勉強しやすくなります。