音声認識技術は急速に進化しています。例えば、電話の自動応対や自動翻訳サービス、スマートフォンのアシスタント機能や家電と接続されたスマートホームデバイスなど、音声認識はすでに普段の生活に浸透しています。 本記事では急速な進化を続ける音声認識技術の仕組みや活用事例を幅広く紹介します。技術動向と活用イメージを得ることで、ビジネスの可能性にも新たな視点が広がると思われます。
音声認識とは
音声認識とは、人間が発した音声をコンピュータが音声解析し、テキスト化する技術のことを指します。
インターネット技術の発展とともに多くの音声データを収集できるようになり、これらのデータをもとに複雑なアルゴリズムや大規模なデータベースが構築されてきています。AIが音声認識技術を用いてテキスト化を行う際には、画像や音声などの膨大なデータから、一定の特徴やパターンを識別して取り出すパターン認識という技術が活用されます。
AIは特定の特徴を持ったデータを自ら学習していく能力があるため、人間が指示をする必要はありません。音声認識技術は継続した学習を重ね、その認識能力を日々向上させているのです。
音声認識の仕組み
まずは、音声認識がどのような仕組みで動作しているか解説します。
1.音声の取得
最初のステップは、マイクなどの入力機器を通して音声を取得することです。この音声データは波形としての音声情報になります。
2.特徴の抽出(音響分析)
取得した音声データから「音の高さ」や「持続時間」、「強度」などの特徴を抽出します。この特徴を抽出していく作業を音響分析と呼びます。
3.音響モデル
抽出した音声の特徴がどの音素に近いか、音響モデルと照らし合わせる作業が必要です。
音響モデルとは、音声データのパターンや構造をコンピュータに学習させたものを指します。
たとえば、日本語は母音、子音、撥音(はつおん)の3種類から成り立っており、それぞれ異なる特徴を持っています。予めコンピュータにそれぞれの音素の特徴を学習させた後音響モデリングを行う際は、入力された音声がどの音素の特徴に最も近いか判断していきます。
4.言語モデル
言語を音素レベルで解析されたものはまだ単語として認識されていません。そのため、解析された音素の並びを言語モデルで判断し、単語として意味のある音素の組み合わせとして分類していきます。
ここで用いられる言語モデルとは、ことばやフレーズがどのように一緒に使用されるかを出現確率によりモデル化したものを指します。
言語モデルは、「人間の自然な会話や文章に対して高い確率を割り当て、文章として成立していない単語の並びには低い確率を割り当てる」という作業を繰り返し、導き出された膨大な数式のデータにより作られています。
5.抽出
最終的に、人間が扱う自然な会話や文章として最も可能性が高いと判断された文字列をテキストとして出力します。
音声認識を活用するメリット
音声認識を活用することで多くのメリットを得られます。以下に主な点を紹介しています。
業務効率化
音声認識技術を活用して文字入力作業を効率化できます。タイピング時の入力ミス軽減や入力時間の短縮に期待ができ、複数タスクを同時に行うこともできるでしょう。AI音声認識技術を利用すれば、発言をリアルタイムで文字起こししてもらうことも可能です。
ハンズフリー操作
運転中や料理中など、手が使えない状態でも音声入力による対応機器の操作が可能です。視覚や運動機能に障害を持つ人に対しても、音声入力による機器の操作が可能なため、利便性が向上します。
顧客満足度向上
音声認識を活用することで、顧客の要望に対する応答速度、対応速度が向上します。サービスをスピーディに提供できるようになるため、顧客満足度の向上に繋げられるでしょう。
音声認識の活用事例8選
コールセンターでのお客様対応
音声認識を活用することでオペレーター支援が可能となり、よりスムーズで正確なお客様対応が可能となります。
コールセンター業務では、オペレーターがお客様と会話しながら必要な情報を手入力しています。タイピング入力に要する時間は人により異なることにくわえて、入力ミスが発生するリスクもあります。
音声入力を導入することで、話している内容をもとに音声認識システムが自動でテキストに変換してくれるため、オペレーターは会話自体に集中でき、ミスも減らすことができます。
医療現場でのカルテ作成
音声入力を活用したカルテ作成により、機械操作に慣れていない方でもスムーズに利用が可能となります。
電子カルテの導入は、新しい機器の操作の学習とセットなため、機器操作に慣れていない方が多いこともあります。音声入力による操作は覚えにくい操作を簡潔にできるため、年配の方でも手軽に利用可能です。
紹介状や報告書を作成する必要がある場合でも、音声入力で入力された内容はすべての書類に反映させられるため効率的です。
会議の議事録作成
音声認識技術を利用し、自動でテキスト化してもらえば議事録の作成に時間や人件費を使う必要がなくなります。
議事録を作成するための人員を配置したり、発言者が議事録の作成を兼任したりすると、その分多くの人件費がかかったり、議事録をとることがメインになって会議に集中できなかったりします。音声認識技術を活用すれば、AIに議事録作成を任せることができ、会議終了後に議事録を確認するだけで済みます。
そのため、会議参加者は会議に集中でき、人件費や工数も減らせるでしょう。
メディアにおける字幕作成
AIの音声認識を活用すると、リアルタイム字幕作成および表示が可能となります。番組の制作や映画の制作段階で字幕は作成されることが多いですが、実況中継などでは字幕を作成するのが難しいです。
その場でやや遅れて通訳を行う同時通訳のように、実況中継中に手入力でやや遅れた字幕を作成することは可能ですが、あまり現実的ではありません。しかし音声認識技術を利用し、AIに自動で文字起こしをしてもらうことで、ほぼタイムラグなしに字幕を表示できるようになりました。
しかし、まだ精度が万全とは言えないため、日々学習を繰り返しながら精度向上に努めています。
多言語対応型AIロボット導入
空港や駅などに多言語対応AIロボットなどを導入することで、問い合わせやオペレーター対応の効率化が図れます。外国語が話せる人員を探し対応する必要がなくなるため、費用を抑えるだけでなくスムーズな対応が可能です。
さらに、対話ログを記録、分析して更なるサービス向上へ繋げるための学習もできます。
音声アシスタント
私たちの生活は、多くの場面で音声アシスタントを活用して、さまざまな動作の実行をAIにサポートしてもらっています。
スマートフォンのSiriやGoogleアシスタントによる操作サポート、Amazon EchoやGoogle Homeなどのホームデバイスの制御や天気予報の確認など、音声アシスタントは私たちの生活においてさまざまなサポートを可能としています。
講義内容のテキスト化
音声認識技術を利用すれば、講義内容をその場でテキスト化してもらえるため、講義に集中でき、あとから見返すのにも役立ちます。
講義などで聴講しつつ板書を書き写すだけでなく、会話内容も書き取るのはとても大変です。
しかしAI文字起こし機能などを活用することで会話内容全てをテキストベースで記録でき、デジタルデータとして保存されるため、あとから見返したり特定のフレーズを簡単に探したりできます。
自動翻訳
翻訳版がないコンテンツや字幕が作成されていないYouTube動画などでも、音声認識技術を利用した自動翻訳機能を活用することで簡単に翻訳された文章を閲覧できます。
AIに翻訳を任せればものの数分で翻訳された文章を確認できるため翻訳の効率も良くなりす。
生成AIを活用しコールセンター業務を効率化する「AI-Call Agency」
コールセンター業界は長年「人手不足」という大きな課題を抱え続けています。日本を始めとする多くの先進国では、少子高齢化による労働人口の減少が進んでおり、幅広い業界で人材確保が困難になっています。
特にコールセンター業務は、単調で反復的な作業にくわえて、高度な顧客対応スキルやストレス耐性が求められることから、離職率も高い傾向にあるのが現状です。
さらに従来の電話対応による問い合わせにくわえ、顧客はWebフォームやメール、チャットなど、さまざまなチャネルを通じてのサポートを必要としています。
上記の背景から、オペレーターには各チャネルに適したスキルとツールの習得が求められるため、多岐にわたる技術を持つオペレーターの採用強化を行う半面、そのスキルの差によって応対品質にばらつきが生じることもコールセンター業界の大きな課題のひとつです。
オペレーターごとの応対品質を維持・向上させるための細かな指導とフィードバックを行うため、多くの事業所ではリソースが不足していますが、ITSOはコールセンター業界が抱えるこれらの問題をAIの力で解決する事ができる、革新的なコールセンターソリューションを開発しました。
それが、「AI-Call Agency」というサービスです。
インバウンド/アウトバウンドコールが可能な『AI-Call Agency』
コールセンターでは、利用方法などの問い合わせ対応やサービスの予約受付、商品の注文受付といったインバウンド業務と、商品案内・対面営業のためのアポイントメントの取得・顧客へのアンケート集計といったアウトバンド業務を行なっています。
「AI-Call Agency」は、そのどちらの業務もAIが一手に担います。
教育コストや人件費などを大きく削減
コールセンターの構築・運営には、人件費・設備費・システム運用費・インフラ維持費などさまざまなコストが必要です。
「AI-Call Agency」では応対時間に対してのみ課金されるため、待機時間の費用などは一切かかりません。さらに、コール待機時間も発生し続ける人件費、オペレーター育成のための教育コスト、架電システムの稼働費、稼働場所の維持費といったコストを大幅に削減可能です。
高性能AIによる正確な音声識別と自然な話し方の半合成音声
「AI-Call Agency」は、以下の技術を駆使して正確な音声識別と自然な会話を実現します。
・正確な聞き取り:自動音声認識やノイズ低減機能により、不要な環境音を排除し、クリアな音声を認識。さらに、日本以外の言語への対応も可能。
・正確な発言:半合成音声技術により、自然な話し方を実現し、スムーズなコミュニケーションが可能。人間に近い違和感のない発音が安心感を向上。
これらの革新的な技術により、顧客にストレスを与えることなくスムーズで効果的なコミュニケーションを提供し、顧客満足度の向上をサポートします。
専門知識を駆使し質問を理解
「AI-Call Agency」は、特定の業界や分野に合わせてAIをカスタマイズし、顧客の質問を正確に理解することが可能です。
AIは常に学習と改善を続け、実際の応対で得たデータやフィードバックをもとに、応答クオリティを向上させるための調整を行います。さらに、複数のカテゴリーの質問を同時に認識するため、顧客の意図や要望を取りこぼす心配はありません。
「AI-Call Agency」は、これらの高度な技術とプロセスを採用することで、顧客からの問い合わせに対して専門的かつ正確な回答を実現しています。
会話ログのテキスト化とAPI連携
「AI-Call Agency」は、顧客との会話内容をすべて自動でテキスト化し記録するため、応対後の確認や分析が可能です。
さらに、テキスト化されたデータは、CTIシステムやCRM(顧客関係管理)システムなど、顧客が利用している既存のシステムにAPIを通じて自動的に連携されます。APIで自動連携をすることにより、オペレーターが手動でデータを入力する手間を省き、業務効率の大幅向上を実現します。
オペレーターの転送機能も搭載
「AI-Call Agency」では、顧客との会話が特定のフェーズに達した場合や、AIが顧客の意図を十分に理解できないと判断した場合、応対を人間のオペレーターに自動的に転送する機能が備わっています。
さらに、SMS連携機能があるため、顧客が購入を決定した際には購入サイトへのリンクをSMS送信することで、スムーズなクロージングが可能です。「AI-Call Agency」は自動応答の範囲を超えて、人間とAIの協力でより効果的な顧客対応を実現します。
「AI-Call Agency」事例
『病院・宿泊施設・レストランなど』
お客様からの予約受付を「AI-Call Agency」が自動で対応します。自動での予約管理が可能になるため、受付の手間が大幅に軽減され、予約見込み客の取りこぼしを防ぎます。
『通信販売・テレビショッピングなど』
新商品を発表した際に「AI-Call Agency」を導入することで、多くの注文入電に対応できます。回線を増やすだけで、何千件、何万件もの受付が可能になるため、顧客対応のキャパシティが飛躍的に向上します。
『アポイントメント取得』
「AI-Call Agency」が顧客に電話をかけ、保険の見積もりや電力契約の新規アポイントを取得します。営業効率が向上し、人手に頼らず多くの見込み客にアプローチが可能です。
『入金督促』
支払い遅延が起きている顧客に対して、AIが自動で督促の電話をかけます。遅延損害金が発生する際は具体的な日時を通知するなどの対応が可能であるため、遅延金に対し迅速な対策が可能です。
『行政アンケートや新商品紹介』
行政のアンケートや新商品を紹介するための営業電話も「AI-Call Agency」が対応します。
一例として、過去に健康サプリを購入した履歴のある顧客に対して、新商品の営業コールを自動的に行い、既存顧客への再購入を促進することも可能です。