目次

音声認識(自動音声認識)とは

音声認識とは、機械学習の利用用途の一つで、音声データをコンピュータに認識させ、文字変換することを示します。音声認識の中で多く活用される声認識では、人間の話している内容だけでなく、声のトーンから感情まで判定できます。SiriやAlexaなどの音声アシスタントを使用したことがあれば、自動音声認識システムを体験したことがあると言えるでしょう。SNSアプリや検索エンジン、車載システムなどに実装されています。これらシステムのプロセスは少しずつ異なっていますが、最初のステップは全てに共通しています。音声データを取り込み、機械が理解できるテキストに変換することです。

では、自動音声認識システムはどのように機能するのでしょうか。また、音声理解をどのように学習するのでしょうか。この記事では、自動音声認識について簡単にご紹介します。音声をテキストに変換するプロセスや自動音声認識システムの構築方法について説明してから、自動音声認識システムの活用が見込まれる分野について触れていきます。

自動音声認識システムの仕組み

自動音声認識とは、音声データを取り込んで、テキストデータを出力することです。しかし、入力から出力に到達するためには、音声データを機械が理解できる形に変換する必要があります。これは音響モデルと言語モデルを介して行われ、この二つのプロセスは次のようになっています。音響モデルは音声信号と音素単位を関連づけ、言語モデルは音を単語や単語列に一致させます。これら二つのシステムを利用して、自動音声認識システムは音声入力に関する確率を確認し、どのような単語や文章が含まれているかを予測します。そして、これらの予測の中から、システムが最も信頼性の高い予測を選択します。
※言語モデルが、他の要因に基づいて、より可能性が高いとみなされる特定の予測を優先させることもあります。

そこで、あるフレーズを自動音声認識システムに通すと、次のようなことが行われます。

  • 音声データを取り込む: 「Hey Siri、今何時?」
  • 音声データを音響モデルに通して音素に分割する
  • データを言語モデルに通す
  • テキストデータを出力する: 「Hey Siri、今何時?」

ただし、自動音声認識システムが音声ユーザーインターフェイスの一部になっている場合でも、そこで活用されている機械学習モデルは自動音声認識モデルだけではないことは心に留めておいてください。多くの場合、自動音声認識システムが与えられた役割を果たすためには、自然言語処理や音声合成システムを組み合わせる必要があります。

自動音声認識の仕組みがわかったところで、次は、構築するために何が必要なのかを見ていきましょう。

自動音声認識システムの作り方

優れた自動音声認識システムには柔軟性が期待されます。様々な種類の音声入力(音声サンプル)を理解して、正確なテキスト出力を生成し、それに応じて反応できるようにする必要があります。

これを実現するために、自動音声認識システムはアノテーションを施した音声サンプルとトランスクリプション(文字起こし)データを必要とします。実際に考慮すべきことはたくさんあるのですが(例えば、アノテーションは非常に重要なプロセスでありながら、しばしば見落とされがちです)、ここでは単純化してご説明しましょう。

自動音声認識システムには膨大な音声データが必要です。話し言葉は複雑なものだからです。同じことを言う場合でも異なる言い方が数多くあり、文の意味は単語の位置や強調によって変わる可能性があります。さらに、世界には様々な言語があり、これらの言語の中でも場所や訛りなどによって発音や単語の選択が異なります。

そして、話し言葉は年齢や性別によっても異なることをお忘れなく。これらを念頭において、自動音声認識システムに多くの音声サンプルを提供するほど、新しい音声入力に対する識別・分類能力が向上します。さらに、様々な種類の音声や環境からサンプルを収集するほど、環境内の音声識別能力が強化されます。適切な微調整とメンテナンスを行えば、自動音声認識システムは使用するにつれ、改良されていきます。

このように、基本的には、データが多いほどモデルの性能が向上します。小規模なデータセットを最適化するための研究が行われているのも事実ですが、現在のところ、うまく機能するためには大部分のモデルが大量のデータを必要とします。最近は公開データセットやデータ収集代行サービスがあるため、音声データ収集は以前より簡単になりつつあります。そして、これによって、技術の進歩がさらに加速化しています。そこで、自動音声認識の活用が見込まれる分野について簡単に見ていきしょう。

自動音声認識技術の未来

自動音声認識技術はすでに私たちの社会に組み込まれています。音声アシスタントや車載システム、ホームオートメーションは全て、日常生活における利便性の向上に役立っています。これらのサービスを利用する人が増えるに従ってテクノロジーが進化するので、能力範囲もさらに拡大するでしょう。上記の例のほか、自動音声認識は様々な興味深い分野や業界で活用されています。

  • コミュニケーション: 世界中に携帯電話が普及したことで、読み書き能力の水準が低いコミュニティでも自動音声認識システムによってメッセージングやオンライン検索、テキストベースのサービスが利用できます。
  • アクセシビリティの向上: ハンズフリーで利用できるアプリや、テレビ、映画、会議向け自動キャプション機能などによって、自動音声認識は障害者や怪我をした人などのアクセシビリティ向上に役立ちます。
  • 軍事技術: 米国、フランス、イギリスでは、軍事プログラムが戦闘機用の自動音声認識システムのテスト・評価を行っています。これには、無線周波数の設定、自動操縦システムのコマンド(指示)などのタスクが含まれます。

音声認識・声認識の活用事例

国立研究開発法人情報通信研究機構(NICT)はVoiceTra(ボイストラ)という、31言語に対応可能な無料翻訳アプリを提供しています。旅行者の使用を想定して作られた研究用アプリであり、訪日外国人観光客による需要も増えることが予想されています。

For privacy reasons YouTube needs your permission to be loaded. For more details, please see our プライバシーポリシー.
I Accept

音声認識データセット

他の大部分の機械学習の活用事例と同じように、音声認識システムを正確に作動させるためには、様々な種類の参加者や環境から取得したデータが必要です。これを念頭に置き、公開されている音声認識データセットをまとめました。データは活用事例に基づいて、話者識別や音声コマンドなどのカテゴリーに分類されています。

声認識のデータセット

Google音声コマンドデータセット: TensorFlowとAIYのチームが作成したデータセットで、長さ1秒間のクリップ65,000個が含まれる。各クリップには、被写体である数千人の異なる人物が発した30種類の音声コマンドの一つが含まれる。

合成音声コマンドデータセット: ピート・ウォーデンによって作成されたデータセットで、短い音声サンプルから構成される。各ファイルには、はい、いいえ、上、下、オン、オフ、止まれ、進めなど、単語一つの音声が含まれる。

流暢な音声コマンドデータセット: およそ100人の話者による30,000件以上の音声が含まれる包括的なデータセット。WAV形式の各ファイルには、スマート家電やバーチャルアシスタントを制御するために利用されるコマンドが一つずつ含まれる。サンプル録音に含まれるのは、「音楽をかけて」、「キッチンの温度を上げて」など。さらに、各音声にはアクションやオブジェクト、位置のアノテーションが付与されている。

音声認識の会話データセット

CHiME-5データセット: 実際の家で行われた異なるディナーパーティー20件の録音から成るデータセット。各ファイルともキッチンやリビング、ダイニングルームなどで録音された2時間以上の音声が含まれる。

2000 HUB5英語評価トランスクリプト: 音声資源コンソーシアム(LDC)が開発したデータセットで、英語による電話での会話40件のトランスクリプトが含まれる。会話音声をテキスト変換するタスクで電話での会話音声に焦点を置いている。

CALLHOMEアメリカ英語の音声:  音声資源コンソーシアム(LDC)が開発したデータセットで、30分間の英語による電話での会話(スクリプトなし)120件から構成される。研究の条件により、大部分の参加者は家族や親しい友人に電話をかけている。

多言語の音声認識データセット

CSS10: 単一話者による音声を10言語にわたって集めたデータセット。ドイツ語、ギリシャ語、スペイン語、フランス語、フィンランド語、ハンガリー語、日本語、オランダ語、ロシア語、中国語の短い音声クリップが含まれる。

BACKBONE・ビデオ録画したインタビューの教育的コーパス: 英語、フランス語、ドイツ語、ポーランド語、スペイン語、トルコ語のネイティブスピーカーや英語を母語としない話者とのインタビューをビデオ録画したウェブベースの教育的コーパス。

アラビア語音声コーパス: 3.7時間を超える現代標準アラビア語(MSA)の音声の発音表記および正字表記のトランスクリプトが含まれる。

カジュアルなフランス語のナイメーヘンコーパス: 35時間分の高品質の録音が含まれる音声データセット。友人と会話する46人のフランス語話者の音声に、専門家による正字法のアノテーションが付与されている。

無料の数字音声データセット: 数字を発音した録音が含まれるシンプルなデータセット。最初と最後は無音化するようにトリミングされている。

ウィキペディア音声コーパス: ウィキペディア記事の音声ファイルをアライメントしたコーパス。英語のほか、ドイツ語やオランダ語でも利用可能。

その他音声認識データセット

発話におけるアクセントのアーカイブ: 様々な言語バックグラウンドを持つ人々の発話における多数のアクセントデータを一律に表示するために構築されたデータセット。異なる人が同じ文章を読んだ英語の音声サンプルが2,140件含まれる。参加者の出身国は177カ国、母語は214種類に及ぶ。

ライアソン・音声や歌の感情に関する音声-映像データベース(RAVDESS): 24人のプロの俳優(女性12人と男性12人)が同じ文章を声に出している。音声感情は冷静、幸せ、悲しみ、怒り、恐れ、驚き、嫌悪に分類され、さらに強度によってそれぞれ二つのレベルに分類されている。

TED-LIUMコーパス: TEDトークおよびTEDウェブサイトで入手可能なトランスクリプトから構成される。2,351件、452時間の音声サンプルに加え、それらを自動文字起こししたもの2,351件がSTM形式で保存されている。

Google AudioSet: 音響イベントクラス635個の拡大型オントロジーとYouTube動画から取得した10秒間の音声クリップ200万件以上が含まれるデータセット。アノテーターによるメタデータとコンテキスト、コンテンツ分析が付与されている。

LibriSpeech ASRコーパス: オーディオブックから取得した1,000時間以上の英語の音声が含まれる。録音の大部分はプロジェクト・グーテンベルクからのテキストを基にしている。

必要な音声データセットが見つかりませんか?

必要な音声データセットが見つからない場合は、当社がご準備いたします。ご相談・無料トライアルはこちらから。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中