目次

音声情報処理(音声処理)とは

音声情報処理(音声処理)とは、音声信号で音声解析を行い、特徴パラメータを取り出し、それに基づいて自動音声認識、話者認識、音声生成などを行うことをいいます。今回は、音声情報処理の主な分野の2つ、話者認識と音声生成について紹介していきます。

話者認識

話者認識とは、人間の声から個人を認識する、音声処理の一分野です。音声データから特徴を抽出し、モデル化し、それを使って個人の声認証を行います。隠れマルコフモデル、パターンマッチング、ニューラルネットワーク、決定木など、様々な技術が用いられます。話者認識は更に、話者識別と話者照合の2種類に分類することができます。

話者識別

話者識別とは、誰だか分からない声を誰のものか、識別するタスクをいいます。話者識別も更に、2種類に分類することができます。事前に話者の声を登録せず、複数人の会話が行わている状況で、各人がどの発信をしたのかを識別する方法と、事前に登録された音声データに基づき、話者識別を行う方法の2つがあります。

話者照合

話者照合(話者認証)とは、ある人間が本人の主張している通りの個人であるかどうかを、承認するタスクです。セキュリティを確保したアクセスを必要とする場合に多く利用されます。あらゆる音声データと照合する必要がある話者識別と違い、話者照合では、話者の声を1つのテンプレートと照合すれば達成することができます。

音声生成

音声生成とは、テキストデータを音声に変換し、人間の音声を人工的に構築することであり、音声情報処理の一分野です。音声合成、テキスト音声合成、text-to-speech、speech synthesis ともいいます。応用法は豊富で、コールセンターの自動応答、ATMや複合機などの電子機器、工場などでの校内放送、防災無線、公共交通機関での車内放送や案内放送、カーナビゲーション、音声アシスタントなどのアプリケーションなどが挙げられます。

音声生成の課題としては、テキストの読み方の正しい推定や、品質評価が挙げられます。まず、音声生成では、入力されたテキストの読み方を正しく推定することが必要です。例えば、日本語のテキストデータでは漢字の音読み・訓読みの区別、同型異音語の区別、発音、人名や地名の読み方の推定などを正しく行うことには困難が伴います。また、生成された音声データの自然性を客観的に評価するのも困難である場合が多くみられます。

音声データセットをお探しですか?

お探しの音声データセットが見つからない場合は、当社がご用意いたします。こちらから、お気軽にご相談ください

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中