目次

音声分類とは、録音音声を聞いて分析するプロセスのことです。音分類とも呼ばれるこのプロセスは、音声アシスタント音声認識、音声合成アプリケーションなど現代の様々なAI技術の要となっています。さらに、予知保全やスマートホームセキュリティシステム、マルチメディアの索引付けと検索などでも利用されています。

上記のような音声分類プロジェクトはまず、アノテーション付き音声のデータ収集からはじめます。機械はこのデータを利用して、何をどのように聞くかを学び、音声を識別して特定のタスクを完了する機能を開発します。アノテーションの過程では多くの場合、音声分類を専門とするサービスの支援を得て、プロジェクト独自の要件に基づいた音声ファイルの分類が行われます。

音声分類の種類

この記事では、四種類の音声分類とそれぞれの活用事例についてまとめました。

音響データ分類

音響イベント検出とも呼ばれるこのタイプの音声分類は、音声信号が記録された場所を識別します。つまり、レストランや学校、家、オフィス、通りなどの環境によって分類します。音響データ分類を活用した事例には、オーディオ・マルチメディア用サウンドライブラリの構築および維持が挙げられます。また、生態系の監視にも一役買っており、音響データに基づいて海洋の特定の場所の魚類の量を推定する際などにも利用されています。

環境音分類

名前が示すように、各環境内の音を分類します。例えば、車のクラクション、道路工事、サイレン、人間の声など、都市騒音のサンプルを識別するのもこの分類タイプです。セキュリティシステムに利用されてガラスが割れる音を識別したり、工場の機械から発生する異音を検出して予知保全に貢献したりしています。動物の鳴き声を識別して、野生動物の観察や保護にも役立っています。

音楽分類

ジャンルや使用されている楽器などの要素に基づいて音楽を分類します。この分類は、ジャンル別に音声ライブラリを整理したり、推薦アルゴリズムを改良したり、データ分析によって傾向やリスナーの好みを見つけたりする上で重要な役目を果たしています。

自然言語発話分類

話し言葉や方言、意味論など言語の特徴に基づいて自然言語の録音音声を分類します。つまり、人間が発する言葉の分類です。このタイプの音声分類はチャットボットや音声アシスタントにおいて最も一般的ですが、機械翻訳や音声合成アプリケーションでもよく利用されます。

音声データの品質の重要性

音声分類を含むプロジェクトの場合、データセットの品質がプロジェクトの結果を左右します。そのため、音声分類で十分な精度を確保するためには、正確にアノテーションを付与した高品質かつ十分な量のデータを取得する必要があります。音声データの収集はぜひ当社にお任せください。当社は音声収集や文字起こし、音声分類など一連の機械学習用音声データを提供しています。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中