目次

最近、ディープフェイクがメディアで頻繁に取り上げられるようになりましたが、合成メディアで注目を集めており、成長を遂げる機械学習分野になっています。このような状況のなか、合成あるいは改ざんされたメディアによってもたらされる可能性のある脅威に対して政府関係者が懸念を示し、2019年6月には米国下院で公聴会が開かれました。全ての最新技術と同じように合成メディアはリスクを伴います。しかし、Lyrebird(ライアバード)のような企業は、合成メディアを活用するメリットがデメリットを上回ることを証明しています。音声認識における研究や高品質の音声データは、チャットボットや音声アシスタントなど、現代の最も有益な技術の開発につながりました。また、自然言語処理は、今日の音声技術の大きな進歩に貢献しています。しかし、最新の音声技術は単に声を自動認識するだけでなく、本人そっくりの声を作り出すことができるのです。

Lyrebirdとは?

Lyrebirdはカナダに拠点を置くAIスタートアップです。音声合成技術を開発し、プロトタイプの一般公開を行った最初の合成メディア企業の一つです。わずか数分の音声録音サンプルを利用して、声のサウンド、アクセント、イントネーション、リズムを模倣することができます。

ユーザーが会話文を入力するだけで、合成音声によるスピーチを生成できるのです。

Lyrebirdの活用事例

合成音声は業種を問わず、様々なシーンで活用されています。その中で最も興味深く役に立つ活用事例のいくつかを挙げると次のようになります。

  • チャットボット音声アシスタント用に人間の声を模倣した音声を生成する
  • 広告やボイスオーバー用に有名人の声をスケーリングする
  • 企業のブランディングのためにユニークな合成音声を作る
  • ゲームAIのためのスケーラブルな会話作成

Lyrebirdはまた、ALS(筋萎縮性側索硬化症)協会と連携して、ALS患者が自分の声のデジタル版を作成できるように支援しています。ALS患者の中には、話す能力を完全に失ってしまう人もいます。しかし、合成音声のアバターを作ることによって、声を失ってしまってからも長い間、自分の声のように聞こえる合成音声を使ってコミュニケーションを続けることができるのです。

Lyrebirdにかかる費用

このプログラムは無料で試すことができます。新規ユーザーはアカウントを作成してサンプル音声をいくつか録音し、合成音声の学習用にそのサンプル音声を提出すればよいだけです。ビジネスまたは商業目的で利用する場合の価格は公表されていないので、ビジネス目的でLyrebirdを利用したい方はLyrebirdの担当者に直接お問い合わせください。

Lyrebirdで自分の合成音声を作成する方法

Lyrebirdオンラインプラットフォームの使い方はとてもシンプルなので、機械学習の経験がない方でも簡単に利用できます。

1. アカウントの作成

まず、Lyrebirdのアカウント登録ページでアカウントを作成します。支払い情報や個人情報は必要ないので、メールアドレスと表示名、そしてパスワードを入力するだけです。

2. 録音の開始

アカウントを作成したら、すぐに声のサンプルの録音を開始できます。Lyrebirdで合成音声を作るために必要なのは30個の声のサンプルまたは5分間の録音だけです。ただし、提出するサンプル数が多いほど、合成音声の品質は良くなります。また、周囲の雑音のない静かな部屋で録音することを強くお勧めします。

ハードウェアに関しては、パソコンの内蔵マイクから専用の外部マイクに切り替えると、品質は大幅に改善しました。私たちがサンプル音声を録音する際は、 BOYA BY-M1DM全方向マイクLavalierを使用しました。

各サンプルは1文あるいは2文で構成されていて、録音には6〜10秒しかかからないので、5分もあれば30個の音声サンプルを録音できます。

3. デジタル音声の作成

必要とされる30個分のサンプルの録音を終えると、「デジタル音声の作成」ボタンが現れます。このボタンをクリックした後は、サンプルを基に機械学習が行われ、合成音声が作成されるのを待ちます。音声の作成完了を通知するメールを受け取れば、会話を入力して合成音声のサンプルを生成できるようになります。

4. 録音の追加

30個の録音だけで作成した場合、おそらく合成音声の質があまり良くないことに気づくでしょう。おかしなイントネーションで話すロボットのように聞こえるかもしれません。録音を追加するには、録音タブをクリックして、満足がいくまで録音サンプルを追加してください。追加し終えたら、「デジタル音声を作り直す」のボタンをクリックして、新しい録音サンプルで学習が行われるのを待ちます。

音声合成ソフトウェアの開発に関わっている方へ

合成音声は世界中の様々な産業や生活を改善する可能性を秘めています。ご自分の合成音声を作成したいとお考えの場合や、音声データの大規模コーパスを必要とするモデルを構築しようとお考えの場合は、ぜひ当社にお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中