日本語TTS開発に使える無料データセットまとめ｜2025年版

1. JSUTコーパス（JSUT Corpus）
2. JVSコーパス（Japanese Versatile Speech Corpus）
3. JSUT-Singingコーパス
4. Common Voice（日本語）
5. VOICE ACTRESS CORPUS
6. NIT ATR 503コーパス
7. OGVC（Open Game Voice Corpus）
8. JSSS（Japanese Speech Synthesis Database）

音声合成（TTS: Text-to-Speech）は、ナビゲーション音声やAIアシスタント、読み上げアプリなど、さまざまな領域で活用されています。特に日本語TTSの需要は年々高まっており、自然で聞き取りやすい音声を実現するためには、高品質な音声データセットが不可欠です。

この記事では、TTS開発に使える日本語の無料音声データセットを厳選してご紹介します。

無料で利用できる日本語TTS向け音声データセット一覧

1. JSUTコーパス（JSUT Corpus）

提供元： 東京工業大学・佐藤研究室
話者： 1名（標準語・女性）
内容： 全7,696文（約10時間）
ライセンス： CC BY-SA 4.0
URL： https://sites.google.com/site/shinnosuketakamichi/publication/jsut

2. JVSコーパス（Japanese Versatile Speech Corpus）

提供元： 国立情報学研究所（NII）
話者： 100名（男女各50名）
内容： 同一文を複数話者が発話
ライセンス： CC BY-NC-SA 4.0（非商用）
URL： https://sites.google.com/site/shinnosuketakamichi/publication/jvs_corpus

3. JSUT-Singingコーパス

提供元： 東京工業大学
話者： 1名（女性）
内容： 歌声付き読み上げ（伴奏あり／なし）
ライセンス： CC BY-SA 4.0
URL： https://sites.google.com/site/shinnosuketakamichi/publication/jsut-song

4. Common Voice（日本語）

提供元： Mozilla Foundation
話者： 多数
内容： クラウドソースによる読み上げ音声
ライセンス： CC-0（商用可）
URL： https://commonvoice.mozilla.org/ja/datasets

5. VOICE ACTRESS CORPUS

提供元： 名古屋工業大学
話者： 10名（女性声優）
内容： 約10,000文 × 各話者
ライセンス： 要申請・研究限定
URL： https://sites.google.com/site/charactervoicecorpus/

6. NIT ATR 503コーパス

提供元： ATR研究所
話者： 1名（女性）
内容： 503の短文音声
ライセンス： 研究利用（要申請）
URL： https://research.nii.ac.jp/src/

7. OGVC（Open Game Voice Corpus）

提供元： OpenSLR
話者： 複数
内容： ゲームセリフ調の短文
ライセンス： CC-BY 4.0
URL： https://openslr.org/69/

8. JSSS（Japanese Speech Synthesis Database）

提供元： 東京大学・猿渡研究室
話者： 複数
内容： 音素バランス重視の読み上げ音声
ライセンス： 要申請・非商用利用
URL： https://www.sp.ipc.i.u-tokyo.ac.jp/

商用利用時の注意点

無料データセットでも、商用利用可否、クレジット表記、再配布制限などがライセンスによって異なります。特に「CC-BY-NC」や「研究利用限定」の場合、サービスや製品への使用には追加許諾が必要です。

専用音声データの収集をご希望の方へ

トランシンク株式会社では、TTS向けの企業専用音声データセットの収集・アノテーションを請け負っています。以下のようなカスタマイズに対応可能です：

プロナレーター指定／性別・年代別に収集
方言／専門用語などの読み上げ対応
プライバシー・ライセンス問題をクリアした商用利用可データ

ご興味のある方は、ぜひこちらまでお問い合わせください。

まとめ

日本語TTS開発を始めるにあたり、無料のデータセットはプロトタイプ構築や研究検証に非常に有用です。ただし、商用展開や高精度モデルの開発には、専用データの構築が重要になります。

音声データ収集やTTSモデル開発をご検討の企業様は、ぜひお気軽にご相談ください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

・・・全文を読む

無料

機械学習用
音声コーパス

・・・リストを見る

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

ホーム

データセット

プロジェクト事例

文章分類の活用事例

機械翻訳の品質評価

アラビア語音声データ

テキストコーパス作成

ピックアッププロジェクト

アラビア語音声データセット