目次

英語の自然言語処理に使える無料のオープンデータセットは、どこで探すのが一番いいでしょうか。

インターネット上を隈なく調べて究極のデータセットのリストを作成し、テキスト、感情分析、音声スピーチの三つに分類しました。

英語の自然言語処理向けテキストデータセット

青空文庫形態素解析データ集: こちらは日本語になりますが、青空文庫に収録されている作品に対し形態素解析を行ったデータです。CCライセンスで、商用利用も可能。対象の作品は2012/12時点で公開されており、著作権フラグのない11,176作品。

感情分析のデータセット

英語発話のデータセット

  • 2000HUB5英語評価記録: 40本の電話の会話から成る英語の発話データ。

  • LibriSpeech: オーディオブックのデータセット。複数の朗読者による500時間に及ぶオーディオブックから成る。オーディオブックの章で整理されている。

  • 声による性別認識: 声や発話の音響特性に基づいて男性の声か女性の声かを識別するシステムの開発を支援するために構築されたデータベース。男性および女性の話者による音声録音が3,000件以上含まれる。
  • 発話された数字の無料データセット: 英語における1,500の発話された数字の録音コレクション。

  • TIMIT: 630人のアメリカ英語話者の録音コレクション。

その他、英語の自然言語処理向けデータセット

英語の自然言語処理向けデータセットをお探しですか?

必要なデータセットが見つからない場合は、当社が作成いたします。お客様のご要望に合わせたカスタムデータセットをご提供します。無料見積もり、お問い合わせはこちらから。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中