目次

機械学習を学ぶために、最適な方法は様々なプロジェクトで練習することです。当社では機械学習に使える公開データに関する記事を連載しています。今回は、オープンデータセットを検索、そして無料ダウンロードできるサイトを18件ご紹介します。

公開データを無料ダウンロード

以下のサイトでは、機械学習に使えるオープンデータセットを無料でダウンロードできます。各サイトの利用事項などを必ずご確認下さい。

  • Kaggle: 外部から投稿された様々な興味深いデータセットを提供しているデータサイエンスのサイト。 マスターリストでは、ラーメンの評価からバスケットボールのデータや米シアトル市のペット免許まで、ありとあらゆるニッチなデータセットを見つけることができる。
  • カリフォルニア大学アーバイン校機械学習リポジトリ: インターネット上で最も歴史あるデータセット情報源のひとつで、面白いデータを探しているなら、最初にあたってみるべきサイト。データセットはユーザーが提供したものであるため、クリーン度にはばらつきがあるが、大多数はクリーン。登録しなくても、サイトから直接データをダウンロードできる。
  • FiveThirtyEight: 時事問題を扱うウェブサイトが記事やインフォグラフィックで使用したデータを公開している。政治問題だけに焦点を絞った世論調査会社として設立されたが、現在はスポーツや社会問題など広範な分野も取り扱うようになっている。FiveThirtyEight GitHubも参照のこと。
  • Amazon Web Services: アマゾンがアマゾンウェブサービスのプラットフォームで大量のデータセットを公開している。データをダウンロードしてパソコンで利用したり、EC2やHadoopを使ってクラウド上でデータを分析したりすることができる。
  • r/datasets: データセットを共有し合うための掲示板。

政府の公開データ

政府の公開データは、経済人口統計データなどが含まれ、経済的意思決定の基盤として使われます。

  • Data.gov: 国政府機関のデータをダウンロードできるサイト。政府予算から学業成績スコアに至るまで、データは多様。ただし、多くのデータはさらなるリサーチを要する。
  • Apertio: アペルティオ・テクノロジーズが政府の公開データに関する業界初のグローバルデータベースと検索エンジンを構築。 世界中の 2,000個以上の公開データサイトや数兆件に及ぶレコードをカバーしている。

ソーシャルメディアの公開データ

ソーシャルデータは、最新のトレンドや文化を知り、オンラインビジネスの解析をする上で便利でしょう。

  • ソーシャルコンピューティング・データリポジトリ: ツイッターやYouTube等、多くのソースから集めた多様なデータセットを様々なサイズで提供。
  • スタンフォード・ラージネットワーク・データセット集: ソーシャルコンピューティング・データレポジトリと同様、SNAPでもフェイスブックやReddit等の多くのソースから集めた様々なサイズのデータセットが幅広く用意されており、プロジェクトのニーズに合致したものを見つけることができる。またSNAPデータセット等、大規模ネットワークを容易に統合・分析することが可能なライブラリでもある。
  • ネットワークリポジトリ: 多数のソーシャルネットワーク、Webグラフ、バイオネットワークやブレインネットワーク等のコレクション。様々なソーシャルネットワークを比較検証することのできるインタラクティブなビジュアル分析ツールも備えている。

金融・経済の公開データ

金融業界もついにAI時代に突入しています。株価予測やトレーディングなど、各分野におけるAIの進歩は、大きな変化を引き起こしています。

  • Quandl: 投資専門家のための代表的な金融・経済データセット。世界トップクラスのヘッジファンドや資産運用管理会社、投資銀行のアナリストら25万人以上が使用。
  • 世界銀行公開データ: 世界中の人口構成及び膨大な数の経済・開発指標をカバーしたデータセット。
  • 欧州公開データポータル: 経済だけでなく雇用、科学、環境、教育に関するEU各機関のオープンデータにアクセスできる。
  • IMFデータ: 国際通貨基金による、国際金融、負債金利、外貨準備金、物価、投資などに関するデータ。
  • 米国経済学会: 米国のマクロ経済データを探す際に役立つ。
  • Eurostat Comext: 品ごとに整理された1988年以降の貿易動向のデータセット。
  • CIA 世界ファクトブック: 世界各国の経済統計に加えて、人口、地理、通信、軍事に関する統計も含まれている。

機械学習向けの教師データをお探しですか?

お探しのデータセットが見つからない場合は、当社が作成いたします。データ作成やアノテーションのサービスを提供し、AIの研究開発をサポートいたします。当社がお手伝いできることにつきましてのご相談や無料トライアルは、以下からお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中