目次
機械学習を学ぶために、最適な方法は様々なプロジェクトで練習することです。当社では機械学習に使える公開データに関する記事を連載しています。今回は、オープンデータセットを検索、そして無料ダウンロードできるサイトを18件ご紹介します。
公開データを無料ダウンロード
以下のサイトでは、機械学習に使えるオープンデータセットを無料でダウンロードできます。各サイトの利用事項などを必ずご確認下さい。
- Kaggle: 外部から投稿された様々な興味深いデータセットを提供しているデータサイエンスのサイト。 マスターリストでは、ラーメンの評価からバスケットボールのデータや米シアトル市のペット免許まで、ありとあらゆるニッチなデータセットを見つけることができる。
- カリフォルニア大学アーバイン校機械学習リポジトリ: インターネット上で最も歴史あるデータセット情報源のひとつで、面白いデータを探しているなら、最初にあたってみるべきサイト。データセットはユーザーが提供したものであるため、クリーン度にはばらつきがあるが、大多数はクリーン。登録しなくても、サイトから直接データをダウンロードできる。
- FiveThirtyEight: 時事問題を扱うウェブサイトが記事やインフォグラフィックで使用したデータを公開している。政治問題だけに焦点を絞った世論調査会社として設立されたが、現在はスポーツや社会問題など広範な分野も取り扱うようになっている。FiveThirtyEight GitHubも参照のこと。
- Amazon Web Services: アマゾンがアマゾンウェブサービスのプラットフォームで大量のデータセットを公開している。データをダウンロードしてパソコンで利用したり、EC2やHadoopを使ってクラウド上でデータを分析したりすることができる。
- r/datasets: データセットを共有し合うための掲示板。
政府の公開データ
ソーシャルメディアの公開データ
ソーシャルデータは、最新のトレンドや文化を知り、オンラインビジネスの解析をする上で便利でしょう。
- ソーシャルコンピューティング・データリポジトリ: ツイッターやYouTube等、多くのソースから集めた多様なデータセットを様々なサイズで提供。
- スタンフォード・ラージネットワーク・データセット集: ソーシャルコンピューティング・データレポジトリと同様、SNAPでもフェイスブックやReddit等の多くのソースから集めた様々なサイズのデータセットが幅広く用意されており、プロジェクトのニーズに合致したものを見つけることができる。またSNAPデータセット等、大規模ネットワークを容易に統合・分析することが可能なライブラリでもある。
- ネットワークリポジトリ: 多数のソーシャルネットワーク、Webグラフ、バイオネットワークやブレインネットワーク等のコレクション。様々なソーシャルネットワークを比較検証することのできるインタラクティブなビジュアル分析ツールも備えている。
金融・経済の公開データ
金融業界もついにAI時代に突入しています。株価予測やトレーディングなど、各分野におけるAIの進歩は、大きな変化を引き起こしています。
- Quandl: 投資専門家のための代表的な金融・経済データセット。世界トップクラスのヘッジファンドや資産運用管理会社、投資銀行のアナリストら25万人以上が使用。
- 世界銀行公開データ: 世界中の人口構成及び膨大な数の経済・開発指標をカバーしたデータセット。
- 欧州公開データポータル: 経済だけでなく雇用、科学、環境、教育に関するEU各機関のオープンデータにアクセスできる。
- IMFデータ: 国際通貨基金による、国際金融、負債金利、外貨準備金、物価、投資などに関するデータ。
- 米国経済学会: 米国のマクロ経済データを探す際に役立つ。
- Eurostat Comext: 品ごとに整理された1988年以降の貿易動向のデータセット。
- CIA 世界ファクトブック: 世界各国の経済統計に加えて、人口、地理、通信、軍事に関する統計も含まれている。
機械学習向けの教師データをお探しですか?
お探しのデータセットが見つからない場合は、当社が作成いたします。データ作成やアノテーションのサービスを提供し、AIの研究開発をサポートいたします。当社がお手伝いできることにつきましてのご相談や無料トライアルは、以下からお問い合わせください。