目次

機械学習に必要不可欠な「学習データ」とは

学習データとは「機械学習モデルを学習させるための情報 (データ)」と定義づけられます。学習データの中には、入力データと、それに対する、期待される出力データの両方が含まれます。学習データの入力と出力データを「グラウンドトゥルース (ground truth)」と呼びます。機械学習モデルはこのグラウンドトゥルースに基づいて、ニューラルネットワークなどのテクノロジーを用いて、高精度のアルゴリズムを生成していきます。

データセットを探す際に、まず心に留めておくべき指針があります。

  • データの整理に膨大な時間を費やしたくないため、データセットは雑然としていてはならない。
  • 行や列が少なめのデータセットのほうが作業がしやすい。
  • そのデータから具体的に何の「問題」の回答を期待しているのか、明確にしなければならない。

機械学習用のデータセットを検索できるサイト

Kaggle: 外部から投稿された様々な興味深いデータセットを提供しているデータサイエンス・サイト。 総合リストでは、ラーメンの評価 、バスケットボールのデータ、米シアトル市のペット免許など、ありとあらゆるニッチなデータセットを見つけることができる。

カリフォルニア大学アーバイン校機械学習リポジトリ: インターネット上で最も歴史あるデータセット情報源のひとつで、面白いデータを探しているなら、最初にあたってみるべきサイト。データセットの大多数は整理されてますが、ユーザーが提供したものであるため、データが整理されているという保証はありません。が、登録しなくても、サイトから直接データをダウンロードできる。

国立情報学研究データリポジトリ: 国立情報学研究所が情報学関連分野の研究者に提供しているデータセットの一覧です。一部,準備中のデータセットも含まれています。

機械学習に使えるデータセットまとめ

この記事では、機械学習において不可欠な「学習データセット」を取り上げます。保存版として、インターネットで公開されているオープンソースのデータセットをまとめてみました。

政府のデータセット

人口統計データは、重要な経済的意思決定の基盤として政府や社会をより良いものにする力を備えています。人口統計データを使用した機械学習モデルも同様に、政策立案者が移民や少子高齢化の問題の動向を把握して準備するのに役立ちます。

Data.gov: 様々な米国政府機関のデータをダウンロードできるサイト。政府予算から学業成績スコアに至るまで、データは多様。ただし、多くのデータはさらなるリサーチを要する。

DATA GO JP: 日本政府のデータカタログサイト。日本政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイト」です。の穀物が米国の庶民の食生活をどう影響しているか分析するためのデータセット。

学校制度の財政: 米国の学校制度の財政の調査。

海岸地形の人口統計トレンド (1970〜2010年): 国勢調査ブロック群から得られた13の海岸地形についてのデータ。

UKデータサービス: 英国最大の社会、経済、人口統計のデータ集。

データUSA: 米国の公共データを総合的に視覚化。

金融・経済のデータセット

金融期間では何十年も前から定量的な記録があるので、機械学習の応用に適している分野です。システムトレード、株価予想、不正検出などの分野で、機械学習は金融業界に革命をもたらしています。経済においては、機械学習は経済モデルをテストしたり、政策立案者が市民の行動を予測したりするのに使用できます。

Quandl: 経済・金融のデータ資源。経済指標や株価の予想に使用するモデルの構築に役立つ。

世界銀行オープンデータ: 全世界の人口動態と多数の経済指標・開発指標を網羅したデータセット。

IMFデータ: 国際通貨基金の発表による、国際金融、金利、外貨準備金、商品価格、投資などのデータ。

フィナンシャル・タイムズ市場データ: 株価指標、商品、外国為替など、世界の金融市場の最新情報。

Googleトレンド: インターネット検索と世界中のトレンドニュースに関するデータ検証と分析。

米国経済学会: 米国マクロ経済の優れたデータ資源。

画像データセット

画像の学習データセットは、付与されているアノテーションの種類によっては幅広いモデルの学習データとして使われます: 画像認識、物体検出、顔認証、自動運転、など。

Labelme: アノテーション付き画像の巨大なデータセット。

ImageNet: 新たなアルゴリズムに使用するデファクトの画像データセット。WordNetの階層に従って整理されており、階層の各ノードは数百、数千の画像によって表されている。

LSUN: 多くの補助タスク(部屋のレイアウト推定や顕著性予測など)のあるシーン理解。

MS COCO: 一般的画像理解とキャプション生成。

COIL100 : 100個の異なる物体を360度すべての角度で映した画像。

Visual Genome: 視覚に関する極めて詳細な知識を得られるサイトで、10万枚までの画像をキャプション生成している。

Googleのオープン画像: クリエイティブ・コモンズの下で「6,000超に及ぶカテゴリーのラベル付けを施した」画像の900万のURL集。

Labelled Faces in the Wild: 顔認識関連のアプリケーション開発への使用を目的に収集された、人の顔のラベル付けした画像13,000枚。

スタンフォード 犬のデータセット: 20,580枚の画像と120種の犬種カテゴリーから成る。

室内シーン認識: ほとんどのシーン認識モデルは「屋外」のほうが優れているため、利用価値のある極めて特殊なデータセット。67の屋内カテゴリーと、合計15,620枚の画像から成る。

感情分析データセット

感情分析はイベントや製品に対する世間の意見を測るのに、ビジネスに役立ちます。顧客はTwitterで「ネガティブ」な不満の愚痴をこぼしたり、アマゾンに口コミを投稿したり、ポジティブな感情とネガティブな感情の両方をソーシャルメディアで表現します。感情分析はそうしたデータの波をかき分けながら、人々が実際に何を考えているのかを突き止める、マーケティングには特に便利なツールです。

マルチドメイン感情分析データセット: アマゾンの商品レビューに的を絞ったやや古いデータセット。

IMDB レビュー: センチメントの2項分類のための、やや古い比較的小さなデータセットで、25,000の映画レビューが存在する。

スタンフォード・感情ツリーバンク: 感情のアノテーションを付した感情データセット。

センチメント140: 顔文字を取り除いた16万のツイートを使用した人気の高いデータセット。

ツイッター米航空会社センチメント: ポジティブ、ネガティブ、ニュートラルで分類した、2015年2月以降の米国航空会社に関するツイッターのデータ。

自然言語処理データセット

自然言語処理とは、話しかけられた言葉に気付き、意味を理解し、適切な行動を決定し、ユーザーが理解できる言語で反応する機械の能力の総称です。自然言語処理のデータセットは、機械翻訳やチャットボットなどの開発に使われます。

エンロン・データセット: エンロン社管理職の電子メールのデータ。フォルダーに整理されている。

青空文庫形態素解析データ集: 青空文庫に収録されている作品に対し形態素解析を行ったデータ。CCライセンスで、商用利用も可能。対象の作品は2012/12時点で公開されており、著作権フラグのない11,176作品。

アマゾン・レビュー: 18年にわたるアマゾンのおよそ3500万のレビューから成る。データには、製品及びユーザー情報、評価、プレーンテキストのレビューが含まれる。

GoogleブックスNgrams: Googleブックスの単語のコレクション。

Bloggerコーパス: blogger.comから収集された681,288のブログ記事のコレクション。各ブログには最低でも200の一般的英単語の使用が含まれている。

ウィキペディア・リンク・データ: ウィキペディアのテキスト全文。400万以上の記事の約19億語から成るデータセット。単語やフレーズ、パラグラフの一部分で検索できる。

グーテンベルク電子書籍リスト: プロジェクト・グーテンベルクの電子書籍のアノテーション付きリスト。

カナダ議会議事録: 第36回カナダ議会議事録の、2カ国語の130万のテキスト。

Jeopardy:クイズ番組「Jeopardy」で使われた20万以上の質問集。

英語のSMSスパム・コレクション: 英語の5,574のSMSスパムメッセージから成るデータセット。

Yelpレビュー: Yelpがリリースしたオープン・データセット。500万以上のレビューから成る。

カリフォルニア大学アーバイン校のスパムベース: スパムのフィルタリングに役立つスパムメールの大型データセット。

自動運転データセット

自動運転の研究開発に役立つ車のビッグデータを含む、データセットをまとめました。これらのデータセットには静止画像などもが含まれており、既にタグ付けが行われているものもあります。

バークレー・ディープドライブBDD100k: 自動運転人工知能のためのデータセットとしては、現在のところ最大。異なる時間帯や天候の下における1,100時間を超える運転経験を撮影した10万超の動画から成る。アノテーション付き画像はニューヨークとサンフランシスコ地域のもの。

百度アポロスケープ: 車や自転車、歩行者、建物、街灯など、26の異なった意味を持つアイテムを定義する大型データセット。

Comma.ai: 7時間超のハイウェイ走行。車の速度、加速、ステアリング角、GPS座標などの情報を含む。

オックスフォード・ロボットカー:英国オックスフォードの同一ルートの走行を1年間にわたって100回以上繰り返したデータ。異なる天候や交通量、歩行者の組み合わせと、建設現場、道路工事などの長期にわたる変化も捉えたデータセット。

都市景観データセット: 50都市の街路シーンを記録した大型データセット。

KULベルギー交通標識データセット: ベルギーのフランダース地方の物理的に異なる数万の交通標識から得た1万を超える交通標識のアノテーション。

雨、雪など悪天候における交通監視: それぞれ5分ほどの長さの動画22本から構成されたデータセット。RGBカラーカメラと赤外線サーマルカメラの両方を利用して撮影されているので、130,000件以上のRGB画像とサーマル画像のペアが含まれる。

インテリジェントで安全な自動車研究室: 交通標識、自動車検知、信号機、軌跡パターンなどを含むデータセット。

お探しのデータセットが見つからない場合

お探しのデータセットが見つからない場合は、当社が既存のパッケージデータセットからご用意いたします。追加作成分もお手伝いします。音声、画像、動画、アノテーション等のサービスを提供し、研究開発を支援しております。音声データの文字起こしや音韻表記など、様々なデータやアノテーションタイプに対応できるため、多言語チャットボット、OCR、顔認証、自動運転など、幅広い研究開発向けの教師データをご用意できます。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中