目次

TensorFlowとは

Google Brain研究者が開発したTensorFlow(テンソルフロー)は、機械学習およびデータサイエンス用の最大のオープンソース・データライブラリの一つです。まったくの初心者から経験豊富なデータサイエンティストまで、誰にでも役立つエンドツーエンドのプラットフォームです。TensorFlowライブラリには、ツールや事前学習済みモデル、機械学習用ガイドのほか、オープンデータセットのコーパスが含まれています。この記事では、必要な教師データを見つける際に役立つように、最も規模の大きい機械学習用TensorFlowデータセットをいくつか取り上げて簡単にご紹介いたします。画像、動画、音声、テキストに分類してリストを作成しました。

TensorFlowデータセット(画像)

  1. CelebA: 公開されている画像データセットのうち最大のものの一つ。20万件以上の有名人の画像が含まれる顔の属性データセット。各画像には、顔ランドマーク5個とバイナリ属性アノテーション40個が含まれる。
  2. Downsampled Imagenet: 密度推定および生成モデルのタスク用に構築されたデータセット。物体、シーン、車、人など130万件以上の画像が含まれる。32×32ピクセルと64×64ピクセルの2種類の解像度で利用可能。
  3. Lsun: シーン認識用に作成された大規模な画像データセット。900万件以上の画像が寝室、教室、ダイニングルームなどのシーンに分類されている。
  4. Bigearthnet: センチネル2号からの衛星画像が含まれる大規模データセット。各画像は、1.2 km x 1.2 kmの地表をカバーしており、43種類のラベルが不均衡に付与されている。
  5. Places 365: その名の通り、様々な場所やシーンの画像180万件以上を集めたデータセット。オフィス、桟橋、コテージなどのカテゴリーが含まれる。シーン認識タスクに利用できるデータセットとしては最大のものの一つ。
  6. クイックドロー・ビットマップ: クイックドローデータセットは、クイックドローのユーザーが描いた、345種類のカテゴリーにわたる500万件の画像から構成される。クイックドローデータセットの一部であるこのバージョンには、28 x 28ピクセルのグレースケール画像が含まれる。
  7. SVHN Cropped(トリミング済み家屋番地データセット):  数字認識アルゴリズム用に構築された、スタンフォード大学による家屋番地データセット。32 x 32ピクセルにトリミングされた実際の画像データ60万件が含まれる。
  8. VGGFace2: Google検索エンジンからダウンロードした画像から成る、最大の顔画像データセットの一つ。年齢やポーズ、民族は様々で、各被写体につき平均362件の画像が含まれる。
  9. COCO: グーグルとFAIR、カリフォルニア工科大学などからの協力者によって作成されたデータセット。世界最大のアノテーション付き画像データセットの一つ。物体検出、セグメンテーション、画像キャプションタスク用に構築され、33万件の画像のうち20万件にアノテーションが付けられている。画像には80種類にわたる150万個のオブジェクト・インスタンスが含まれる。
  10. オープン・イメージズ・チャレンジ2019: 約900万件の画像が含まれており、オンラインで利用できる最大のアノテーション付き画像データセットの一つ。画像レベルのアノテーション、オブジェクトを対象としたバウンディングボックスおよびセグメンテーションマスク、オブジェクト間の関係性が含まれる。
  11. オープン・イメージズV4: 上記のオープン・イメージズの別バージョン。600種類の異なるオブジェクトクラスから成るバウンディングボックス1460万個が含まれる。バウンディングボックスは人間のアノテーターが手動で描いたもの。
  12. AFLW2K3D: 全てに3D顔ランドマークが付与された2000件の顔画像が含まれる。3D顔ランドマーク検出モデルを評価するために作成された。

TensorFlowデータセット(動画)

  1. UCF101: 行動認識モデル用に構築された、セントラルフロリダ大学による動画データセット。101個の行動カテゴリーにわたる13,320件の動画が含まれる。
  2. BAIR Robot Pushing: カリフォルニア大学バークレー校AI研究所(BAIR)によるデータセット。何かを動かしているところなど、動作中のロボットを撮影した44,000件の動画を収録。
  3. Moving MNIST(MNIST動画版):  MNISTベンチマークデータセットのバリエーションで、1万件の動画が含まれる。各動画では、2個の手書き数字が64 x 64ピクセルの画面内を動き回っている様子が撮影されている。
  4. EMNIST: 元のMNISTデータセットの数字が28×28ピクセルフォーマットに変換されている拡張版MNIST。

TensorFlowデータセット(音声)

  1. CREMA-D: 感情認識用に作成された、声の感情表現から成るデータセット。様々な年齢、民族、性別の91人の俳優による音声クリップ7,442件が含まれる。
  2. Librispeech: LibriVoxプロジェクトのオーディオブックから収集した1000時間分の英語の音声が含まれるシンプルな音声データセット。音響モデルと言語モデル両方の学習に利用されている。
  3. Libritts: グーグル・ブレインのチームメンバーの支援を受けて準備された、英語の音声約585時間分が含まれる。元々、音声合成(TTS)研究用に設計されたが、様々な音声認識タスクに利用できる。
  4. TED-LIUM: 英語版TED Talks110時間分以上が含まれるデータセット。全て字幕付き。
  5. VoxCeleb: 話者識別タスク用に構築された大規模な音声データセット。1,251人の話者による音声サンプルが15万件以上含まれる。

TensorFlowデータセット(テキスト)

  1. C4 (Common Crawlのウェブクロールコーパス): 7年間にわたるデータが含まれ、40以上の言語で利用できるウェブページデータのオープンソースリポジトリCommon Cralのデータセット。
  2. 市民のコメント: 50個以上の英語版ニュースサイトから収集した180万件以上のパブリックコメントのアーカイブ。
  3. IRC Disentanglement: UbuntuのIRCチャンネルから77,000件を超えるコメントを収集して作成されたデータセット。各サンプルのメタデータには、メッセージIDとタイムスタンプが含まれる。
  4. Lm1b: 言語モデルベンチマークとして知られ、10億語が含まれるデータセット。元々、統計的言語モデリングにおいて進捗を測定するために作成されたもの。
  5. SNLI: 人間が書いた文のペア57万件を収録した、スタンフォード大学による自然言語推論データセット。全てのペアは、クラス間の均衡を取るため手動でアノテーションが付与されている。
  6. e-SNLI: 上記のSNLIデータセットを拡張したもの。元のデータセットの57万件の文が、含意、矛盾、中立の3つに分類されている。
  7. MultiNLI: SNLIデータセットに倣って作成されたデータセット。433,000件の文のペア全てに含意情報のアノテーションが付与されている。
  8. Wiki40b: 40種類の異なる言語で書かれたWikipediaの記事から収集したテキストが含まれる大規模なデータセット。データクレンジング済みで、非コンテンツ領域や構造化オブジェクトは削除されている。
  9. Yelp極性レビュー: 極性の高いYelpのレビュー598,000件が含まれる。Yelpデータセットチャレンジ2015に含まれていたデータから抽出。

上記のデータセットは、最も規模が大きく広範に利用されている機械学習用TensorFlowデータセットの一部ですが、TensorFlowライブラリには膨大なデータセットが収められており、常に拡大を続けています。お客様独自のモデルの構築に活用するため、より詳細な情報が必要な場合は、TensorFlowウェブサイトをご覧ください。 また、TensorFlowにつきましては、Courseraの日本語セミナーなどご確認ください。

お探しのデータセットが見つからない場合、当社が作成いたします。必要に応じて案件に特化した秘密保持契約も作成できるので、データの安全性も保証しております。ご相談・無料トライアルは以下から。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中