目次
物体検出や顔認証AIに使えるオープンデータセットを見つけるのに最適なオープンソースの機械学習用画像データセットのリストを作成しました。
顔画像のデータセット
- 自然界のラベル付き顔画像: 顔認識に関するアプリケーション開発に使用する、13,000の人の顔のラベル付き画像。
- Labelled Faces in the Wild: 米マサチューセッツ大学より、顔認証の研究目的で作成された顔画像データセットです。このデータセットは5,700人の顔写真を13,000枚含みます。
- UMDFaces: 8,200人の顔写真に、367,000個のアノテーションが付けられたデータセット。さらに、キーポイントアノテーション付きの300万枚の映像フレームもあります。このデータセットは研究目的のみに公開されていますので、ご利用の際はご注意ください。
- ランドマークアノテーション付きの顔画像データセット: このデータセットは7000枚以上のキーポイントアノテーション付きの顔画像を含みます。キーポイントの数は一枚の顔画像で最高15個まで付いています。
- Flickr Faces: 画像・映像をシェアできるサイト「Flickr」から21,000枚の顔画像を含むデータセットです。
- CelebFaces: 40種類の属性注記の付いた有名人の画像 200,000 件以上で構成された顔のデータセット。
- バウンディングボックス付きの顔画像データセット: こちらは500枚の顔画像データセットの中に、約1,100人の顔が既にバウンディングボックスでタグ付けされています。
物体検出に使えるデータセット
物体検出とは、対象の物体が画像のどこに写っているかを答えるタスクです。物体検出の他にも、物体照合(太蔵に写っている物体が対象と同じ物体かを照合するタスク)や特定物体認識(画像に写っている物体の固有名詞を答えるタスク)もありますので、貴社のニーズに最適な画像アノテーションの手法を利用するよう、十分お気をつけくださいませ。
画像認識に使えるデータセット
機械学習に使える画像データセット(その他)
- Labelme: MITコンピュータ科学・人工知能研究所 (CSAIL) 作成の大規模なデータセットで、187,240の画像、62,197の注釈付き画像、 658,992のラベル付きオブジェクトで構成。
- レゴ・ブリック: Blenderで描画され、フォルダ毎に分類された16種類のレゴ・ブリックの画像6400件から成る。
- ImageNet: 新たなアルゴリズム用のデファクト画像データセット。WordNet階層に従って編成されており、階層の各ノードは何百、何千という画像で表される。
- Visual Genome: 10万の画像にキャプションが付けられた非常に詳細な画像知識ベース。
- Googleのオープン画像: クリエイティブ・コモンズ下の「6,000を超えるカテゴリーのアノテーションラベル付き」画像900万のURL集。
- Youtube-8M: 何百万ものYouTube画像IDと、3,800を超えるビジュアル・エンティティの注釈から成る大規模なラベル付きデータセット。
- スタンフォード犬のデータセット: 20,580の画像と120の犬種で構成。
- Places: シーン中心のデータベースで、205のシーン・カテゴリーとカテゴリーラベル付きの250万の画像で構成。
- 花: 主に英国で見られる花の画像データセット。102のカテゴリーから成る。
- 植物の画像分析: 100万を超える植物の画像を集めたデータセット。11の植物種から選択できる。
- CIFAR-10: 10種に分類された32×32のカラー画像6万枚。
- CompCars: 163の自動車メーカー、1,716車種で構成され、それぞれに最高速度、排気量、ドア数、シート数、車種の5つの属性ラベルが付いている。
- VisualQA: 265,016の画像についての自由回答形式の質問で構成されたデータセット。質問には画像と言語についての知識が必要。
画像認識や物体検出用のデータセットをお探しですか?
お探しのデータセットが見つからない場合は、当社が既存のデータセットからご用意いたします。お気軽にご相談ください。