目次

高品質のデータをどのように取得すればよいかは、データサイエンティストや機械学習の開発者があらゆるプロジェクトで直面する課題です。この記事に掲載したリストのデータセットには、既にバウンディングボックスが付与された画像・映像のデータが含まれています。アノテーターを選択して雇用し、トレーニングを行うのは時間も費用もかかります。プロジェクトの規模や範囲によっては、オープンデータから学習データを取得することが可能な場合があります。アノーテーション付きの画像・映像データをお探しの場合、バウンディングボックス付き画像・動画が含まれる以下のデータセットを是非参考にしてください。

バウンディングボックスとは?

バウンディングボックスとは、画像に写っている物体を囲う四角い箱(矩形)のことで、X座標とY座標によって定義されます。

さらに、画像処理に必要なバウンディングボックス・アノテーションとは、画像の中に指定の物体を囲む作業です。この作業は様々なカスタムAIプラットフォーム上で行うことができます。コンピュータビジョンや物体検出において、バウンディングボックスが一般的なアノテーション方法です。特殊な条件を持つAIプロジェクトのニーズに合わせ、既存のAIプラットフォームに新機能を追加することができるベンダーも中にはあります。

例えば、自動運転AIを開発するためにもバウンディングボックスが活用されます。アノテーターは走行中の映像フレームに写っている自動車、歩行者、信号などの物体をバウンディングボックスで囲います。その際に移動、変換、回転、拡大縮小などの操作を行って、各画像が正確に囲まれるようにします。開発者はバウンディングボックス付きの画像使い、自動運転AIが対向車や歩行者に衝突しないように学習させます。

バウンディングボックス付きの画像・映像データセット

以下のデータセットの画像や動画には、単一物体にアノーテーションを付けたものや同じ画像または動画の静止画像内の複数の物体にアノーテーションを付けたものが含まれています。データセットは動物、医療、車両、その他のカテゴリーに分類されています。

バウンディングボックス付きの動物の画像・映像データセット

猫と犬の品種: 英国・インド研究教育イニシアチブの資金提供により作成されたバウンディングボックス付き画像データセット。37品種の猫と犬の画像から構成される。各クラスに約200件の画像が含まれ、全ての画像に種族や品種がタグ付けされ、動物の頭を囲むバウンディングボックス、画像の前景と背景のピクセルレベルのセグメンテーションが付与されている。

海生動物の動画データセット: オールボー大学によるデータセットで、89本の動画が含まれる。魚、小魚、カニ、エビ、クラゲ、ヒトデの六つのカテゴリーの海生生物にバウンディングボックスが付与されている。

スタンフォード犬のデータセット: 120種類の犬の画像20,000件以上から構成される。品種のラベルとバウンディングボックスが付与されている。

バウンディングボックス付きの顔・人物の画像データセット

画像における顔認識: 500件以上の画像を含むオープンソースの顔画像データセット。1000個以上の顔に手作業でバウンディングボックスが付与されている。

年齢、感情、民族をラベル付けした顔画像データセット: 様々な角度から撮影した複数の人物の全身画像、一部分を撮影した画像、顔画像をトータルで1800件以上を含むバウンディングボックス付き画像データセット。一部の画像にはバウンディングボックスと年齢、民族、性別、感情のアノーテーションが付けられている。

CelebFaces属性: 200,000件以上の有名人の顔画像を含む機械学習用のバウンディングボックス付き画像データセット。バウンディングボックスやランドマーク、属性のアノーテーションが綿密に付与されている。

バウンディングボックス付きの医療画像データセット

棒状突起スパイン: 研究者マイケル・スミルノフによる医療画像データセット。視覚皮質、プルキンエ、海馬細胞の棒状突起スパインの画像全てにバウンディングボックスが付与されている。

NIH胸部レントゲン: 米国国立保健研究所による大規模な医療画像データセットで、112,000件以上の胸部レントゲン画像が含まれる。30,000人以上の患者から集められた画像は、患部を囲むバウンディングボックスが付与され、疾患に基づいて分類されている。

NIH DeepLesion: これも米国国立保健研究所によるバウンディングボックス付き医療画像データセット。4,427人の患者に行った10,000件以上のCTスキャンから32,000個以上のCTスライスを収集。各画像には一つから三つの患部が含まれ、患部を囲むようにバウンディングボックスが描かれている。

NIH DeepLesionによるバウンディングボックスが付与されたサンプル画像

マラリア細胞: Broad Instituteによる医療画像データセット。約80,000個の細胞を含む1,364件の画像から構成される。二つのクラスから成る非感染細胞(赤血球と白血球)と四つのクラスから成る感染細胞(ガメトサイト、リング、トロホゾイド、シゾント)が含まれる。各細胞にはバウンディングボックス座標とクラスを記載したラベルが付与されている。

バウンディングボックス付きの車両のデータセット

KITTI車両及び歩行者の検出: KITTI Vision Benchmark Suiteによる物体検出データセットで、7,400件以上の学習用画像から構成される。歩行者と車両が含まれる画像には、手作業で3Dバウンディングボックスが付与されている。

インドのナンバープレート検出: インドの353台の車両の画像が含まれるデータセット。画像229件にはナンバープレートを囲むようにバウンディングボックスが付与されている。

LISA信号機データセット: カリフォルニア州サンディエゴで走行中に撮影した23分間以上の動画から全部で43,000件以上の静止画像を収集。静止画像内の113,888個の信号機にバウンディングボックスが付与されている。

その他、バウンディングボックス付きの画像・映像データセット

電子商取引のアクセサリー及び衣料品: 電子商取引サイトから900件以上の衣料品やアクセサリーの画像を収集したバウンディングボックス付きデータセット。504個のアイテムに手作業でクラス(ジャケット、ジーンズ、シャツ、靴、スカート、サングラス、トップス、ズボン、Tシャツ)がラベル付けされている。

Google Open Images データセットV5: このリストの中で圧倒的に規模の大きいデータセットであり、おそらく既存のアノーテーション付き画像データセットの中で最大のものの一つ。Googleがクラウドソーシングを活用して収集した画像478,000件以上から構成される。画像には、バウンディングボックス、インスタンスセグメンテーション、画像レベルのラベル、リレーションシップのアノーテーションが付与されている。被写体が6,000以上のカテゴリーに及ぶため、このデータセットを一つのカテゴリーに分類するのは不可能である。データセットは画像のカテゴリーやアノーテーションの種類に基づいて探索可能。

漫画109キャラクターの顔と日本語テキスト: 東京大学の相澤・山崎研究所が109冊の漫画を集めて作成したデータセット。109冊の漫画の全てのページにキャラクターの顔と日本語テキストを囲むバウンディングボックスが付与されている。バウンディングボックス顔画像データセットとしても日本語検出データセットとしても活用できる。

複数の顕著なオブジェクト: 1200件以上の画像から成るオープンデータセット。各画像には、画像内の顕著な物体の数がラベル付けされ、バウンディングボックス情報が含まれる。

PASCALビジュアルオブジェクトクラス: 2012年のPASCALビジュアルオブジェクトクラスのチャレンジ用に作成されたバウンディングボックス付き画像データセット。各画像にターゲット・クラス・オブジェクトを囲むバウンディングボックスが付与されている。オブジェクトクラスには、人物、鳥、猫、牛、犬、馬、羊、飛行機、自転車、船、バス、車、オートバイ、列車、ボトル、椅子、ダイニングテーブル、鉢植えの植物、ソファ、テレビ/モニターなどがある。

ストリートビュー住居番号: 物体認識アルゴリズムの開発のために、実際の住居番号を撮影した画像を集めて作成したデータセット。Googleストリートビューから取得した600,000件以上の画像に、住居番号を囲むバウンディングボックスが付与されている。

YouTubeバウンディングボックス: このリストの中で最大のデータセットの一つである大規模なバウンディングボックス付き動画データセット。240,000本の動画全てに、23種類の物体を囲む560万個のバウンディングボックスが手作業で付与されている。Googleはこのデータセットで95%のアノテーション精度を誇っている。

バウンディングボックス付きの画像データセットをお探しですか?

当社はバウンディングボックスのようなアノテーション付きの画像・映像データセットを提供いたします。ここでご紹介したようなデータセットとは異なる分野や大量のデータセットがご必要でしたら、お問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中