目次
機械学習における画像分類とは?
画像分類とは、機械学習やディープラーニングモデルで、画像を何らかの主題に基づき分類する処理方法のことを示します。いくつかの分類手法があります。教師あり学習では、ラベル付けされたデータセットを用いて、モデルを学習させていきます。教師なし学習では、事前のラベル付けはせず、画像データが持つ特徴量の分布に基づいて、複数のクラスに画像を分類します。シーン認識や物体検出アルゴリズムなどの構築をお手伝いするため、画像分類に使えるオープンデータセットのリストをまとめました。それぞれ領域や規模が異なるので、様々な場面で活用できます。データセットは、医用画像、農業およびシーン認識、その他に分類されています。
医用の画像分類データセット
- リカージョン細胞画像分類: リカージョンの2019年のチャレンジからのデータ。このコンペティションの目的は、生物顕微鏡データを利用して、複製を識別するモデルを開発することである。本コンペティションの詳細はこちらをご覧ください。
- TensorFlow patch_camelyon医用画像: TensorFlowウェブサイトから取得したデータセット。96 x 96ピクセルのカラー画像327,000枚強が含まれる。転移性組織を含むリンパ節の病理組織学的スキャン画像。
農業およびシーン認識の画像分類データセット
- CoastSat画像分類データセット: オープンソースの海岸線マッピングツールに利用されるデータセット。衛星画像にメタデータが付与されている。
- 天気認識用画像: マルチクラスの天気認識に利用されるデータセット。収集された1125枚の画像が日の出、晴れ、曇り、雨の四つのカテゴリーに分類されている。
- 屋内シーン認識: MIT(マサチューセッツ工科大学)からのデータセットで、15,000枚以上の屋内画像が含まれる。元々、屋内シーン認識の問題に取り組むために構築され、全ての画像はJPEG形式で67個のカテゴリーに分類されている。それぞれのカテゴリーに含まれる画像の数は異なるが、各カテゴリーに100枚以上の画像が含まれる。
- インテル画像分類: 画像分類コンテスト用にインテルが作成した大規模なデータセットで、約25,000枚の画像が含まれる。画像は、建物、森林、氷河、山、海、通りのカテゴリーに分類され、トレーニング用、テスト用、予測用のフォルダーに分けられている。トレーニング用フォルダーには約14,000枚、テスト用フォルダーには約3,000枚、予測用フォルダーには約7,000枚の画像が含まれる。
- TensorFlow Sun397画像分類データセット: これもTensorflowからのデータセットで、シーン理解(SUN)ベンチマークで利用される108,000枚以上の画像から構成される。397個のカテゴリーに分類されているが、それぞれのカテゴリーに含まれる画像の数は異なる。しかし、様々なシーンおよびオブジェクトのカテゴリーのそれぞれに100枚以上の画像が含まれる。
他の画像分類データセット
- 建築遺産の要素: 文化遺産の建築画像を分類できるモデルを構築するために作成されたデータセット。10,000枚以上の画像が10個のカテゴリーに分類されている。カテゴリーは、祭壇、アプス(後陣)、鐘楼、柱、ドーム(内側)、ドーム(外側)、フライング・バットレス、ガーゴイル、ステンドグラス、円天井。
- 画像分類、人と食事: 食事をしている人々の画像がCSV形式で保存されている。画像は性別と年齢で分類されている。587列のデータが含まれ、各画像にはURLへのハイパーリンクが設定されている。
- 分類用コンクリートの亀裂画像: Mendeleyからのデータセットで、40,000枚のコンクリートの画像が含まれる。各画像とも227 x 227ピクセルで、画像の半分は亀裂のあるコンクリート、残りの半分は亀裂のないもの。
TranSynkの画像分類サービス
上記のデータセットがプロジェクトに必要な学習データの取得にお役に立てれば幸いです。より専門的な学習データが必要な場合は、当社がお客様の要件に合わせた既存のデータセットからご案内またはカスタムプロジェクトとして、画像データセットの作成やアノテーションをお手伝いいたします。当社の画像分類サービスについては、お気軽にお問い合わせください。