目次

今回のデータセットまとめ記事では、アニメ、漫画、ゲームAIのデータセットを25件集めました。リスト上のデータセットのほとんどは公開されており、無料で利用できます。

以下のデータセットには、テキストと画像データの両方が含まれていて、注釈付きの画像を含むものもあります。これらのデータセットのほとんどは無料ですが、非営利目的の研究のためだけに厳密に使用を制限されているものもあります。ダウンロードする前に、各データセットの利用規約を必ずお読みください。

機械学習向けアニメデータ

アニメデータ: アニメニューズネットワークから4029個のアニメの情報を収集して作成した五つのCSVファイルから成る。ファイルはアニメのタイトル、大要、ジャンル、スタッフ、スコアというようにコンテンツによって分類されている。

アニメの顔: getchu.comから収集したアニメのキャラクターの顔の画像21,000件以上を含むシンプルなアニメ画像のデータセット。画像は切り抜いてから全て64×64ピクセルにサイズ変更されている。

おすすめアニメデータベース: 12,000個のアニメのレイティングや73,000人以上のユーザーのユーザーデータから成る。

Between Our Worlds: アニメ・オントロジー: 390,000件以上のアニメタイトルを含むデータセット。Linked open data(リンクト・オープン・データ)から構成され、CSVファイルとN-Triplesファイルが含まれる。

MyAnimeListデータセット: おすすめアニメデータベースと同様、myanimelist.comから情報を収集している。しかし、302,000人以上のユーザーのデモグラフィックデータやアニメのレイティングなど、より詳細な情報が含まれる。

Safebooruアニメ画像メタデータ: このデータセットのアニメ画像は全て、露骨なコンテンツを禁止しているSafebooruウェブサイトから収集されているため、職場でも閲覧可能。190万行のメタデータを含む大規模なデータセット。

タグ付けされたアニメのイラスト: タグ付けされた日本のアニメのアートワークが大量に含まれるデータセット。このデータセットの画像は職場で閲覧可能とタグ付けされているが、画像を取得したウェブサイトは露骨な画像をフィルターで除外していないので、それらがいくつかデータセットに紛れ込んでいる可能性もある。アニメキャラクターのイラストから切り抜いた顔の画像が含まれる。

機械学習向け漫画データ

コミックスの画像: コミックスのRGB画像を52,000件以上含むデータセット。顔認識モデルや分類などの利用に適している。

MyAnimeList漫画レイティング: 漫画のタイトルと漫画原作アニメのタイトルを集めたシンプルな漫画のデータセット。漫画および漫画原作アニメ両方の評価が含まれる。

Manga109: 東京大学の相澤・山崎研究室がまとめたデータセット。109冊の異なる漫画の全てのページが収録され、注釈が付与されている。Manga109は漫画の作者から利用許諾を得ているが、データセットや注釈はどちらも電子メールで要求する必要があり、非営利使用に限られる。

ゲームAIのデータセット

Vandalから収集したビデオゲームのレビュー12,000件: スペイン語のビデオゲームサイトVandal.comから収集したデータセットで、スペイン語のデータセットとしても利用可能。ビデオゲーム制作情報、ユーザーのレイティング、ユーザーレビューの短いプレビューがスペイン語で収録されている。

JVCから収集したビデオゲームのレビュー17,000件: フランス語のビデオゲームサイトjeuxvideo.comから収集したレビューとビデオゲーム情報から成るデータセットで、フランス語のデータセットとしても利用可能。ゲーム情報やユーザーのレイティング、ユーザーレビューが全てフランス語で収録されている。

変化検出のための航空写真:『Virtual Battle Station 2』ゲームから画像を収集して作成したビデオゲームのデータセット。建物や道路、自然や天気などの大小様々な相違を含む、同じ地域の航空写真から構成されている。

App Storeにおけるクラッシュ・オブ・クランに関するコメント: 50,000件のユーザーコメントから成り、感情分析モデルに利用できるビデオゲームのデータセット。コメントはitunes App StoreとGoogle Playの両方から収集され、コメントテキストとゲームに対するユーザーレイティングが含まれる。

Dota 2ゲームチャット: ほぼ100万件の公開マッチのチャットログをフィルターせずに収集。侮辱的な表現や下品な言葉遣い、人種差別的なメッセージが多く含まれる。チャットボットやコンテンツモデレーション/フィルタリングアルゴリズムに利用可能。テキストには略語やゲーム固有の用語も多く含まれているので注意が必要。

ラベル付けされたビデオゲーム内の運転: ゲーム内の運転から得られた交通の画像が2500件含まれる。2500件の画像は全て、オリジナルのものと意味的にセグメント化されたバージョンの両方から構成されている。

Metacriticビデオゲームのコメント: 感情分析に利用できる興味深いデータセット。5000個のビデオゲームの情報と3420個のゲームのレビュースコアおよびレビューコメントが含まれる。

ポケモン画像: 任天堂の人気ゲーム『ポケットモンスター』の第一世代から第七世代までの809匹のポケモンの画像を含む小規模でシンプルなデータセット。

ポケットモンスター・サンムーン(第七世代)ステータス:『ポケットモンスター・サンムーン』ゲームのポケモン807匹全ての情報が含まれる。各ポケモンの名前と攻撃やステータスなどの情報、さらにこのゲームの全アイテムとその説明が収録されている。

PubG(PlayerUnknown’s Battlegrounds)マッチ死亡者数: 人気のオンラインゲーム『PlayerUnknown’s Battlegrounds』からマッチステータスを徹底的に集めたもの。720,000件のマッチから集めたプレイヤー死亡数、kill数、移動距離、位置データなどの情報が含まれる。

Steamユーザーの行動: ユーザーID、ゲームのタイトル、購入情報、プレイ時間など、Steamユーザーのビデオゲームデータを収録。

任天堂のE3 2018カンファレンス中のツイート: 任天堂のE3 2018カンファレンス中のツイートから成るJSONファイル。 #NintendoE3 や #NintendoDirectなどのハッシュタグが含まれるツイートを収集。

ビデオゲームの販売: 販売本数100,000本以上のビデオゲームのデータをvgchartz.comから収集したデータセット。各ゲームの販売ランキング、タイトル、プラットフォーム、リリース年、ジャンル、パブリッシャー、北米での販売本数、欧州での販売本数、日本での販売本数、その他地域での販売本数、世界累計販売本数の情報が含まれている。

ビデオゲームの販売とレイティング: ビデオゲームのレイティングサイトMetacriticから収集したデータセット。Metacriticスタッフによる批評家スコア、批評家数、ユーザースコア、ユーザー数、デベロッパー、エンターテインメントソフトウェアレイティング委員会のレイティングなどの情報が含まれる。

アニメや漫画データをお探しですか?

必要なアニメや漫画データがまだ見つからない場合は、お客様の機械学習のためにアニメや漫画データを準備いたします。ご遠慮なくお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中