【11個掲載】機械学習に使える映画データセットまとめ

本記事では、映画データセットを11件まとめました。映画のデータセットを利用すると、基本的な機械学習の概念を習得できるので、統計的学習の見地から役立ちます。

以下の映画データセットの多くには、キャストやクルーメンバー、スクリプト、上映時間、レビューなどのデータポイントが含まれ、自然言語処理やレコメンドエンジン構築などの機械学習プロジェクトに利用できます。

OMDb API: 映画情報を取得するためのウェブサービス。常に更新され、最新の映画が含まれるクラウドソースの映画データベース。

MovieLens 2000万件データセット: 138,000人のユーザーによる27,000本の映画に関する2,000万件の評価と465,000件のタグ付けが含まれている。

Movie Dataset（映画データセット）: 多くの歴史映画やマイナーな映画、カルト映画を含む10,000本以上の映画から構成される。俳優、キャスト、監督、プロデューサー、スタジオといった情報が含まれる。

コーネル映画の会話コーパス: 映画の登場人物のペア10,292組の間の会話 220,579件が含まれるコーパス。

The Movie Dataset（映画データセット）: 2017年7月以前に公開された映画45,000本のメタデータ。キャスト、クルー、プロットキーワード、予算、興行収入、ポスター、公開日、言語、制作会社、国、TMDBにおける投票数と投票の平均などのデータポイントが含まれる。

32000本の映画の字幕に関する言語データ（IMBDbメタデータ付き）: 32,000本以上の映画に関するメタデータが含まれ、メタデータは字幕ファイルの単語数カテゴリーに一致させている。

フランス国立映画センターデータセット: フランス映画に関するデータセット。ボックスオフィスデータも含まれる。

映画産業: 6820本の映画（1986年から2016年までの映画を毎年220本分収録）が含まれる。それぞれ予算、企業、国、監督、ジャンル、興行収入、評価、公開日、上映時間、IMDbユーザーの評価、主演俳優といったデータポイントが含まれる。

映画の中の猫: 映画に登場するあらゆる猫を追跡したデータセット。監督、プロデューサー、公開日で映画を検索可能。

映画における死者数: アクション映画やSF映画、戦争映画における殺害人数、死者数などをまとめたデータセット。

インドの映画館: 各映画館のスクリーンサイズや収容人数、チケットの平均価格、位置座標が含まれるデータセット。

お探しの映画データセットが見つからない場合は、当社が作成いたします。大規模なAIプロジェクトも迅速且つ正確に仕上げます。当社がお手伝いできることについて、ご相談や無料トライアルは以下からお問い合わせください。

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料

機械学習用
音声コーパス

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

03-6697-4400