目次

人口統計データは、重要な経済的意思決定の基盤として政府や社会をより良いものにする力を備えています。人口統計データを使用した機械学習モデルも同様に、政策立案者が移民や少子高齢化の問題の動向を把握して準備するのに役立ちます。

今回は、機械学習に使える人口統計データセットを11件紹介していきます。

人口統計データセット

アメリカ・ファクトファインダー: 米国勢調査局による人口、経済、地理、住宅についてのデータを検索できるサイト。
米国健康管理データ: 米食品医薬品局の薬剤データべースや米農務省の食品成分データベースから収集された公衆衛生、疾患、薬剤、医療保険などのデータ。
ニューヨーク市の人口調査データ: ニューヨーク市周辺地区の人口、人種・民族の人口統計情報、雇用と通勤の特徴。
DataFerrett: 米国の個人、企業、政府、組織の人口や健康、経済、地形、住居のデータを含む。
米国の女性・子供のための公的支援: 「WICプログラム」(Women, Infants, Children・女性、幼児、子供)を対象とする米国の公的支援。WICプログラムへの参画データと支出、2012〜2016年までのアメリカ各州の貧困データも含まれる。
シリコンバレーのダイバーシティデータ: シリコンバレーのテクノロジー企業23社の人種、性別、給与などの要素を含む人口統計データ。
世界の性別統計: 人口統計、教育、健康、経済的機会などのデータを含む最新の性別統計。
海岸地形の人口統計トレンド (1970〜2010年): 国勢調査ブロック群から得られた13の海岸地形についてのデータ。
全米学生ローン・データシステム (NSLDS): 援助の承認から支払い、返済、延期、滞納、終結に至るローンや助成金のプロセス全体の一元的・総合的な表示。
米国郵便番号データ: アメリカの州レベル、郵便番号レベルで個人所得税申告の詳細な集計を提供する調査結果。
人口統計 /r/ForeverAlone データセット: /r/ForeverAloneというRedditの掲示板会員の調査によって収集された人口統計データ。

人口統計データをお探しですか?

必要な人口統計データがまだ見つからない場合は、当社が作成いたします。100万人の認定アノテーター、データサイエンティスト、プロジェクト管理者がお客様の機械学習のために人口統計データを準備いたします。こちらからお問い合わせください

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中