目次

これまでも、感情分析を利用して株式市場の動向を予想する研究が行われてきました。高精度な株価予測モデルを目指している方のために、この記事では、機械学習で株価予測を行うために使えるデータセットを10個まとめました。

機械学習による株価予測のデータセット

  1. 過去の株式市場データセット: ナスダック証券取引所(NASDAQ)、ニューヨーク証券取引所(NYSE)、そして旧アメリカン証券取引所(NYSE MKT)で取引された米国株式とETFの過去の毎日の価格と出来高の情報が含まれる。最終更新日は2017年11月10日、ファイルは全てCSV形式。
  2. イスタンブール証券取引所: imkb.gov.trとYahoo!ファイナンスから取得したデータを利用して予測アルゴリズムをテストするために作成されたデータセット。イスタンブール証券取引所ナショナル100種指数、S&P 500、MSCIからの情報のほか、ブラジル、ドイツ、日本、イギリスの株式市場のリターン・インデックスが含まれる。
  3. ニュースと株式データ: 元々、二項分類のタスクに利用することを想定し、ディープラーニングと神経言語プログラミング(NLP)の学習コースのために準備されたデータセット。2008年6月8日から2016年7月1日までRedditのサブレディットr/worldnewsから取得した過去のニュースの見出しと2008年8月8日から2016年7月1日までのダウ平均株価が含まれる。
  4. 高水準から見た株式市場: ダウ平均株価、NASDAQ、S&P500など過去の株式市場データから構成されるデータセット。CSV形式で1977年から2017年までのデータが含まれる。
  5. 株式市場の売買回転率: セントルイス連邦準備銀行からの情報を基にしたデータセット。特定期間に取引された株式の出来高と同期間の平均時価総額に関するデータが含まれる。
  6. ユニクロ株価予測: 本リストの上記の項目は一般的な株式市場に関するデータセットだが、このデータセットはユニクロという単一の企業だけに焦点を当てている。ユニクロは創業50年以上になる日本最大の衣料品小売業者の一つ。データセットには2012年から2016年までのユニクロの株式情報に関するデータが含まれる。

各国通貨および仮想通貨データセット

  1. CoinMarketCapデータセット: 仮想通貨の世界的な台頭と共に、それに投資しようとする人が増えていることに応じて、数千種類の仮想通貨に関する情報を提供する市場分析ウェブサイト。CoinMarketCapから取得した情報が日付、通貨記号、始値、高値、安値、終値、出来高、時価総額の列にまとめられている。
  2. 各国通貨の為替レート: 国際通貨基金に報告される毎日の各国通貨の為替レートに関する情報から成る。1995年1月1日から2018年11月4日までの51種類の通貨に関する情報が含まれている。
  3. 全仮想通貨の毎日の価格: 市場で取引される全ての仮想通貨に関する過去の価格データを集めた大規模なデータセット。2013年4月28日から2018年11月30日までの通貨名、日付、ランクのほか、それぞれの日の終値と安値の差を高値と安値の差で割った値や高値と安値の差などの情報が含まれる
  4. 無料外国為替データ: Histdata.comから取得したデータセットで、複数の通貨の為替レートに関するデータを無料で提供。データは一般的なASCII、MetaStock、MetaTrader、Microsoft Excel、Ninja Traderのアプリケーション/プラットフォームで利用可能。

以前の仮想通貨データセットのまとめ記事は、こちらからご覧ください

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中