目次

中国はAI技術への投資を増やし、いわゆる「第四次産業革命」の経済効果を利用してきました。実際、中国政府は、世界的なAI開発場として2030年までに1500億ドル規模のAI産業を構築するという目標を自ら掲げています。

そこで、私たちは中国のAI市場に関心をお持ちのお客様のお役に立てるよう、光学文字認識(OCR)から翻訳まで、様々な研究開発に使える中国語のデータセットをまとめました。

中国語のテキストデータ

中国語の光学文字認識(OCR)と手書きデータ

この記事では、機械学習において不可欠な「学習データセット」を取り上げます。保存版として、インターネットで公開されているオープンソースのデータセットをまとめてみました。

中国語の翻訳(テキスト)データ

中国語の感情分析データ

  • Ren-CECps: 1,500件のブログポスト(11,000個のパラグラフ、35,000個の文章)を収集し、文書のパラグラフや文章に感情をタグ付けしたデータセット。
  • マイクロブログPCU: 西安交通大学の研究者らが新浪微博(シンランウェイボー)から50,000件の投稿を収集して作成したデータセット。フォロー・フォロワー情報などのユーザーメタデータが含まれる。

中国語のOCRや翻訳テキストデータをお探しですか?

お探しの中国語データがまだ見つからない場合は、当社が既存パッケージデータをご提供いたします。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中