目次
中国はAI技術への投資を増やし、いわゆる「第四次産業革命」の経済効果を利用してきました。実際、中国政府は、世界的なAI開発場として2030年までに1500億ドル規模のAI産業を構築するという目標を自ら掲げています。
そこで、私たちは中国のAI市場に関心をお持ちのお客様のお役に立てるよう、光学文字認識(OCR)から翻訳まで、様々な研究開発に使える中国語のデータセットをまとめました。
中国語のテキストデータ
- 中国語ツリーバンク: 中国語のニュースワイヤーや政府文書、雑誌の記事、様々なニュース放送から収集した約150万個の単語に統語構造の注釈が付与されている。
- 北京官話のニューステキスト: 人民日報や新華社ニュースワイヤー、中国国際放送から収集したニューステキスト。2億5000万個の中国語の文字が含まれる。
- 中国語のショートテキストの要約を含む大規模データセット: 200万件以上の実際の中国語のショートテキストと各テキストの著者による短い要約から成る。
中国語の光学文字認識(OCR)と手書きデータ
この記事では、機械学習において不可欠な「学習データセット」を取り上げます。保存版として、インターネットで公開されているオープンソースのデータセットをまとめてみました。
中国語の翻訳(テキスト)データ
- 中国語英語の電子メール: 電子メールから収集した中国語の文字15,000個(10,000語相当)と英語の参考訳が含まれる。
- 中国語-フランス語テキスト: 中国語のニュース放送から収集した約30,000個の中国語の文字のサブセットをフランス語に翻訳したもの。
- GALEフェーズ1・中国語ブログ対訳テキスト: 277件の中国語のブログポストを英語に翻訳したデータセット。
中国語の感情分析データ
- Ren-CECps: 1,500件のブログポスト(11,000個のパラグラフ、35,000個の文章)を収集し、文書のパラグラフや文章に感情をタグ付けしたデータセット。
- マイクロブログPCU: 西安交通大学の研究者らが新浪微博(シンランウェイボー)から50,000件の投稿を収集して作成したデータセット。フォロー・フォロワー情報などのユーザーメタデータが含まれる。
中国語のOCRや翻訳テキストデータをお探しですか?
お探しの中国語データがまだ見つからない場合は、当社が既存パッケージデータをご提供いたします。