お問い合せ

ホーム » お役立ちブログ

【11個掲載】機械学習に使える中国語のデータセットまとめ

データセット

既存データから学習データに必要なだけ

多言語、多地域

様々な年齢、方言を含むデータ収集

テキスト、画像、音声、動画

様々なメディアタイプのコンテンツを収集

chinese-datasets

目次

中国語のテキストデータ
中国語の光学文字認識（OCR）と手書きデータ
中国語の翻訳（テキスト）データ
中国語の感情分析データ
中国語のOCRや翻訳テキストデータをお探しですか？

中国はAI技術への投資を増やし、いわゆる「第四次産業革命」の経済効果を利用してきました。実際、中国政府は、世界的なAI開発場として2030年までに1500億ドル規模のAI産業を構築するという目標を自ら掲げています。

そこで、私たちは中国のAI市場に関心をお持ちのお客様のお役に立てるよう、光学文字認識（OCR）から翻訳まで、様々な研究開発に使える中国語のデータセットをまとめました。

中国語のテキストデータ

中国語ツリーバンク: 中国語のニュースワイヤーや政府文書、雑誌の記事、様々なニュース放送から収集した約150万個の単語に統語構造の注釈が付与されている。
北京官話のニューステキスト: 人民日報や新華社ニュースワイヤー、中国国際放送から収集したニューステキスト。2億5000万個の中国語の文字が含まれる。
中国語のショートテキストの要約を含む大規模データセット: 200万件以上の実際の中国語のショートテキストと各テキストの著者による短い要約から成る。

中国語の光学文字認識（OCR）と手書きデータ

この記事では、機械学習において不可欠な「学習データセット」を取り上げます。保存版として、インターネットで公開されているオープンソースのデータセットをまとめてみました。

中国語の翻訳（テキスト）データ

中国語英語の電子メール: 電子メールから収集した中国語の文字15,000個（10,000語相当）と英語の参考訳が含まれる。
中国語-フランス語テキスト: 中国語のニュース放送から収集した約30,000個の中国語の文字のサブセットをフランス語に翻訳したもの。
GALEフェーズ1・中国語ブログ対訳テキスト: 277件の中国語のブログポストを英語に翻訳したデータセット。

中国語の感情分析データ

Ren-CECps: 1,500件のブログポスト（11,000個のパラグラフ、35,000個の文章）を収集し、文書のパラグラフや文章に感情をタグ付けしたデータセット。
マイクロブログPCU: 西安交通大学の研究者らが新浪微博（シンランウェイボー）から50,000件の投稿を収集して作成したデータセット。フォロー・フォロワー情報などのユーザーメタデータが含まれる。

中国語のOCRや翻訳テキストデータをお探しですか？

お探しの中国語データがまだ見つからない場合は、当社が既存パッケージデータをご提供いたします。

アラビア語音声コーパス

arabic-speech-dataset

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

・・・全文を読む

無料

機械学習用
音声コーパス

・・・リストを見る

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

料金・価格、データサンプル等のお問合わせ

既存データセット、データ収集作業、アノテーション作業の価格や作業内容についての
お問い合わせはこちらからご連絡ください。

Logo_TranSynk_White_RGB

東京都中央区銀座一丁目22番11号

[email protected]

お問合わせフォーム

03-6697-4400

© 2021 - 2025TranSynk, Inc. • All Rights Reserved

お見積もりやデータのご相談はこちらまで

03-6697-4400

[email protected]

お問い合わせ

お知らせ： TranSynkはCookieを使用して、必要なWebサイト機能を提供し、ウェブ体験を向上させるため、トラフィックを分析しています。当社のWebサイトを使用すると、利用規約、プライバシーポリシーおよびCookie ポリシーに同意したものとします。設定 Yes

エッセンシャルクッキー

エッセンシャルクッキーは Web サイトのエクスペリエンスに不可欠であり、ユーザーログイン、アカウント管理、ショッピングカート、支払い処理などの主要な機能を有効にします。当社は、Web サイト上の特定の機能を有効にするために必須 Cookie を使用します。