目次
機械学習分野において最も重要なのは、高品質なデータを大量に収集することです。機械学習モデルの開発を成功させるためには、その分野に特化した構造化データを入手することが必要です。しかし、英語以外の言語に関する十分なデータを集めることは困難な場合があります。そこで、私たちTranSynkはお客様のお役に立てるよう、感情分析から音声データセットまで様々なAIユースケースをカバーする高品質のフランス語データセットをまとめました。
フランス語テキスト・データセット
REDAC: フランス語のウィキペディアから収集したデータセット。2億6200万語のフランス語のRAWテキストに品詞をタグ付けしたコーパス。
フランス語語彙プロジェクト: 38,840個のフランス語の単語と38,840個の擬似語に関する語彙判定データが含まれる。
Lexique: フランス語の単語142,000個に関する出現頻度、レマ(見出し語および変化形)、音素表記、音節などの情報を提供するデータベース。
Wackyコーパス: 最大20億個の英語、フランス語、ドイツ語、イタリア語の単語に品詞をタグ付けしたコーパス。
フランス語のRedditディスカッション: Redditの公開データセットから自発的な会話文を55万件以上も抽出して作成したフランス語会話コーパス。
フランス語のニュース記事: 10,000個のトップニュースサイトから収集したフランス語のニュース記事。245,308件の文書を含む。
フランス語のストップワード: フランス語のストップワードを収録した最も包括的なデータベース。JSON形式とテキスト形式に対応。
フランス語の対訳テキスト・データセット
第36回カナダ議会の対訳議事録: 英語とフランス語の対訳テキスト130万組が収録されている。
中国語・フランス語テキスト: 中国語のニュース放送から約30,000個の中国語の文字を収集し、フランス語に翻訳した対訳コーパス。
フランス語・アラビア語の新聞: アラビア語のニュース記事から10,000語を収集し、2種類のフランス語参考訳を付与したコーパス。
パシュト語・フランス語テキスト: 106時間分のパシュトー語の録音のトランスクリプションをフランス語に翻訳したコーパス。
欧州議会議事録の英語・フランス語機械翻訳データセット: 1996年から2011年までの欧州議会議事録から収集。21言語による200万件のトレーニング用文章と45,000件のテスト用文章から成るテキストコーパス。
ドイツ語・フランス語ウェブサイト対訳コーパス: ベルリンのドイツ外務省のウェブサイトから抽出したドイツ語とフランス語のテキスト。
スペイン語・フランス語ウェブサイト対訳コーパス: EUオープンデータポータルから収集。多言語ウェブサイトからクロールした二言語の対訳コーパス。
フランス語の感情分析データセット
アスペクトベース感情分析用フランス語データセット: フランス語のアスペクトベース感情分析システムの開発およびテストに利用できる457件のレストランレビューと162件の美術館レビューが含まれる。全てのデータは、固有表現やアスペクト、極性値がタグ付けされている。
81言語用の感情語彙集: フランス語を含む81言語のポジテイブおよびネガティブな感情語彙が含まれる。
フランス語音声データセット
カジュアルなフランス語を収録したナイメーヘンコーパス: 46人のフランス語話者とその友人との会話の高品質な録音を35時間分収録。文字起こしの専門家が正書法で注釈を付けている。
単一話者によるフランス語音声データセット: CSS10は単一話者による10言語用音声コレクション。 それぞれLibriVox(リブリヴォックス)から収集した単一話者による音声ファイルとそれに対応するテキストから成る。
Traitement de Corpus Oraux en Français (TCOF): フランス語音声124時間分のトランスクリプション500件以上が含まれる。7歳までの子供と大人との会話、そして大人同士の会話という2つの主なカテゴリーに分類されている。
VoxForge: オープンソースの音声認識エンジンで利用できるように、文字起こしされた音声を収録。フランス語テキストの口述録音37.5時間分が含まれる。
まだ必要なデータセットが見つかりませんか?必要なデータポイントが100件でも100万件でも、弊社の専門チームがお客様の機械学習アルゴリズムに役立つグラウンドトゥルースを準備いたします。
このまとめ記事を気に入ってくださった方は、ドイツ語コーパスやチャットボット学習用のデータセットもご覧くださいませ。