目次
多言語の機械学習モデルを構築する際に最も困難なことの一つは、十分な関連データを収集することです。そこで、私たちはお客様のお役に立てるよう、 感情分析から対訳コーパスまで、様々なユースケースをカバーする機械学習用スペイン語データセットをまとめました。これが気に入ったら、是非機械学習に使える他のデータセットもご覧ください。
スペイン語テキスト・データセット
スペイン語コーパス: 1200年代から1900年代にわたる二万件以上のスペイン語テキストから約一億語を集めたコーパス。
MASコーパス(マーケット分析用スペイン語コーパス): Twitterに投稿されたスペイン語テキストに、マーケティングで利用できるよう手動でタグ付けしたもの。各ツイートには、それぞれのテキストの三つの異なる要素を説明したタグが付けられている。
一億二千万語を収録したスペイン語コーパス: 2010年にスペイン語ウィキペディアから収集した現代スペイン語の単語を一億二千万語含む中規模コーパス。
テレビニュースアーカイブ: 米国のテレビネットワークから四年分以上のニュースプログラムを収集したデータセット。705,000件以上の検索可能な字幕付きニュースプログラムが含まれる。
写真用スペイン語規範: スペイン語を母語とする百人以上が習得年齢や操作性、馴染みがあるかなどのデータを提供し、オブジェクトの名前を判断した140件のカラー画像。
ノイズによって生じたスペイン語の誤解・混乱を収録したコーパス: スペイン語における3,235件の誤解を収録したコーパス。15人の聞き手のうち6人以上から同じ反応が報告された場合に、誤解が生じたとしてコーパスに収録されている。
19言語のストップワードリスト:スペイン語など19言語の自然言語処理の際に通常、取り除かれる高頻度語のリスト。
スペイン語用学習済み単語ベクトル: Spanish Billion Words Corpus(スペイン語10億語コーパス)で学習させた300次元のスペイン語の単語ベクトルを100万件以上収録。
スペイン語翻訳 & 対訳テキストデータセット
1000件の対訳文章: 韓国語の頻出語1000個を含む文章の英語、日本語、スペイン語、インドネシア語の対訳を収録。文章は全て各言語を母語とする人によって翻訳されている。
カタロニア語-スペイン語: カタロニア政府官報からカタロニア語とスペイン語の文書を収集。
EUオープンデータポータル: EU(欧州連合)のオープンデータにアクセス可能。多言語ウェブサイトからクロールされたスペイン語テキストの対訳コーパスのいくつかは次の通り。
スペイン語感情分析データセット
SABコーパス(ブランドに関する感情分析用スペイン語コーパス):ブランドに関する感情分析をタグ付けしたスペイン語ツイートのコーパス。
TASSデータセット:感情分析関連のタスクのためにタグ付けされたスペイン語テキストのコーパス。長年にわたる異なるエディションで提案された様々なタスクに利用できるように作成されたいくつかのサブセットに分かれている。
81言語の感情語彙:スペイン語など81言語のポジティブおよびネガティブな感情語彙を含むデータセット。
スペイン語音声データセット
単一話者によるスペイン語音声データセット: 10言語で利用できる単一話者による音声データセット。各データセットは、 LibriVox(リブリヴォックス)から収集した単一話者による音声録音ファイルとそれに対応するテキストから成る。
BACKBONEビデオ録音されたインタビューの教科書コーパス: ウェブベースの教科書コーパス。英語、フランス語、ドイツ語、ポーランド語、スペイン語、トルコ語を母語とする話者および英語を母語としない話者のインタビューのビデオ録音を収録。
ハンブルク大学アルゼンチンスペイン語コーパス(HaCASpa): アルゼンチンスペイン語の音声を19時間分収録。自発的な話し言葉や朗読タスクを含む。
二か国語コンテキストにおけるカタロニア語 (PhonCAT): 2006年7月から2011年6月までの間に収集された144時間分のカタロニア語の音声データ。バルセロナのカタロニア人話者による誘発された話し言葉や自発的な話し言葉を集めたもの。話者の年齢やバルセロナにおける居住地域に基づいてタグ付けされている。
スペイン語データセットをお探しですか?
トランシンクは多言語データセットを多く有しています。サンプルデータ、お見積りについてはご遠慮なく、お問い合わせください。