目次
多言語機械学習モデルの構築には多様なAI学習データの取得が不可欠ですが、形態学的に複雑な言語である韓国語などの場合は特にそうです。韓国語で十分な関連データを見つけるのは大変な作業なので、私たちは機械学習に役立つ韓国語の公開データセットを網羅したリストを作成しました。
ハングル(韓国語)のテキストデータセット
KAIST韓国語コーパス: リクエストに応じて利用可能な韓国語コーパスのコレクション
国立国語院コーパス: 8000万人が話す韓国語に関する頻度情報が含まれるデータセット。各語の頻度(コーパスに出現する回数)と他の見出し語に対する相対的なランクが提供されている。
81言語の感情語彙: 韓国語など81言語のポジティブおよびネガティブな感情語彙を含むデータセット。
韓国語ヘイトスピーチデータ: 韓国の急進的な女性優越主義コミュニティのウェブサイトWomadからヘイトスピーチコメントを収集。
古い新聞: 類似言語における言語識別タスク用に作成されたデータセット。様々な新聞、ブログ、ソーシャルメディアの投稿から収集した、韓国語など複数の言語の自然言語テキストが含まれる。
ハングル(韓国語)の対訳コーパス
1000件の対訳文: 韓国語、英語、日本語、スペイン語、インドネシア語の対訳文データ1000件が含まれる。韓国語の再頻出語を利用して作成した文を基にしている。
韓国語-英語対訳コーパス: 韓国語と英語の対訳文がトレーニング用700件とテスト用700件含まれる。ニュース記事、ショートストーリー、手紙、広告などから収集されており、トピックは広範囲にわたる。
ハングル(韓国語)の音声データセット
単一話者による韓国語音声データセット: 韓国語の音声合成タスク用に設計されたデータセット。プロの女性の声優が録音した音声ファイルとそれに対応するテキストを本から抽出して収録している。
Zeroth韓国語: 51.6時間分のトレーニングデータ(22,263回の発話、105人、3000個の文)と 1.2時間分のテストデータ(457回の発話、10人)が含まれるデータセット。
パンソリTEDxKR: 2010年から2014年までに韓国で開催された韓国語のTEDxトークから生成された韓国語音声認識(ASR)コーパス。 41人のスピーチ約3時間分とそれを文字起こししたものが含まれる。