目次

ユーザーからの問い合わせに人間が関与することなく迅速に対応できる優れたチャットボットをを開発するには、大量のデータが必要です。ところが、チャットボットを開発する際に大きな障害となるのが、複雑なシステムを学習させるためのタスク指向で現実的な対話データを入手することなのです。

当社はチャットボットを学習させるために最適な会話データセットの究極のリストを作成し、質問応答データ、顧客サポートデータ、対話データ、多言語データに分類しました。

質問応答データセット

質問応答データセット: 学術研究用に作成されたコーパス。ウィキペディアの記事と、そこから手動で作成したファクトイド型質問、それに対する手動で作成した答えから成る。

Wiki QA: オープンドメインの質問応答に関する研究用に収集され、アノテーションされた質問と文章のペアで、公開されている。本物の情報を求める一般ユーザーのニーズを反映し、質問のソースにはBingのクエリのログを使用。各質問は、答えを含む可能性のあるウィキペディアのページにリンクされている。

Yahoo言語データ: Yahoo知恵袋(英語版)から手作業で収集した質問応答データセット。

TREC QAコレクション: 1999年から存在する質問応答トラック。各トラックにおいて、オープンドメインでクローズドクラスの質問の回答を含む短いテキストをシステムが取得するよう、タスクが定義されている。

顧客サポートデータセット

Ubuntu対話コーパス: Ubuntuの様々な問題に関するテクニカルサポートで使用されたUbuntuのチャットログから抽出した約100万の対話から成る。全データセットには93万の対話と1億語を超える単語が含まれている。

顧客サービスデータセットにおける関係戦略: 4つのソースから収集した旅行業界の顧客サービスデータ。2016年8月のTripAdvisor.comにおける3つの商用顧客サービスIVA(インテリジェント仮想アシスタント)と航空会社のフォーラムの会話ログ。

ツイッターの顧客サポート: Kaggleにあるデータセットで、ツイッター上のブランド大手の300万を超えるツイートと返信から成る。

対話データセット

IRCチャットログ: 自動生成されたIRCチャットログで、2004年まで遡って毎日RDFで入手可能。タイムスタンプとニックネームが含まれている。

コーネル映画対話コーパス: 映画の脚本から抽出した、メタデータが豊富に含まれる大量の架空の会話から成るコーパス。617本の映画の登場人物9035人によるやり取りで、10,292組の登場人物が交わした220,579の会話。

ConvAI2: クラウドソーシングプラットフォームYandex Tolokaを通して採用された人間のエバリュエーターが、チームが提出したボットとチャットしたPersonaChatタスクにおける2000を超える対話から成る。

口語米語サンタバーバラ: 約249,000語のトランスクリプションと音声、イントネーション単位におけるタイムスタンプから成る。

NPSチャット・コーパス: 様々なオンラインチャットサービスの利用規約に従って収集した約50万の投稿の内、10,567の投稿から成るコーパス。

Maluuba目標指向型対話: フライトとホテルを見つけることに関して、タスクを達成したり決断を下したりすることを目的にした会話のオープンな対話データセット。250以上のホテルとフライト、目的地を巡って複雑な会話が交わされ、決断が下されている。

多言語チャットボットデータセット

NUSコーパス: SNUS英語SMSコーパスから2,000のメッセージをランダムに選んだ後、フォーマルな中国語に翻訳することによって構築されている。

EXCITEMENTデータセット: 英語とイタリア語で提供されているデータセットで、顧客からのネガティブなフィードバックから成る。顧客が企業に不満を抱いた理由が述べられている。

チャットボット向け対話データセットをお探しですか?

お探しのデータセットが見つからない場合は、当社がご用意いたします。お客様のニーズに応じたチャットボット向け対話データセットをご提供し、対話チャットボットの開発を支援します。お見積もり・相談は無料なので、お気軽にご相談くださいませ。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中