目次
テキスト分類とは
テキスト分類とは、特定な文章を読解した上、決められたカテゴリに分ける作業をいいます。また、テキスト分類のデータセットは、コンテンツに従って自然言語テキストを分類するために利用されます。例えば、ニュース記事をカテゴリー別に分類したり、ポジティブな意見かネガティブな意見かによって書籍のレビューを分類したりするほか、テキスト分類は言語検出、顧客からのフィードバックの整理、不正検出にも役立ちます。このプロセスは手動で行うと非常に時間がかかりますが、機械学習モデルで自動化すれば、時間を節約しながら貴重なインサイトを得ることができます。
以下に、商品レビュー、広告評価、ニュース分類、データセットリポジトリなど、インターネットで公開されているデータセットをまとめました。オープンソースデータセットを包括的に見て、機械学習の出発点にしていただければ幸いです。
テキスト分類データセットリポジトリ
レコメンドシステムデータセット: カリフォルニア大学サンディエゴ校のコンピューターサイエンス学部准教授ジュリアン・マコーリーの研究で使用されたレコメンドシステムデータセットを集めたもの。ソーシャルネットワーク、商品レビュー、ソーシャルサークルデータ、質問/回答データが含まれる。
TRECデータリポジトリ: Text Retrieval Conference(TREC会議)は、情報検索コミュニティの研究を支援する目的でスタートした。このデータリポジトリには、自然言語処理関連の研究論文と論文で使用されたデータセットが集められている。ニュース記事や質問/回答のセット、スパムなどが含まれる。注意: 非常に古いウェブサイトなので操作が難しい場合もあるが、掘り下げて調べたい方のために提供されている。
Kaggleテキスト分類データセット: Kaggleにはデータサイエンスの作業で利用可能なコードやデータが集められており、様々な活用事例に役立つ公開データセットが19,000個含まれる。テキスト分類データセットも豊富に取り揃えられているが、探しているデータセットを素早く見つけるためには、サイト内の検索および並べ替え機能を利用するとよい。Kaggleは、特定のテキスト分類プロジェクトや研究を奨励するために、金銭的報酬を伴うコンテストも開催している。
GroupLensデータセット: GroupLensはレコメンドシステム、オンラインコミュニティー、モバイルおよびユビキタステクノロジー、デジタルライブラリ、地理情報システムを専門とする研究所。利用可能なデータセットには、MovieLensウェブサイトからのレーティングデータ、WikiLensからのレコメンドデータ、BookCrossingからの書籍のレーティングなど。
ユーザー口コミのテキスト分類
Opin-Rankレビューデータセット: TripAdvisorからのホテルレビューとEdmundsからの車のレビューという二組のデータセットが含まれる。TripAdvisorからのデータは、世界10都市の各都市約80〜700軒のホテルに関する259,000個のホテルレビューが含まれ、Edmundsからのレビューは、日付や著者名を含む2007年から2009年までのレビュー全文が含まれる。
大規模映画レビューデータセット: スタンフォードAI研究所によるテキスト分類データセットで、 25,000個の高極性の映画レビューとトレーニング用レビューが25,000個含まれ、感情分析の実験に役立つ。さらに、トレーニングやテストに利用可能なアノテーションなしデータも含まれる。
Twitter米国航空会社感情データセット: ポジティブ、ネガティブ、ニュートラルに分類されたツイートが含まれるTwitterのデータコレクション。ネガティブな理由も「遅延」、「サービスが悪い」などのタイトル別に分類されている。航空会社六社に関する約15,000件のツイートが含まれる。
オンラインコンテンツ評価のテキスト分類
クリックベイト排除・データセット: 「クリックベイトの排除: オンラインニュースメディアにおけるクリックベイトの検出と防止」というタイトルの論文で使用されたデータセット。ユーザーのクリックを誘導する「クリックベイト」かそうでないかに基づいて、16,000個の記事の見出しが分類されている。クリックベイトの記事はバズフィードやUpworthy(アップワーシー)などのウェブサイトから取得し、クリックベイトでない記事はウィキニュースやニューヨーク・タイムズ、ガーディアンなどのサイトから取得。
スパムベース・データセット: 4,601個の電子メールメッセージを含むスパムメールデータベースであり、そのうち1,813個がスパム。個人用スパムフィルターの構築に役立つが、一般的な目的でスパムフィルターを構築するためにはより広範なデータが必要であるとデータセット作成者らは述べている。
ヘイトスピーチおよび暴言データセット: 元々、ソーシャルメディアでヘイトスピーチとその他の暴言を区別することによって、ヘイトスピーチを検出する研究のために利用されたデータセット。「ヘイトスピーチを含む」、「暴言だけを含む」、「どちらも含まない」によってツイートのテキストが分類されている。注意: コンテンツの性質上、データセットには、人種差別、性差別、同性愛嫌悪的な発言や暴言が含まれる。
ブログ・オーサーシップ・コーパス: 2004年にblogger.comから収集された681,288件の投稿から構成される。19,320人のブロガーの投稿が含まれるこのデータセットには、全部で1億4千万語以上が含まれる。感情分析、要約、その他の自然言語処理ベースの機械学習実験に役立つテキスト分類データセット。
ニュース記事のテキスト分類
AGのニューストピック分類データセット: 学術的ニュース検索エンジンによって2,000種類以上のニュースソースから収集した100万個以上のニュース記事が含まれるAGデータセットを基にしている。オリジナルのAGコーパスから最大のクラスを四つ選択し、各クラスから30,000個のトレーニング用サンプルと1,900個のテスト用サンプルを収集。トレーニング用サンプル総数は120,000個、テスト用サンプル総数は7,600個。
ロイター・テキスト分類データセット: 1987年にロイターのニュースワイヤーで配信された21,578個のロイター記事が含まれるデータセット。トレーニング用13,625個、テスト用6,188個のデータが含まれる。各記事には、日付、トピック、場所、人名、組織、企業などのアノテーションが付与されている。
20ニュースグループデータセット: テキスト分類など、機械学習技術をテキストに応用する実験を行うためによく利用されるデータセット。それぞれ異なるトピックに対応する20種類のニュースグループに分類された約20,000個のニュースグループ記事が含まれる。少し異なる目的に利用できるように、三つのバージョンのデータセットが提供されている。
テキスト分類の活用事例
Traveloka(トラベロカ)は、航空券や宿泊施設、アトラクションなど様々なチケットを扱うワンストップ型プラットフォームを提供するオンライン旅行会社です。時価総額10億ドルを超えるスタートアップである「ユニコーン」の一角を占める東南アジアの会社の一つとして、Travelokaは常に、ユーザー体験を向上させるための方法を探しています。このような取り組みの一環として、Travelokaは数々の人工知能および機械学習に多額の投資を行ってきました。
19種類にもわたる幅広い主力商品を提供しているため、検索精度の向上は、同社が成長を続ける上で必要不可欠でした。そこで、Travelokaは、ユーザーが単一の検索バーから自社の全商品を簡単に閲覧可能な検索機能を構築しました。
Travelokaが新たに実装したユニバーサル検索機能では、ユーザーがワンクリックで76種類もの独自の商品の組み合わせを簡単に検索することができます。今後のリリースでは、Travelokaのアルゴリズムにより、ウェブおよびアプリの両方でユーザーの利便性がさらに改善されていく予定です。