目次
テキストマイニングとは
テキストマイニングとは、書かれた自然言語から高品質の情報を抽出するプロセスのことです。「高品質の情報」とは、特定のプロジェクトに関連する有益な新情報を意味します。電子メールやワード文書、PDFファイル、SMSメッセージなどのデータは全て自然言語で書かれていますが、これらのデータは通常、構造化されたフォーマットで保存されていません。テキストマイニングはそのような非構造化データからインサイトやパターンを導き出すために用いるプロセスです。
例えば、自然言語で書かれた一連の文書をスキャンすることは簡単なテキストマイニングの例です。スキャン後は、予測分類のために文書をモデル化するか、抽出した情報をクリーンなデータベースに追加します。
「テキストマイニング」と「文章解析」の違い
「テキストマイニング」は「文章解析」とほぼ同義であり、多くの人はこの二つの用語を同じような意味で使っています。しかし、厳密に言うと、テキストマイニングは、AIプロジェクトの壮大なプロセスにおいて文章解析の一つ前のプロセスを意味しています。
テキストマイニングはデータ整理のプロセスです。つまり、テキストマイニングの最大の目標は、情報検索のために自然言語処理や分析手法を用いてテキストデータを標準形式に変換することです。テキストマイニングを行った後は、おそらくExcelまたはCSVファイルで、構造化されたクリーンなデータセットが得られるはずです。
テキストマイニングが完了すると、統計およびAIモデルを用いた文章解析のプロセスに入ることができます。文章解析は、データの中からパターンを見つけ出し、予測または新たな知見の抽出に役立てることを目的とします。
テキストマイニング手法(前処理技術)
テキストマイニングで最もよく利用される前処理手法には、トークン化、用語の出現頻度、ステミングおよび見出し語化などがあります。
トークン化
トークン化は、テキストを個々の単語やフレーズ、文全体などのトークンに分割するプロセスです。このプロセスで句読点や特殊文字( %、&、$などの記号)が削除される場合もあります。
用語の出現頻度
用語の出現頻度は、文書内にその用語が何回くらい出現するかを示します。用語は個々の単語の場合もあれば、複数の単語を含むフレーズの場合もあります。文書の長さはそれぞれ異なるので、長い文書の方が短い文書に比べて出現回数が多くなる可能性があります。そこで、用語の出現回数を文書内の総用語数で割ることによって正規化できます。
ステミング
ステミングは、単語から接尾辞を取り除き、語幹を取り出す処理のことを指します。例えば、英単語roboticsはrobotという語幹に変換されます。語幹は通常、完全な単語ですが、単語である必要はありません。英単語から一般的な接尾辞を取り除くために広く利用されているアルゴリズム、Porterステマーではuniversal、university、universeなどの単語がuniversという語幹に変換されます。
見出し語化
Porterステマーの例で見たように、ステミングに一般的に利用される単純な接尾辞ルールでは、意味的にあまり関係のないuniversal、university、universeが同じ語幹を持つと判断されてしまいます。見出し語化はこのような問題に対処するためのより複雑なアプローチです。見出し語化では、単語の語彙範疇(品詞)に応じて異なる正規化ルールを利用します。こうすることによって、ステミングされる単語についてステマーがより多くの情報を把握できるので、類似の単語をより正確にグループ化できます。
テキストマイニング、文章解析のツール
多くの企業にとって文章解析ツールは自社の事業や商品、顧客を理解するために重要です。しかし、なぜ文章解析が必要なのでしょうか?それは、以下に示す通り、人々の書く量がこれまでになく増えているからです。
- Twitterは3億人以上の月間アクティブユーザーを誇り、毎日5億件以上のツイートが書き込まれています。
- 2018年に送受信された電子メールは2810億件にのぼり、この数は毎年増加すると予想されます。
- 2018年現在、毎日400万件以上のブログ記事がオンラインで公開されています。
- 45%の消費者が質問したり問題の解決策を探したりするために、ソーシャルメディアを利用しています。
このようなテキストデータは全て非常に貴重です。これらを分析すれば、自分たちの会社や商品について消費者がどのように感じ、どのように伝えているのかを理解できます。これは傾向を把握したりフィードバックの理解を深めたりすることに役立ち、驚くべきインサイトの発見につながります。
しかし、テキストデータの分析には時間と労力がかかります。つまり、大量のデータとそれを分析するデータサイエンティストが必要です。そのため、多くの企業が文章解析ツールを利用してプロセスを合理化しています。関連するツイートや顧客からのフィードバックなどのテキストコーパスにアノテーションを付ければ、データ分析システムの機械学習を開始することができます。このようにしてデータを分析することにより、カスタマーサポートの改善、リアルタイムでのフィードバック分析、分析の精度改善など様々なメリットを享受することができるのです。
よく使われている文章解析の種類とその役割やメリットを以下にまとめました。プロジェクトのニーズに最適な文章解析ツールを見つける際にお役に立てれば幸いです。
テキストマイニング、文章解析の事例
感情分析: テキスト内のキーワードやフレーズを分析してポジティブ、ネガティブ、ニュートラルに分類するプロセスです。ソーシャルメディアの投稿を分析したり、顧客のフィードバックから傾向を把握したりするために役立ちます。感情分析について詳しくは、こちらの記事をご覧ください。
テキスト分類: テキスト分類は、何に関するテキストなのかを理解する行為です。テキスト本文を分析し、キーワードや意図、感情を認識して、あらかじめ設定されたカテゴリーに分類します。例えば、商品に関する顧客のフィードバックを収集して、機能、価格、改善点、苦情などのカテゴリーに分類することができます。
言語識別: 文章が何語で書かれているかに基づいてテキストを分類するプロセスです。カスタマーサポートへのリクエストが自動的に最も適したチームに転送されるようにしたいと考える多国籍企業でよく用いられます。
意図分類: 自然言語処理と文章解析において「意図」は、ユーザーがどのような目的で入力したのかを意味します。ここでは、チャットボットか検索エンジンに営業時間を尋ねるケースを想定してみましょう。同じことを言いたい場合でも、人間は必ずしも同じように表現しないので、意図分類が重要になります。例えば、「営業時間は何時から何時までですか?」という問い合わせは、「営業時間は?」や「開店時間と閉店時間は何時ですか?」と表現される場合もあります。業務分野に関連した顧客の意図を把握することは、チャットボットの学習やカスタマーサービスの改善に特に役立ちます。
キーワード抽出: これはテキストを要約するためにキーワードを抽出するプロセスです。キーワード抽出は、サービスまたは商品に関してよく使われる用語や消費者の検索行動を明らかにできるので、文章解析ツールとして広く使用されています。
固有表現抽出: テキストデータ内の固有表現を抽出し、アノテーションを付けるプロセスです。固有表現とは一般的に、人名、組織、商品、場所などを指しますが、プロジェクトによって異なる場合があります。固有表現抽出はテキストの背後にある構造や意味を理解する上で役立ち、検索アルゴリズムを改良するためによく使われます。
固有表現リンキング: テキスト内の固有表現を知識ベースに結びつける行為であり、固有表現にメタデータを加えることが目的です。つまり、固有表現を見つけ出し、それがどのような固有表現なのか特定することを意味します。例えば、固有表現抽出を利用すると、ティム・クックを人名として抽出できますが、固有表現リンキングでは特定の知識ベースと結びつけ、アップルのCEOとして認識できます。固有表現リンキングを利用すると、文章解析の質が向上し、より精度の高い検索結果を提供したり、顧客サービスを改善したりできます。
要約抽出: テキスト要約としても知られる要約抽出は、テキストを包括的な概要に凝縮します。つまり、文書内のキーフレーズから要約を作成したり、テキストの裏側にある意味に基づいて新しい文章を作成したりするのです。いずれの場合でも、AIモデルは各テキストの言葉やメッセージを理解する必要があります。これは、ニュースレターの作成、大量の社内文書の分析、社内ワークフローの合理化に役立ちます。
テキストマイニングの最終用途はおそらく、テキスト分類でしょう。スパムメールとそうでないものを分類したり、露骨なコンテンツを除外したりするなど、テキストを特定のカテゴリーに分類するモデルを構築する際、最初のステップとしてテキストマイニングが利用されています。文書分類も、ニュース記事を国内、国際、スポーツ、ライフスタイルなどのカテゴリーに分類するためによく利用されるテキスト分類の一種です。
他の活用事例としては、文書要約および人名や場所、組織などの固有表現を識別するための固有表現抽出などがあります。感情分析に利用して、書かれた自然言語から主観的な情報を識別・抽出することもできます。感情分析テキストマイニングは特に、インターネットフォーラムやソーシャルメディアに顧客が投稿した文章から感情を識別してビジネスに役立てることができます。
文章解析ツールの導入における課題
文章解析ツールを導入する際は、文章解析プロジェクトの目標を見極めることから始めましょう。コンテンツ推薦システムを構築したいですか?それとも顧客のフィードバックの分析が目的でしょうか。あるいは、チャットボットやサイト内検索エンジンの改良を目指している場合もあるでしょう。目標を見極めれば、どのような文章解析がプロジェクトに最も適しているかが明らかになります。
目標を設定したら、次は高品質のデータが必要です。期待に沿った結果を得て、プロジェクトの目標を達成するためには、目的に即して正確にアノテーションを施した適切な分量の関連データが必要です。社内の電子メールやフィードバックフォームのデータを利用してもよいですし、Twitterなどのオンライン情報源からデータを収集することもできます。
どこから取り組めばよいかわからない場合は、ぜひ当社にお問い合わせください。データ収集とアノテーションサービスの詳細については、以下からお気軽にお問い合わせください。