
目次
SNSサイト(ソーシャルメディア)のデータマイニングは、最新のトレンドや文化を把握し、オンラインビジネスを解析する上で必須の戦略になっています。毎日、何億件ものツイートやインスタグラムの投稿、ブログ記事のシェアなどが行われるSNSは、データの宝庫だからです。データマイニングは、SNSを解析するためのツールであり、オンラインで何がどこでどのように話題になっているのかを追跡する手段です。別の見方をすれば、データマイニングは、オンラインの表現手法であるテキストや音声、画像、動画を利用して、トレンドを明らかにし、フィードバックを分類し、データに基づいた予測を行う方法だと言えるでしょう。
SNS解析調査の活用法
ECサイトでは、商品がどのように話題になっているのかを分析するためにSNS解析が利用されています。 インフルエンサーは、フォロワーが何に興味を持ち、どのように感じているのかを分析するためにSNS解析を利用します。ブランドはソーシャルデータを解析し、市場調査を行い、将来の市場に関する意思決定に役立てています。
本記事では、多く利用される四つの手法についてご説明します。データマイニングを利用した独自のプロジェクトをスタートする方法についても解説いたします。最後に、ウェブで公開されているSNSデータセットを11件紹介いたします。
固有表現抽出
固有表現抽出は、テキストを分類するためにキーワードを抽出するプロセスです。サービスや商品に関連した消費者の行動や頻出用語を明らかにできるので、データマイニングで人気のある手法です。テキストをスキャンして最もよく使用されている言葉のリストを作るといった簡単なものから、特定の単語やフレーズを検索・特定するために調整したものまで様々です。
固有表現抽出は、自社商品について話す時どのような単語が使われているか、自社の最新動画がどのように話題になっているかなどを調べるために利用できます。自社オーディエンスに人気の特徴的な用語を基にして、今後のコンテンツを調整し、オーディエンスとのつながりを強めることも可能です。また、固有表現抽出は、フィードバックの分類に利用できるので、カスタマーサービスチームがキーワードに基づいて問題や苦情をすばやく把握する上でも役立ちます。ソーシャルデータの分析に利用されるキーワード抽出などについて詳しく知りたい方は、文章解析ツールに関してまとめたこちらの記事をご覧ください。
感情分析
感情分析は人の意見を分析するプロセスです。分析の対象となるのは、新商品に関する意見やスポーツ試合への反応、政治家や有名人の人気など様々です。意見をどのように分類するかは特定のニーズに基づいて調整できますが、感情分析では基本的に、ツイートなどのテキストから単語やフレーズを抽出し、そのテキストがポジティブ、ネガティブ、ニュートラルのいずれであるかを判別します。また、感情分析はSNSの監視やブランドの人気の分析に役立ちます。ネガティブなフィードバックを見つけ出して緊急度に従って分類し、必要に応じて対応できるので、カスタマーサービスの質も向上します。
市場分析
市場分析は、自社オーディエンスの特性について分析するプロセスです。オーディエンスに人気のもの、コミュニティのトレンドそしてオーディエンスが集まっている場所を詳しく調査します。これは、オーディエンスとつながりを築くために非常に重要です。市場分析によって、自社やブランドがどのように話題になっているかだけでなく、なぜ、いつ、どこで話題に上っているのかが明らかになるからです。市場分析では、ブランドや商品に関するキーワードを追跡し、傾向をつかみ、自社がどこで話題になっているのかを分析します。自社の競合についても同様の分析をすると、競合を解析する上で役立ちます。最終的に、この分析結果は、今後の戦略を決める際に活用できます。レストランが、特定の場所で人気のあるメニューを見つけたり、ファッションブランドが、集中的に販促活動をすべき新たな市場を発見したりすることにつながります。インフルエンサーもこのような分析を利用して、誰を対象にコンテンツを作成するかを決定できます。
自動チェックアウトの店舗データ
食料品データセット: 約40店舗の食料品店で四台のカメラを使用して撮影した354件の食料品画像から成るデータセット。 商品は10個のカテゴリーに分類されている。
小売商品チェックアウトデータセット: 商品画像の数量と商品カテゴリー数の点では最大のデータセット。単一商品の画像とチェックアウトシステムで撮影された複数商品の画像が含まれる。チェックアウト画像には様々なレベルのアノテーションが付けられている。
MVTec 細かくセグメント化されたスーパーマーケットのデータセット: 全てのオブジェクト・インスタンスにピクセル単位でラベル付けした21,000件の高解像度画像。オブジェクトは60カテゴリーの食料品や日用品から成る。実世界の自動チェックアウト、在庫あるいは倉庫システムと似た状態になるようにベンチマークが定められている。トレーニング用の画像は均一な背景に単一クラスのオブジェクトだけが撮影されているが、バリデーションとテスト用の画像はより複雑で多様である。
フライブルク食料品データセット: 25種類にクラス分けされた食料品の256×256RGB画像5000件から成るデータセット。
予測分析
予測分析は、過去のデータを利用して将来の傾向を予測するプロセスです。最も基本的な例は、過去のデータを利用して重要なパターンを捉えるモデルを構築することです。このパターンを基に、モデルが新しいデータを利用して将来の展開を予測することが可能です。ファッション業界では、トレンドがいつ主流となり、いつ廃れるのかを明らかにするために予測分析が役立つことがわかっています。これらの予測は、検索クエリやECサイトのコンバージョン率、顧客のフィードバックの分析をSNSのアクティビティ分析に組み合わせて行います。なお、予測分析は上記の他の手法と異なり、ブランドや事業に役立つ他の分野のデータで補完すると最も有効です。また、予測を行う前に膨大な過去のデータで学習させる必要があります。
SNSデータマイニングをはじめる
独自のプロジェクトを開始する際、最初のステップはデータ収集です。これを行う方法は、APIにアクセスする、データスクレイピングを行う、データ収集代行サービスに委託するなど数多くあります。
次に何を行うかはニーズによって異なります。中小企業の場合、分析結果を可視化するためのデータマイニングAPIのサービスだけで十分です。プログラミングの経験があれば、自分でデータ分析プラットフォームを構築することも可能ですが、これは、SNS解析したいものが非常に特殊であるか、他の方法では利用できない場合に検討すべき選択肢です。一方、大手企業の場合は、ニーズに合わせたより詳細なSNS解析を行うデータ駆動型プラットフォームに投資するでしょう。いずれの場合でも、データマイニングを開始する際は、自社オーディエンスが集まるSNSプラットフォームを見つけることからスタートしてください。
それから、自社のSNS解析ニーズや分析結果の活用方法を決定しましょう。これを特定しておくことは、どのようなデータがどれくらい必要かを解析するために役立ちます。 もちろん、データマイニングやデータ収集はこの入門記事に記載した事柄よりずっと複雑なので、独自のプロジェクトを開始する前に念入りに調査を行うことが重要です。
SNSデータセットを検索
- スタンフォード・ラージネットワーク・データセット集: フェイスブックやReddit等の多くのソースから集めた様々なサイズのデータセットが幅広く用意されており、プロジェクトのニーズにぴったり合ったものを見つけることができます。また、大規模ネットワークを容易に分析することが可能なライブラリでもある。
- ネットワークリポジトリ: 多数のSNS、Webグラフ、バイオネットワークやブレインネットワーク等のコレクション。様々なSNSを比較検証することのできる、インタラクティブなビジュアル分析ツールも備えている。
Twitterデータセット
- 4憶7600万ツイート: 2009年6月1日〜12月31日までの七か月間に投稿された全公開ツイートの約20~30%から成るデータセット。※ 更新: Twitter社のリクエストにより、こちらのデータセットは非公開となりました。
- センチメント140: 顔文字を除いた六つのフォーマット分類で、とりわけブランド・マネジメントやポーリングに役立つ16万のツイート集。
- ツイッターのカスタマーサポート: ツイッター上の大手ブランドのツイートやリプライを300万以上集めたKaggle上のデータセット。
- Cheng-Caverlee-Lee 2009年9月~2010年1月のツイッタースクラップ: スクラップされた公開ツイッターのアップデートを集めたデータセットで、ツイートに関する位置情報データを研究する学究的プロジェクトと連携して使用される。
Redditデータセット
- 17憶のRedditコメント: コメントツリーのコメント、スコア、作者、subreddit、位置、その他RedditのAPIで利用可能なフィールドを網羅した17億のJSONオブジェクト。
- 2015年5月のRedditコメント: 17憶の膨大なredditコメントデータセットの一部。自然言語処理用のスクリプト形式で2015年5月以降のすべてのコメントを見ることができる。
その他のSNSデータセット
- YouTube-8M データセット: 何百万ものYouTube 画像IDと、3800以上のビジュアル・エンティティの幅広い語彙から機械生成された高品質な注釈で構成される、大規模なラベル付き画像データセット。
- 一億の調査用クリエイティブ・コモンズFlickr 画像: これまでにリリースされた最大の公開マルチメディア・データセットの一つで、Flickerから集めたクリエイティブ・コモンズのライセンス下の9930万のイメージと70万の動画が含まれる。多くの画像がジオタグ付きで、位置情報と画像を結びつけて調査できるという利点があり、コンピューター・ビジョン・プロジェクトに有用。データセットを依頼する。
SNS分析ツール
マーケティングを最適化するために、SNS分析ツールの導入を検討されている方も少なくはないかとおもいます。殆どのプラットフォームは、公式のSNS分析ツールがあります。例えば、Twitterアナリティクス、Facebook/Instagram for businessなど。SNS分析ツールを活用すると、コンバージョン率、クリック率、閲覧率などのデータを更に可視化できます。例えば、User Local社が提供する「Social Insight」ツールでは、主要なSNS(Twitter、Instagram、Facebook、LINE、You Tube、Pinterest、ブログ、Tik Tok)に対応し、日本最大のアカウントデータを蓄積しています。自社や競合アカウントのファンの増減、投稿分析、ファン属性分析もできます。また、当選者を自動抽出するキャンペーン機能や、インフルエンサー調査も可能です。他にも、ホットリンク社の「Buzz Spreader」やプラスアルファコンサルティング社のSNS分析ツールなど、様々なツールがあります。