目次
機械学習におけるデータマイニングとは
データマイニングとは、統計学、パターン認識、AIや機械学習等のデータ解析を、ビッグデータに網羅的に適用することで情報を取り出す技術を意味します。代表的に、テキストデータを対象するものをテキストマイニング、その中でもWebサイトを対象にしたものをwebマイニングといいます。
データマイニングを活用することで、非構造化データを分析するための下準備や、データ分析の際に混乱の基にとなるノイズを除去するなどのメリットが得られます。
機械学習におけるデータマイニング手法
まず、機械学習におけるデータマイニングの主な手法を紹介していきます。
パターンマイニング: パターンマイニングとは、データの中からパターン(組み合わせ的規則)の中から重要なもののみを網羅的に抽出する、データマイニングの手法です。以下に紹介していく、他の手法と組み合わせることで、発見されたパターンに含まれている偽陽性の割合を適切に制御することができます。
頻出パターンマイニング: 頻出パターンマイニングとは、データの中から一定頻度以上に会わられるパタン―を抽出する手法で、クラスタリングと並び、代表的な教師なし学習の手法です。頻出パターン抽出(frequent pattern extraction)などとも呼ぶ。
クラスタリング: 与えられたデータ群をいくつかの集まり(クラスタ)に分けることで、データの本質的な構造を浮かび上がらせる手法。事前にクラスを与えるかどうかで、以下に紹介するクラス分類と異なります。
クラス分類: あらかじめ設定したカテゴリ(クラス)にデータを割り振る手法。
回帰分析: 出力値の予測をするために使用される手法です。最も基本的な回帰分析は「単回帰分析」であり、単一の特徴量単一の特徴量𝑥で出力値𝑦を予測する方法です。特徴量が多変量になった回帰分析には「重回帰分析」を使用します。この場合、相関の強い説明変数を同時に2つ以上用いると予測精度が悪化する多重共線性に注意が必要です。また、データの関係性を曲線で表す非戦回帰モデルは、株価データなど周期性のあるものに適用されます。
機械学習におけるデータマイニング手法
Qlik Sense: 連想アナリティクスエンジン、AI技術、クラウドプラットフォームが組み込まれたデータマイニングプラットフォーム。ITリテラシーを備えた従業員の育成にも繋がります。
Magic Insight: テキストマイニングのIBM Watson Explorerを利用するために必要な環境のすべてをプラットフォームとしてご提供するサービスです。IBM Watson Explorerの持つ2つの構成要素(コンポーネント)をそれぞれASP/SaaS型で提供。
機械学習向けデータマイニングソフト
NTTデータ数理システム: パッケージソフトの提供のみならず、データの分析技法のコンサルティング、さらには各業態に合わせたソフトウエアのカスタマイズ、トータルシステムの受託開発まで対応可能。
OpenCV (Open source computer vision library): Intel社によるコンピュータビジョンライブラリ。画像や動画を処理するのに必要な、さまざま機能が実装されており、BSDライセンスで配布されていることから学術用途だけでなく商用目的でも利用できます。加えて、マルチプラットフォーム対応されているため、幅広い場面で利用されていることが特徴です。
RapidMiner: 機械学習、データマイニング、テキストマイニング、特徴選択、予測分析、経営分析などを扱うソフトウェア。データマイニングや機械学習分野において、データ変換、データ処理、可視化、モデリングの作成・評価・展開に活用できます。