目次
非構造化データとは
ビッグデータ活用の中心となる、非構造化データとは、構造定義されておらず、関係モデルにうまく適合されていないデータのことです。量が多く、発生頻度が高く、発生場所や種類も多いという、3つの特徴があります。会社員の日常業務で生成されるメールやチャット文書、画像や動画も含まれ、主な例としては、電子メール、提案書、企画書、請求書、デザインデータなどが挙げられます。
今後も、非構造化データは飛躍的に増大すると言われています。
なぜ、非構造化データの分析が進まないのか
非構造化データは、データ本体で意味を持ち、それぞれで業務用述が異なるため、データベースでは扱いにくくなってしまいます。CSVファイルやリレーションデータベース(RDBMS)と違った形式なので、取り扱い方法や管理方法も異なり、難しくなります。非構造化データを機械学習に使用する前に、データマイニングを行い、メタデータを付けるなど、前処理が必要となる場合がよく見られます。
構造化データと非構造化データの違い
それに比べて、構造化データとは、ExcelやCSVファイルなどで表現される、列と行の概念を持つデータをいいます。どこにどのようなデータがあるのか、列と行によって決められているので、データの検索、集計、比較などの分析タスクに適しています。
出典: 日経xtech
最後に、半構造化データとは、非構造化データに「フレキシブルな構造」を与えたものをいいます。「フレキシブルな構造」は「NoSQL」とも呼ばれ、グラフ、キーバリュー、ドキュメント、カラムの4つの形に分類され、いずれもデータと名前(タグ)の組み合わせでデータが管理されます。
構造化データ | 非構造化データ | 半構造化データ | |
特徴 | 列と行からなるフォーマットで、コンピュータ黎明期からデータベースやシステム間インターフェイスとして活用 | 構造定義されておらず、関係モデルにうまく適合されていない | カラム定義、テーブル定義等の明確な構造定義を持たないデータ。IoTやビッグデータ等で多用される |
注釈 | 列と行の概念を持つデータ | 専門的なツールを使わないと分析ができない | 「非構造データ」と一括りにされるケースもある |
例 | Excel CSV RDBMSl |
電子メール Officeドキュメント |
JSON、XML、Parque、Avro等のデータフォーマット、KVS(Key-Value Store)型DBやドキュメントDB |
参照文献: 非構造化データ活用の課題
非構造化データの収集や前処理をサポートします!
非構造化データの収集や前処理(アノテーション)でお困りの方は、ぜひ当社にご相談ください。ご相談・無料トライアルはこちらからご相談ください。。