目次

非構造化データとは

ビッグデータ活用の中心となる、非構造化データとは、構造定義されておらず、関係モデルにうまく適合されていないデータのことです。量が多く、発生頻度が高く、発生場所や種類も多いという、3つの特徴があります。会社員の日常業務で生成されるメールやチャット文書、画像や動画も含まれ、主な例としては、電子メール、提案書、企画書、請求書、デザインデータなどが挙げられます。

今後も、非構造化データは飛躍的に増大すると言われています。

出典: DataPreparation.jp

なぜ、非構造化データの分析が進まないのか

非構造化データは、データ本体で意味を持ち、それぞれで業務用述が異なるため、データベースでは扱いにくくなってしまいます。CSVファイルやリレーションデータベース(RDBMS)と違った形式なので、取り扱い方法や管理方法も異なり、難しくなります。非構造化データを機械学習に使用する前に、データマイニングを行い、メタデータを付けるなど、前処理が必要となる場合がよく見られます。

構造化データと非構造化データの違い

それに比べて、構造化データとは、ExcelやCSVファイルなどで表現される、列と行の概念を持つデータをいいます。どこにどのようなデータがあるのか、列と行によって決められているので、データの検索、集計、比較などの分析タスクに適しています。

構造化データと非構造化データ

構造化データと非構造化データ

出典: 日経xtech
最後に、半構造化データとは、非構造化データに「フレキシブルな構造」を与えたものをいいます。「フレキシブルな構造」は「NoSQL」とも呼ばれ、グラフ、キーバリュー、ドキュメント、カラムの4つの形に分類され、いずれもデータと名前(タグ)の組み合わせでデータが管理されます。

  構造化データ 非構造化データ 半構造化データ
特徴 列と行からなるフォーマットで、コンピュータ黎明期からデータベースやシステム間インターフェイスとして活用 構造定義されておらず、関係モデルにうまく適合されていない カラム定義、テーブル定義等の明確な構造定義を持たないデータ。IoTやビッグデータ等で多用される
注釈 列と行の概念を持つデータ 専門的なツールを使わないと分析ができない 「非構造データ」と一括りにされるケースもある
Excel
CSV
RDBMSl
電子メール
Officeドキュメント
PDF
JSON、XML、Parque、Avro等のデータフォーマット、KVS(Key-Value Store)型DBやドキュメントDB

参照文献: 非構造化データ活用の課題

非構造化データの収集や前処理をサポートします!

非構造化データの収集や前処理(アノテーション)でお困りの方は、ぜひ当社にご相談ください。ご相談・無料トライアルはこちらからご相談ください。。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中