目次

データスクレイピング(ウェブスクレイピング)とは

データスクレイピング(ウェブスクレイピング)とは、Webサイトから情報を取得し、非構造化データを分析可能な構造化データへ変換し、新たな情報を生成することをいいます。ウェブクローラーあるいはウェブスクレイパーとも呼ばれます。人間によるコピーアンドペースト、httpプログラミング、全文検索と正規表現マッチ、データマイニングアルゴリズムなど、幅広い自動化技術が使用されます。

データスクレイピングはいくつかのWebサイトの利用契約に反する可能性があるので、必ずご確認ください。例えば、Twitterではサービス利用契約によって、APIの利用が必須となっています。

データスクレイピングに関する用語

データスクレイピングに関する用語を以下にまとめてみました。

スクレイパー データスクレイピングを行うプログラム。例えば、SNSサイトを巡回して投稿内容を引き出し、一覧するプログラムや、ECサイトの商品データを集め、価格表を生成するプログラムなど。
クローリング クローラーで情報収集する作業のこと。
クローラー Webサイトを巡回し、情報を収集し、自動的にデータベースにインデックスを作成するプログラム。(例: GoogleのGooglebot)
API 一定の情報を設けてサービス側が開発者向けに提供する機能。
RPA Robotic Process Automation(ロボティック・プロセス・オートメーション)の略語で、日本語に直訳すると「ロボットによる業務自動化」という意味です。RPAは人間が支持したルールに従って、メール処理やPC操作などの作業を行います。詳しくはこちらの記事も御覧ください。

RPAを活用したデータスクレイピング

RPAツールで自動化し、簡単ににWebスクレイピングを行うことができます。例えば、UiPath(ユーアイパス)社が提供するRPAがツール「UiPath」などがあります。こちらは定型業務を自動化するためのロボットを作成するRPAツールで、プログラミング知識のないユーザーも利用可能です。UiPathのCommunity Editionというライセンス形態の無料体験もあるので、データスクレイピングのニーズのある方は一度試してみる価値はありそうです(無料体験は売上が100万ドル未満かつ端末数が250台未満の小規模事業者(個人含む)、非営利団体、教育もしくは研究機関、の方が対象となっています)

小売業における無人店舗

無人店舗は従来の会計方法による制約を取り除き、ショッピング体験を向上します。Amazon Goというコンビニを例に取ってみましょう。モバイルアプリを利用して店に入れば、後は簡単です。必要なものを手に入れて立ち去ればよいのです。会計するためにレジに並ぶ必要はありません。商品のスキャンと支払いプロセスが完全に自動化されているからです。

小売店の自動化に関するもう一つの注目すべき例は、衣料品大手ユニクロのセルフレジでしょう。顧客がスキャナーにかごを置くだけで商品の会計を行えるので、レジに従業員を配置しておく必要がありません。顧客にとっては買い物のプロセスが簡単になり、店側にとっては従業員が接客に集中できるというメリットがあります。

無人店舗はコンピュータビジョンを利用して、店内またはチェックアウトエリアのどちらかで、購入商品をスキャンし、認識します。これらの商品は在庫データベースに照らして確認され、アプリを通じて自動的に支払いが行われるか、チェックアウトプロセスに組み込まれます。セルフレジを準備するためには、スキャン用に正確なアノテーションを付けた在庫商品のデータベースが必要となり、そのためには、店舗内のカメラの設置場所が重要となります。

小売業界で活用するためにコンピュータービジョンモデルを開発する際、大きな課題となるのは、現実的なチェックアウトシナリオを反映するのに十分な学習データを集めることが困難なことです。 そこで、当社は商品・物体認識に使える小売関連の公開画像データセットを以下にまとめました。

データスクレイピングの応用例: 株価スクレイピング

データスクレイピングを利用し、株価の変動をリアルタイムに追跡することができます。Pythonを使えば、Webサイトへのアクセスもエクセルファシルの操作も自動化できるので、株価データをまとめたエクセルファイルが数秒で作成できるPythonプログラムなどもあります。ただし、Yahooファイナンスなど、株価スクレイピングを禁止しているWebサイトもあるので、利用契約を必ずご確認ください。

データスクレイピングは他にもSNSデータスポーツデータ、気象データのスクレイピングなど、幅広い応用例があります。しっかりとテクニックを学びたい方は、こちらの書籍もお勧めいたします。

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

AIの研究開発には、データスクレイピングによって収集されたデータの前処理やアノテーションが必要となります。データ作成やアノテーションのニーズがある方は、低価格且つ高品質な教師データサービスを提供している当社にお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中