目次

機械学習に必要なデータセットとは?

AIの機械学習には一般的なデータ処理のソフトウェアで対応できないような、巨大で複雑な非構造化データの集合(データセット)が用いられます。ソーシャルメディアの投稿、メールやチャットなどのオフィスデータ、画像や動画などもデータセットの枠に含まれます。

この記事では機械学習に興味があるが何から始めたら良いのかわからない、または今は時期尚早だがAI導入の準備はしておきたいという担当者の方のために、第一歩となるデータ収集について紹介します。

データセットを収集する方法

具体的な課題やAIプロジェクトがまだ設定されていない場合、まずはWeb上の公開データを触ってみることをお勧めします。当社は日本語のデータセットチャットボット向け対話データセットなど、オープンデータセットのまとめ記事を公開しています。

しかし、企業のAI導入となりますと、データプロバイダの協力が必要となってくるケースが多いでしょう。クラウドソーシングサービスに外注すれば、多種多様なデータ収集を低価格で収集することが可能になります。

今回は、データ収集のプロバイダを10社紹介します。

データ収集のプロバイダ

TranSynk: 欧米、アジアのディストリビューションネットワークを利用して、テキスト、音声、画像、映像データを収集します。テキスト認識、顔認識、自動運転、医療AI等多岐に渡るアノテーション付きデータセットを提供しています。お問い合わせ・無料見積もりはこちらから。

Lionbridge: 世界各地に渡る100万人のコントリビューターが300言語でテキスト、音声、画像、映像データを収集します。クラウドワーカーは自社開発のデータプラットフォーム上でタスクを行いますので、プロジェクト管理もLionbridgeチームが24時間対応しています。データ収集後、前処理やアノテーションの作業も外注可能です。

DataRobot: データを収集することで、過去のイベントのレコードを取得できるため、データ分析を使用して反復パターンを検出できるようになります。DataRobotは、データの収集、保存、変換と予測モデリングのための学習データの準備などを支援します。

Annoteq: 株式会社ユニメディアが提供するアノテーションサービス「Annoteq(アノテック)」はWebに掲載されている画像の収集から、リアルの画像収集まで提供します。OCR構築のための手書き文字データ収集も提供しています。実働100万人のを誇るクラウドソーシング・プラットフォームであり、深層学習モデルの構築に必要な学習データセットを作成するサービスです。今後はデータ収集だけでなく、品質管理システムなどの機能付きのAPIおよびアノテーションツールの提供が予定されています。

HBLAB: 機械学習用に、データを収集してから、意味付けのアノテーションまで対応可能。画像Crawl、写真撮影、テキスト生成など。自動運転向け動画アノテーション、農業向けAIシステムの果物と葉のアノテーション、OCRシステム向けのアノテーションなどを行われています。

IR-ALT: 自然言語処理の研究開発に利用できる言語データの収集サービスです具体的なサービスは、言語データの作成、正解データの作成、言語解析、音声データ解析、などを含みます。データの収集や作成方法は、どこかにすでに存在するデータを集める場合と、新たにデータを作成する場合があります。

うるるBPO: クローラーなどでは難しいデータ収集を、仕様書に従い収集してくれるサービスです。データ収集のみに限らず、データ入力、文書電子化、データクレンジング、OCRシステム処理、DM発送代行、など幅広くサービスを提供されています。

Human Interface: 5000人の登録者から調査対象ユーザーを選び、データ収集を依頼できます。男女比、年齢構造などご希望の人数構成にできます。例えば、自由対話でコンピュータを音声で操作するための音声データ収集や、カーナビ音声認識の成否データと発話音声データの収集などの実績があるようです。

Crowdビジネス: 公開データや音声データ収集のクラウドソーシングサービスです。1000万人のクラウドワーカーが登録されていて、高頻出、スピード納品、簡単発注システム、そしてセキュリティを強みとされています。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中