コンピュータビジョンとは？

コンピュータビジョンとは？
コンピュータビジョンの仕組み
- コンピュータビジョンにおけるバウンディングボックス
- コンピュータビジョンに利用されるニューラルネットワーク
コンピュータビジョンの活用事例
TranSynkが提供する画像、動画データセット

人間や動物は周囲の世界を見るために自分の目を使います。コンピュータビジョンは、同様のスキルを機械に与えることを目的とする研究分野です。目標は画像収集、画像処理、画像解析など、人間の視覚システムが実行できるタスクを自動化することです。

例えば、コンピュータサイエンスでは色は16進数で表され、機械はこれを用いて、どのピクセルの組み合わせがどの色に対応するのかを理解するようにプログラムされています。一方、人間には様々な色合いを区別するための共通の視覚システムが生来備わっています。

こちらのまとめ記事には、ビデオシーケンス、複数のカメラを使って様々な角度から撮影した画像、医療スキャナーからの多次元データなど、コンピュータビジョンで使える画像データが含まれています。

コンピュータビジョンの仕組み

視覚情報を処理するAIシステムは、コンピュータビジョンを基盤としています。では、データサイエンティストがコンピュータに「見る」ことを教える際の複雑なプロセスを分解して見ていきましょう。

コンピュータビジョンにおけるバウンディングボックス

コンピュータビジョンにおいて、物体検出に最も一般的な方法は、バウンディングボックスを利用することです。バウンディングボックスとは、画像や形、テキスト上に描かれた仮想のボックスのことで、X座標とY座標によって定義されます。ボックス内のコンテンツは、コンピュータビジョンモデルが物体の種類を特定できるように、アノテーターによってラベル付けされています。アノテーターは、移動、変換、回転、拡大縮小などの操作を行って、各画像が正確にバウンディングボックスで囲まれるようにします。

コンピュータビジョンに利用されるニューラルネットワーク

ニューラルネットワークはニューラルネットとも呼ばれ、人間の脳と同様に機能するように設計されたコンピュータシステムです。データサイエンティストは、周囲の他のアルゴリズムの結果に依存するアルゴリズムを作ることによって、ニューラルネットワークを利用して人間の脳の論理的推論をシミュレートしようとしています。

畳み込みニューラルネットワーク（CNN）は、コンピュータビジョンに利用されるニューラルネットワークの一種です。コンピュータはCNNを利用して画像を数値に分割し、数学的に表現します。畳み込みとは、三つ目の関数を作り出す二つの関数の組み合わせのことであり、ニューラルネットワークは畳み込みを利用して、画像に関する複数の情報をマージします。コンピュータは、画像の正確な表現を作成するためにその情報を全てまとめてプールします。情報をプールした後、コンピュータは数値順に画像を表現して、ニューラルネットワークが画像のコンテンツに関して予測を行えるようにします。例えば、自動運転車が道路で歩行者や信号、他の車を識別できるのもこの仕組みのおかげです。

ニューラルネットワークに学習させることにより、予測の正確さもやがて向上するでしょう。しかし、コンピュータは初めから物体識別の仕方を知っているわけではなく、正確に予測できるようになるまでには、膨大な学習データが必要です。

コンピュータビジョンの活用事例

コンピュータに適切に学習させた後は、スマートフォンのロック解除のための顔認識やFacebookにおける友達のタグ付け提案など、エンドユーザーのために活用できます。

医療画像に利用されるコンピュータビジョン

コンピュータビジョンの最近の進歩によって、医療業界は医療画像データを広範に利用し、疾患の診断や治療、予測に役立てることができるようになりました。例えば、Medivisは手術ナビゲーションのための視覚化ツールであるSurgicalARプラットフォームを構築し、手術にかかるコストを削減しながら合併症を減らし、治療成績を改善することを可能にしています。このプラットフォームは既に食品医薬品局から認可を取得しています。

自動運転車に利用されるコンピュータビジョン

コンピュータビジョンは将来の自動運転車で画像処理を司るテクノロジーです。実際、自動運転車の世界において、カメラは自動車がその環境や周囲の物体認識をするために利用する主要なツールであるため、コンピュータビジョンは「知覚」とも呼ばれます。

顔認識に利用されるコンピュータビジョン

Appleは最近、深層学習を利用した顔認識機能であるFace IDを発表しました。これを利用すると、パスワード入力や指紋認証の代わりに、携帯電話を見るだけでロックを解除できます。Face IDは表情や体重、髪型やアクセサリーなどの変化に適応できるようにコンピュータビジョンと機械学習を利用しています。スカーフを着用したり髭を生やしたりしても、Face IDはユーザーの顔を認識することができるようになっています。

TranSynkが提供する画像、動画データセット

当社はコンピュータビジョンモデルの学習に役立つ、高品質の画像データや画像及びビデオのデータセットを提供しています。既存のデータセットの中からご予算に応じたデータセットを迅速かつ低価格でお届けします。新たなカスタムデータセット収集にももちろん対応しています。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

・・・全文を読む

無料

機械学習用
音声コーパス

・・・リストを見る

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

ホーム

データセット

プロジェクト事例

文章分類の活用事例

機械翻訳の品質評価

アラビア語音声データ

テキストコーパス作成

ピックアッププロジェクト

アラビア語音声データセット