画像認識モデルに欠かせない、アノテーションの種類

2Dバウンディングボックス
3Dバウンディングボックス、直方体
ランドマークアノテーション
ポリゴン
トランシンクの画像アノテーションサービス

自動運転車やドローン、ロボットなどの「目」となる機械学習モデルの裏側には、画像認識のアノテーションツールがあります。これらのツールは、生の画像データを機械学習用データに変換する上で重要な役割を果たしています。アノテーションツールは、自動運転車が交通状況を把握し、自動搬送ロボットが在庫を識別し、配送ドローンが配達先まで移動するために役立っています。

画像認識におけるアノテーションツールの活用事例は多岐にわたっています。顔認識AI、物体検出、医療画像処理は全てコンピュータービジョンの分野に含まれますが、目的を達成するために必要なアノテーションの種類はそれぞれ異なります。そのため、適切なアノテーションサービスを選択するには、アノテーションの種類について理解しておく必要があります。

この記事では、コンピュータービジョンや画像認識でよく利用される画像アノテーションの種類についてまとめました。何のために利用されるのか、どのように機能するのか、そしてアノテーションを行うために利用されるツールについてご説明します。

2Dバウンディングボックス

バウンディングボックスは画像や図形、テキストを囲むように描かれ、X座標およびY座標を指定します。これは、異なるタイプの物体認識ができるよう機械に学習させる際の出発点になります。例えば、自動運転車が歩行者と車両を識別する上で役立つほか、物体識別や衝突判定などのタスクでも重要です。

画像認識の機械学習用アノテーションツールでは、人間のアノテーターがバウンディングボックスを移動、変換、回転、拡大縮小できるようになっています。ツールを用いてカテゴリー分類を行うことも可能です。優れたアノテーションツールは、高度の柔軟性を備えた使いやすいものである必要があり、ズーム機能や、ボックスの位置を指定する十字線を表示する機能などが含まれています。このような作業効率を高める機能を利用することによって、アノテーターは精度を犠牲にすることなく、迅速に作業することができます。

上記の通り、バウンディングボックスは自動運転車によく利用されるほか、ドローンがランドマークを見つけたり、工業用の自動搬送ロボットが様々な物体認識をしたりする上で役立っています。

3Dバウンディングボックス、直方体

直方体とも呼ばれる3Dバウンディングボックスは、従来のバウンディングボックスに深さの次元を追加したものです。画像認識用に物体の3D表現を作成することによって、機械学習モデルが3D空間内の物体の位置や体積を識別する機能を習得できます。

バウンディングボックスは通常、物体の境界線に配置されたアンカーポイントからスタートします。これらのアンカーポイントの間のスペースを線でつなぐと、物体を囲む3Dボックスまたは直方体が作成できます。これによる3D表現では、位置と共に深さも示されます。

3Dバウンディングボックスは、物体認識をするだけでは十分でない移動ロボットや自動運転車の開発によく利用されています。機械が物体の位置と大きさを理解する必要がある場合、3Dバウンディングボックスは、従来の2Dバウンディングボックスより高い精度を提供します。

ランドマークアノテーション

ランドマークアノテーションは、画像内の物体にキーポイントを配置します。このタイプのアノテーションは、小さな物体に単一のキーポイントを付与したり、多数のキーポイントを表示して特定部分の詳細を示したりなど、様々です。ランドマークアノテーションが用いられる画像としては、地図や顔、体、物体などがあります。

ランドマークアノテーションは、画像認識のプロジェクトで、正確な顔認識を実現するために最もよく利用されます。多数のキーポイントによってそれぞれの人の顔の形状や詳細を識別することで、機械学習モデルはより正確に顔を見分けられるようになります。iPhoneのロック解除や、ソーシャルメディアアプリにおける顔の識別などに利用できます。

ランドマークアノテーションは、顔認識以外にビデオ分析でも役立ちます。例えば、当社は動画の複数の画像にわたって体の特定部分の動きを追跡するプロジェクトを行いました。このプロジェクトでは、ツールが「肘・左」、「足首・右」などの多層分類を行えることが重要でしたが、こうしたツールの柔軟性によって、高品質の分析を行うことができました。

ポリゴン

バウンディングボックスは、多くの画像認識のタスクで役立っていますが、道路標識や建物の形状など、不規則な形状の物体を扱う際、精度に欠ける場合があります。このような場合、ポリゴン（多角形）アノテーションがより正確なソリューションになります。長方形の形状が設定されているバウンディングボックスとは異なり、ポリゴンアノテーションでは複数の角度や線を利用できます。そのため、アノテーターは建物を囲む長方形を描く代わりに、特定の点をクリックして方向を変え、最も忠実に物体の形状に従ったアノテーションを付与することができます。

ポリゴンアノテーションは、ドローンや衛星が高い位置から特定の物体を探し出す必要がある空撮で役に立ちます。自動運転車では、交通量の多い場所で物体識別をする場合など、より細かい詳細が必要な時に利用されます。

画像認識用の優れたポリゴンアノテーションツールは、作業を容易にする手段を提供します。例えば、アノテーターの精度をサポートするズームおよびパンコントロールなどの機能や、ダブルチェックによる品質確保などです。道路標識や広告看板など、アノテーション内にテキストを記録する必要がある場合、アノテーションごとに任意あるいは必須のコメントを設定する機能を探してください。

トランシンクの画像アノテーションサービス

当社は、教師データの作成やアノテーションサービスを提供し、画像認識AIの研究開発を支援いたします。各プロジェクトごとに管理サポートと品質保証を提供し、特定のタスクに対して認定アノテーターを推薦することもできます。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

・・・全文を読む

無料

機械学習用
音声コーパス

・・・リストを見る

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

ホーム

データセット

プロジェクト事例

文章分類の活用事例

機械翻訳の品質評価

アラビア語音声データ

テキストコーパス作成

ピックアッププロジェクト

アラビア語音声データセット

データセット

多言語、多地域

テキスト、画像、音声、動画