目次

画像セグメンテーションとは

画像セグメンテーション(セマンティックセグメンテーション)とは、バウンディングボックスなど矩形領域を切り出すのではなく、画像の各画素がどのカテゴリーに属するかを求める、画像アノテーションの手法です。同じカテゴリーに属する物体が同一ラベルとして扱われます。

※ バウンディングボックス、ポリゴン、ランドマークアノテーションなど、画像アノテーションの種類について詳しくは、こちらの記事も併せてお読みください。画像認識モデルに欠かせない、アノテーションの種類

自動運転、ロボティックス、工業用検査、衛星画像、医療用画像処理など、詳細な領域分割を得るモデル物体認識が必要とされるところが、画像セグメンテーションの応用分野です。

画像セグメンテーションの手法

まずは、既存の画像データにアノテーションを付与します。データ量が多いと、アノテーションに大変手間が掛かってしまうことが多いので、こちらのステップでは高性能なツールを活用したり、アノテーションサービスに外注するなど、ご検討ください。前処理済の画像データセットが準備されましたら、そちらを解析し、次に画像セグメンテーションのネットワークを作成します。画像を画素カテゴリに分類するため、ネットワークに学習させ、他の機械学習プロセスと同様、ネットワークの精度を評価します。

画像セグメンテーションは、完全畳み込みネットワークという、全ての層が畳み込み層であるモデルによって実現されます。画像セグメンテーションの手法について詳しくは、こちらの動画も御覧ください。

For privacy reasons YouTube needs your permission to be loaded. For more details, please see our プライバシーポリシー.

当社は拡張現実(AR)ゲームやモバイルアプリで利用される顔認識や動作予測のために、ランドマークアノテーション(キーポイントアノテーション)を提供しています。 多くの拡張現実(AR)ゲームやアプリは、顔や表情を正確に認識して追跡できるコンピュータビジョンモデルを必要とします。当社は多種多様な顔画像を収集し、顔追跡や感情検出に必要なキーポイントを付与することができます。また、体の部位のアノテーションや動作予測に役立つ体全体の画像のランドマークアノテーションも提供しています。

トランシンクが支援する画像セグメンテーションサービス

画像セグメンテーション向けのデータセットやアノテーションサービスを提供し、AI研究開発を支援しています。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中