顔認証AIの仕組みを解説

顔認証はコンピュータビジョンの一分野であり、人間の顔を認識・認証する機能を持つ機械の研究開発を行います。研究者らは主に、ビジネスや人々の生活の改善につながる顔認識AIの開発に携わっています。この記事では、顔認識AIに関する理解を深めるための参考にしていただけるよう、顔認識とは何か、その仕組みや様々な活用事例、現在の顔認識の精度についてまとめました。

顔認識AIとは

顔認識ソフトウェアはセキュリティおよび監視業界だけでなく、消費者市場においても様々な活用事例があります。実際、中国では既に、顔認識技術がセキュリティプロトコルや決済手続きの改善に利用されており、世界の他の国々もこれに追随する可能性があります。

顔認識モデルが実行するタスクは主に二つあります。一つ目は、新たに入力された顔画像を既知の顔データと比較する「認証」です。顔認証によるスマートフォンのロック解除が良い例です。システムをセットアップすると、端末はユーザーの顔を所有者として登録します。そのため、ロックを解除する際は、新たな顔画像を登録済みの顔と比較するだけです。

二つ目のタスクは、インプットされた顔を複数の顔データから成るデータベースと比較する「認識」です。これは、セキュリティおよび監視システムでよく利用されます。法執行機関が使う顔認識が良い例です。国際刑事警察機構（インターポール）のウェブサイトには、容疑者を特定するため、空港や国境検問所でどのように顔認識が利用されているかを説明するフォレンジックセクションがあります。

顔認識AIの仕組み

このように顔認識の分野に注目が集まる中、データサイエンティストは毎年、顔認識に対する新たなアプローチを開発しています。このセクションでは、顔認識モデルの基本的な仕組みと、顔の埋め込みを作成する二つの手法の主な違いについて簡単にご説明しましょう。

顔認識は基本的に、次のようなステップに従います。

1.　入力画像が顔認証アルゴリズムに送られる

2.　顔認証アルゴリズムが入力画像に対する顔の埋め込みを作成する

3.　顔認証アルゴリズムが入力画像の顔の埋め込みをデータベース内の顔の埋め込みと比較する

顔認証アルゴリズムの学習

どのアプローチにも異なる学習方法があり、研究者らはしばしば、その分野で確立された手法を調整したり、何らかの要素を付け加えたりします。しかし、ほとんどのシステムは、顔認証アルゴリズムの学習でトリプレット損失を利用します。顔認識では、アルゴリズムに三つの画像を入力してトリプレット損失を計算します。

二つの画像は人物Aのものであり、残りの一つは人物Bの画像です。顔認証アルゴリズムはそれぞれの画像の顔の埋め込みを作成し、比較します。比較後、人物A同士の埋め込みの方が人物Aと人物Bの埋め込みの場合より類似するようにネットワークがわずかに調整されます。これによって、アルゴリズムは顔の測定値を利用して、同一人物の画像を同じものとして正確に分類できるように学習します。この過程が数十万回あるいは数百万回繰り返された後、ネットワークは今まで見たことのない顔でも正確な埋め込みを作成できるようになるのです。

顔の埋め込み

アルゴリズムが顔を比較できるようにするためには、まず、顔画像をアルゴリズムが理解可能なデータに変換する必要があります。そのために、システムは顔の特徴やランドマークに基づいた測定値を計算します。以下の図は、顔ランドマーク（顔キーポイントとも言う）を68個視覚化しています。これらのランドマークを利用して、顔認証アルゴリズムは各画像独自の顔の埋め込みを作成することができます。

決定論的顔埋め込み（Deterministic Face Embedding）

顔の埋め込みを作成することにより、顔画像は数値データに変換されます。次に、そのデータが潜在的意味空間でベクトルとして表されます。潜在空間で埋め込みが似ているほど、同一人物である可能性が高くなります。

ただし、決定論的顔埋め込みを利用するモデルの精度は、インプット画像の明瞭度に左右されます。さらに、このようなモデルはしばしば、制約のある設定の下でテストされます。しかし、実際には、監視ビデオからのインプット画像などは多くの場合、制約のない、あるいは制御されていない設定なので、画像の質が悪かったり、顔の一部が隠れていたりします。このような場合、決定論的顔埋め込みを利用するアプローチの精度は低下します。

確率論的顔埋め込み（Probabilistic Face Embedding）

2019年8月に発表された論文で、イーチュン・シーとアニル・K・ジェインが顔認識に関する代替的な手法である確率論的顔埋め込みを提案しました。確率論的顔埋め込みは顔画像をポイント推定ではなく分布として表します。

上の画像は、決定論的顔埋め込みと確率論的顔埋め込みの違いを視覚化したものです。左側では、潜在空間における顔の埋め込みがポイントの推定として表されていて、埋め込みの不確実性を示す指標はありません。一方、PFEでは、分布の平均は最も可能性の高い顔の特徴の推定値を表し、分布の分散は特徴値の不確実性を示します。

もちろん、顔の特徴が欠けていたり曖昧だったりするような不鮮明な画像では、不確実性が高くなります。

顔認識AIの精度

これまで、顔認識とは何か、およびその仕組みについて説明しました。しかし、より重要なのは、顔認識技術が信頼できるレベルに達しているかどうかです。現在の顔認識技術の精度はどの程度なのでしょうか？

その問いに対する唯一の明確な答えはおそらく見つからないでしょう。顔認識AIの精度はアルゴリズムやそれをテストする環境によって異なることが明らかになっています。下の表は現在のモデルが達成可能な精度を示しています。よく知られている三つのシステムとテストデータセット、精度に関するデータが含まれています。

顔認識AIの精度表

システム	テストデータセット	精度
FaceNet	Labeled Faces in the Wild （LFW）	99.63%
AM-Softmax	IJB-A	84.69%
AM-Softmax（PFE）	IJB-A	87.58%

Googleが開発したFaceNetは、高度に制約された設定による顔画像データセットであるLFWで素晴らしい結果を出しています。一方、AM-Softmaxは、制約のない設定による顔画像のデータセットであるIJB-Aにおいて84.69%（PFEを利用した場合、87.58%）の精度しか達成していません。IJB-Aデータセットの画像の多くは、ポーズや画像条件、アングルが異なっています。

これらのデータから、制約された設定では、最先端のシステムの多くが比較的うまく機能することがわかります。しかし、制約のない設定でテストすると、精度が著しく低下します。

では、顔認識ではどの程度の精度があれば十分なのでしょうか？FaceNetの99.63%は、かなり高い精度のように思えます。しかし、許容できる精度は規模やコンテキストによって異なります。例えば、空港のセキュリティというコンテキストで考えると、許容できる誤差の範囲を定めるのは困難です。

ハーツフィールド・ジャクソン・アトランタ国際空港は毎日26万人以上の旅客に利用されています。このような規模では、ほとんどのセキュリティ担当者が0.37%の誤差でも受け入れ難いと感じるでしょう。そのため、研究者らは常に、顔認識に対する新しいアプローチを模索しています。計算能力が向上するにつれ、顔認識の精度も引き続き向上するでしょう。

顔認識AIの活用事例

法執行機関やスマートフォン開発者はセキュリティを向上させるために顔認識を利用していますが、顔認識の活用事例はそれだけにとどまりません。実際のところ、この技術の活用事例は多岐にわたっています。以下に挙げたものは、今日、多くの企業によって活用されている顔認識のうち興味深い事例のいくつかにすぎません。

拡張現実（AR）

人気のあるスマートフォンアプリの多くが顔認識に依存しています。その代表的な例がInstagram、Snapchat、LINEの顔フィルターです。ユーザーの顔ランドマークを特定することによって、ARアプリがリアルタイムでユーザーの顔に画像フィルターを正確に重ねることができます。

顔認証AIを用いたキャッシュレス決済

ほとんどの国ではまだ利用できませんが、中国では顔認識による決済を受け付ける小売業者が多数存在します。さらに、2019年10月16日には、SnapPayが北米で顔認識決済技術を利用可能にすることを発表しました。

顔認証AIを用いたセキュリティゲート

顔認識AIの別の活用事例は、セキュリティゲートまたはセキュリティドアでしょう。マンションの入り口、オフィスの正面ロビー、駅の改札口などで、顔認識技術による入場の許可または拒否を行うことができます。ほとんどの国でこの技術はまだ一般的でありませんが、中国では既に多くの企業がこの技術に目をつけているようです。

上のビデオでは、中国最大のIT企業の一つ、百度（バイドゥー）の顔認識セキュリティゲートの仕組みを簡単に紹介しています。ご覧の通り、顔認識には数々の優れた活用事例があります。モデルの精度が向上するにつれ、顔認識技術をインフラに取り入れる国も増えるでしょう。

これらの情報が顔認識やその仕組みに関する基本的な理解を深めるためにお役に立ちましたでしょうか。顔認識はビジネスや日常生活に役立つ豊富な活用事例があるため、機械学習研究の中で人気のある分野であり続けるでしょう。この分野では毎年、世界最大のIT企業数社によって新たな研究が行われています。

顔認証の最新情報（2020年）

顔認識技術は2000年初め頃から存在していますが、この技術が本格的に普及し始めたのは2010年頃のことです。この時期以降、開発が急ピッチで進められ、市場に参入する企業も増え、顔認識技術の実装が広がりました。そして、2020年後半に入っても、顔認識技術の開発はとどまるところを知りません。特に、監視およびセキュリティ分野、法執行機関などで活用が進んでいます。しかし、この技術が普及し、様々な業界で実装されるようになるにつれ、顔認識システムの精度やプライバシー、潜在的なバイアスについて詳しい調査を求める声が高まっています。以下では、2020年の顔認識に関する主なニュースを集めています。顔認識技術の活用事例や規制の動向、そして、この技術が全世界に与える影響について包括的に把握できるよう、定期的にアップデートしていきたいと思います。

2019年12月

2019年12月下旬、顔認識技術に欠陥があるという調査結果が発表されました。米国国立標準技術研究所（NIST）によると、現在の顔認識アルゴリズムでは、白人よりもアフリカ系アメリカ人やアジア人を誤認するほうが圧倒的に多いということです。

この調査では、Intel、Microsoft、Tencentを含む99の開発者から合計189個のアルゴリズムを集めて、テストが行われました。すると、多くのアルゴリズムが、白人の場合より10倍から100倍高い確率でアジア人およびアフリカ系アメリカ人を誤認することが明らかになりました。そして、これらの結果が、顔認識技術の全体的な有効性に疑問を投げかけることになったのです。

米国国立標準技術研究所（NIST）の発表以外でも、この時期、顔認識技術の精査と規制の強化を求める声が高まりつつありました。米国の民主党議員は、顔認識技術のバイアスをめぐる懸念から、連邦政府が支援している住宅での顔認識の使用を見直すよう住宅都市開発省に要求しました。

また、AI Now研究所は2019年のレポートで、感情認識技術の禁止を訴えています。科学的根拠が欠如していることを理由として、研究者らは、人材の採用や生徒の成績、痛みの評価など、人間の生活に影響を与えるような意思決定の際、この技術を使用するべきではないと結論づけています。

2020年1月

2020年1月、Clearview AIという顔認識企業に関する記事がニューヨーク・タイムズ紙に掲載されました。この記事は、Clearview AIという新興企業がオープンウェブから人物の画像を数十億件収集し、新しい画像と数秒で照合できるデータベースを作成したことを報じています。そして、同社のクライアントリストに法執行機関が多数名前を連ねていることや、プライバシー性の高い情報を基に商業的なデータベースを作成することの合法性について、疑問を投げかけています。

一方、デジタル権利擁護団体のFight the Futureは同時期、大学での顔認識技術の使用禁止を求める運動を開始しました。同団体の副理事長は、書面で次のように述べています。「このような侵襲的な技術は、私たちの基本的な自由や公民権、そして学問の自由にとって深刻な脅威になります」

2020年2月

2月初め、ロンドン警視庁（Met）は、ロンドン東部の商業施設ストラットフォード・センターを皮切りに、顔認識による監視の運用を開始しました。ロンドン警視庁の警視総監は、偽陽性率が1000分の1であると述べていましたが、プライバシー擁護団体であるBig Brother Watchによる調査では、試験運用中の誤認率は93パーセントに達することが示されています。

2月下旬、OneZeroの記事で、NECが顔認識技術の分野でキープレーヤーの一つになっていることが報じられました。NECは、米国、イギリス、日本、インドのクライアントと連携して、過去10年にわたってこの業界で着実に基盤を固めてきたのです。

また、バズフィードニュースの記事では、Clearview AIのクライアントは法執行機関だけでなく、米国移民税関捜査局（ICE）、ウォールマート、全米バスケットボール協会（NBA）などに及ぶことが報じられています。さらに、Clearviewの技術は、27カ国の2,200を超える法執行機関で使用されているということです。この記事は、顔認識技術がどれほど広範囲に使用されているかを明らかにしただけでなく、「データベースの提供は厳密に法執行機関だけに限られる」と述べたClearviewのCEOの主張に疑問を投げかけています。

これら一連の流れを受け、米国やスコットランドの議員が、法執行機関による顔認識技術の利用を規制することを検討し始めました。このような規制は、正式な政府のガイドラインが確立されるまで、顔認識技術の利用を禁止し、この技術がプライバシーや公民権を侵害するのを防ぐことを目的としています。

2020年3月

2020年初め、新型コロナウイルス感染症が世界中に拡大し始めたことから、アジアを中心にマスクを着用する人が増加し、顔認識技術も急ピッチでそれに適応することを余儀なくされました。そして、3月初めには、Hanvonと呼ばれる中国の企業が、マスク着用時でも人物を特定する方法を開発したと発表しました。公安省は既にこの技術を利用して人物の特定や追跡を行っていると報じられています。

また、マスク着用の人物を特定する必要が生じてきたため、マスク着用の人物画像のデータセットがオンラインで違法に販売されていることが後に別の報道で明らかになりました。販売者らは、公開されているウェブサイトやソーシャルメディアからデータを収集したと主張していますが、オフィスビルや居住地域の入り口での顔スキャン画像が含まれている場合もありました。

2020年4月

4月下旬には、ロシアが新型コロナウイルスの感染拡大を抑制するために顔認識技術を利用していることが報じられました。中国と同様、ロシアも数年にわたり顔認識技術の開発に力を入れていましたが、現在はパンデミックと戦うために顔認識技術を利用しています。この記事では、ウイルス検査で陽性反応が出た人やリスクが高いとみなされる人を監視するシステムの詳細が説明されています。

2020年5月

5月初め、NBCニュースは、Clearview AIが新型コロナウイルスの接触者追跡を支援するため、連邦および州の機関と協議を行っていることを報じました。Clearview AIのCEOは次のように述べています。「私たちは主に政府や法執行機関にサービスを提供していますが、新型コロナウイルスに関するソリューションや感染の可能性がある人を追跡する方法などに対する需要が高まっています」。このニュースを受け、米国の上院議員たちは、Clearview AIと協議を行っている連邦および州の機関の詳細について正確な情報を求めています。エドワード・マーキー上院議員は、「Clearview AIが新型コロナウイルスパンデミックへの米国の対応に関与するようになれば、同社の侵襲的技術が常態化し、個人の自由やプライバシーの保護は終わりを告げるのではないかと懸念しています」と述べています。

一方、カリフォルニア州では、議員たちが、顔認識の使用を規制する法律の制定について議論する準備に取り掛かりました。議会法案2261として提出された法案は、事前に通知することを条件として、企業や政府機関に顔認識技術の使用を許可するというものでした。

2020年6月

カリフォルニア州で議会法案2261が否決され、企業が近い将来、顔認識技術を使用することは事実上、阻止されました。

意外なことに、IBM社のCEOは議会に宛てた書簡で、次のように述べています。「IBMは、今後、汎用的な顔認識や分析ソフトの提供は行いません。当社は、他ベンダーが提供する顔認識技術を含む、集団監視、人種プロファイリング、基本的な人権と自由の侵害など、われわれの価値観や『信頼性および透明性の原則』と一致しない目的のために技術を使うことに強く反対し、容認しません」

IBM社はもはや顔認識技術の最先端を行く開発者ではないと論じる人もいるでしょうが、この発表後、テクノロジー業界ではIBM社と同様の行動が続きました。Microsoftは、米国の警察への顔認識技術の販売を見合わせることを発表し、Amazonは政府が規制のルールを確立できるように警察への顔認識技術の提供を1年間停止しました。

さらに、同時期には、顔認識技術が直接関与した誤認逮捕の件で、米国自由人権協会（ACLU）がデトロイト警察に対して正式な申し立てを行ったことが明らかになりました。顔認識システムが誤って万引き犯の防犯カメラ画像に一致していると判断したため、無実のアフリカ系アメリカ人が警察に逮捕されたことに抗議したものです。この誤認逮捕の被害者は、自宅の前庭で逮捕され、30時間拘束されました。後に、デトロイト警察署長は、警察の監視技術の誤認率は96パーセントであることを認めました。

この報道の翌日、米国の議員たちは、議会の明確な承認を受けずに連邦機関が顔認識技術を利用することを一切禁止する法案を提出しました。この法案が可決されれば、監視のための顔認識の使用が大きく制限されることになります。

6月中旬、ボストン市議会は、顔認識技術の使用を禁じる条例を全会一致で可決しました。この条例はまた、市の職員が第三者に顔認識を用いた監視を依頼することも禁じています。これによって、ボストンは、顔認識技術の禁止令を定めた都市としては、サンフランシスコに次ぐ規模の都市となります。

2020年7月

7月現在、カナダの全法的機関は、Clearview AIとの契約を停止しています。これは、カナダのプライバシー委員会がClearview AIおよびカナダにおける同社の最後のクライアント、王立カナダ騎馬警察の両方を調査した結果です。Clearview AIに関する他の調査はまだ進行中です。また、オレゴン州ポートランド市は、民間企業や公共の場で顔認識技術を用いることを禁止する新たな条例案を発表しました。ただし、顔認識技術の使用を完全に禁止するわけではなく、空港や礼拝所、公立の学校での使用は違法にはなりません。この条例案の採決は8月13日に行われる予定です。

顔認証の未来

顔認識技術に対する規制が強まる傾向はあるものの、顔認識の研究や実装は世界中で継続されています。その成長見通しを示すため、Global Market Insights, Inc.（グローバルマーケットインサイト）は最近、顔認識技術の評価額は2026年までに120億ドルに達すると予測したレポートを発表しました。

一方、顔認識技術がどのように使用され、認識されているかは国や地域によって異なることに注意することも重要です。顔認識が今後どのように開発されるのかは、研究開発に携わっている企業、政府の関心および使用例、そして使用規模などの要素に依存します。

TranSynkのアノテーション付き顔認証画像データセット

拡張現実（AR）ゲームやモバイルアプリで利用される顔認識や動作予測のために、ランドマークアノテーション（キーポイントアノテーション）を提供しています。多くの拡張現実（AR）ゲームやアプリは、顔や表情を正確に認識して追跡できるコンピュータビジョンモデルを必要とします。当社は多種多様なアノテーション付きの顔画像を収集・販売しています。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

・・・全文を読む

無料

機械学習用
音声コーパス

・・・リストを見る

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

ホーム

データセット

プロジェクト事例

文章分類の活用事例

機械翻訳の品質評価

アラビア語音声データ

テキストコーパス作成

ピックアッププロジェクト

アラビア語音声データセット