目次

ディープフェイクとは

「ディープラーニング」と「フェイク」を組み合わせた用語であるディープフェイクは、ディープラーニング技術を利用して作成された合成メディアです。明らかに悪意ある目的で合成が行われたわけではない場合もありますが、実際の人間の画像や動画、音声を使ったメディア操作には、道義的および法的な懸念が生じます。

ディープフェイクは、その人が実際行っていない動作を行ったり、実際口に出していないことを発言したりしているかのように描くことができます。基本的に、対象人物の画像を数百から数千件与えれば、ディープフェイクアルゴリズムがその人の様々な表情や、複数の角度から捉えた顔つきを学習します。学習が進めば、別の人の表情を真似すると対象人物の顔がどのように見えるかを予測できるようになります。ディープフェイクアルゴリズムに誰かの声のアクセントやイントネーション、トーンの模倣を学習させる際も同様のプロセスが利用されます。

例えば、以下の動画はディープフェイクを使用し、オバマ元大統領になりすましています。オバマ氏の口と顎の動きが合成され、音声と合わせて作られたディープフェイク動画です。

For privacy reasons YouTube needs your permission to be loaded. For more details, please see our プライバシーポリシー.
I Accept

さらに、ディープフェイクアルゴリズムを実行するための技術的難易度は高くないので、中級から上級用の消費者向けパソコンと十分なストレージスペースがあれば、どんな人でもディープフェイクを作成することが可能です。ディープフェイクアルゴリズムの詳細については、オープンソースプログラムのDeepFaceLabFaceSwapをご覧ください。どちらもGithubで利用できます。

ディープフェイクの危険性

ディープフェイクは市民の日常生活における脅威となるだけでなく、組織犯罪や国家安全保障問題に至るまで、社会の様々な場面で影響を与える可能性があります。

まず、個人レベルで乱用される恐れがあります。ディープフェイクはネットいじめや名誉毀損、脅迫に利用することが可能です。2017年には、有名人の顔をAV動画に貼り付けたディープフェイクポルノが大きなトレンドとなり、Redditや多くのポルノサイトで共有されました。誰かがあなたの顔画像を利用したポルノ画像や動画をあなたの友人や家族と共有してしまうと、たとえ事後にそれがフェイクであることが判明しても手遅れになる場合があります。

ディープフェイクは、組織犯罪やネット詐欺を企てる者にとってドル箱となる可能性があります。画像や動画の操作以上に懸念されているのは、ディープフェイク技術により、信じられないほどの精度で人のアクセントやイントネーション、音声パターンを模倣できることです。

Photoshopや画像を自由に変更できる機能はよく知られていますが、ディープフェイクテクノロジー、その中でも特に音声模倣は、データサイエンスや機械学習の分野以外の人にはほとんど知られていません。操作された音声や合成音声は、仮想誘拐で利用される可能性があります。仮想誘拐は、多くの場合ソーシャルメディアを通じて標的を定め、その人の家族を誘拐したことを告げる電話をかけて、身代金を要求します。こうした詐欺では、電話の向こうから、俳優が演じた助けを呼ぶ声が聞こえることが多く、被害者はそれを家族の声だと信じて、警察に連絡する前に身代金を送金してしまうのです。子供の動画をオンラインで共有することが増えているデジタル時代では、ディープフェイク音声を利用してこのような詐欺が容易に加速化する恐れがあります。

企業分野では、ディープフェイクがブラックハットマーケティングのより悪質な形態として利用される可能性があります。競合他社のCEOが誹謗中傷や不快な発言をしているディープフェイク動画を作成して、ソーシャルメディアでリークすることができるのです。ディープフェイクを用いた業務妨害によって、容易に他社の株価を操作することが可能です。

ディープフェイク対策

これまで見てきたように、ディープフェイクには重大な危険性が指摘されていますが、OpenAIのポリシーディレクター、ジャック・クラークは、誤情報やフェイクメディアは新しい問題ではないと強調しています。AIそれ自体が問題なのではなく、これまで常に存在していた問題をAIが顕在化しているだけなのです。ディープフェイクテクノロジーは、危険な事例より役に立つ活用例の方が多いツールの一つにすぎません。悪意ある意図をもってディープフェイクを利用する者からの被害を最小限に抑えるために、特定の対策や予防策を講じる必要があります。

各個人やソーシャルメディア、そして報道機関は、偽造が疑われるメディアをすばやく容易に検出するためのツールを準備しておく必要があります。コンテンツのポリシング(取締り)は、政府ではなく各個人が主体となって行うべきです。自分たちが閲覧または共有しているものが本物であるかどうかを各個人が直ちに識別できるようにする必要があります。また、ソーシャルメディアサイトにモデレーションの強化を求める圧力も高まっています。

悪意のあるディープフェイクへの対策を考える前に、まずその検出方法を学ぶ必要があります。自動検出を利用すれば、事後にこのようなコンテンツに対応するのではなく、ディープフェイクの公開をストップすることができます。

国民の意識を高め、検出技術を開発し、新たな法規を定めることが重要となる一方、言論の自由も保障されなければなりません。合成メディアのラベル付け、モデレーションの強化、ソーシャルメディアにおけるサイト表示前の検閲などの提案を実行に移すと、有害なディープフェイクを抑制するために大変役立つ可能性があります。

しかし、ソーシャルメディアの特性は、自由と即時性にあります。イベントをリアルタイムで何百万人もの人と共有できることこそ、FacebookやTwitterなどのプラットフォームに人々が惹きつけられてきた理由です。投稿されたコンテンツの表示を遅らせ、コンテンツ分析を行うことは良い考えのように聞こえますが、わずか数分間とはいえ、その即時性が失われてしまうことはソーシャルメディア全体の本質を失うことにつながるでしょう。そのため、ソーシャルメディア大手が自社のプラットフォームにそのような大幅な変更を加えることに同意するかは疑問です。

ディープフェイク検出手法

このセクションでは、いくつかのディープフェイク検出手法についてご説明いたします。利用可能な様々な検出方法の概要をつかむため、ルーベン・トロサナ他による「DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection(ディープフェイクおよび関連技術:顔合成と偽画像検出に関する調査)」を参照しました。ディープフェイク検出手法についてさらに詳しく知りたい場合は、彼らの調査結果をご覧ください。

ここでは、ディープフェイク検出手法を次の三つの広いカテゴリーに分類しました。

  • 人為的特徴量(Hand-crafted特徴量)
  • 学習的特徴量
  • アーティファクト

以下で例として挙げた各手法は、その内容を最も適切に表していると思われるカテゴリーに分類したので、いくつかの手法は複数のカテゴリーに当てはまる可能性があります。簡潔に説明するため、各カテゴリーでは主な手法を数種ご紹介するだけにとどめ、パフォーマンスの議論も最小限にしました。本コンテンツについて詳しく学びたい方のために、リンクを提供しておきます。では、早速ディープフェイク検出手法について見ていきましょう。

人為的特徴量(Hand-crafted特徴量)

ディープフェイク技術で作成した本物のように見えるコンテンツでも、多くの場合、明らかな欠陥があり、人間やアルゴリズムが詳しく調べるとそれを発見することができます。その一例は、顔の特徴に不自然な点がある場合です。ここでは、ディープフェイクを検出するため、具体的な特徴を抽出し、特徴選択(特徴エンジニアリング)を行う手法をいくつか見ていきましょう。

シュルティ・アガーワル他は、対象人物(POI)を他の個人やディープフェイクによるなりすましと区別できる新規性検出モデル(ここでは1クラスSVM)を含む手法を提案しています。 モデルのトレーニングに必要なのは、対象人物を撮影した本物のビデオだけなので、この手法はかなり興味深いものです。

著者の仮説によると、人は話す時、独特の(ただし、おそらく一意ではない)顔の表情や動きを示します。そこで、OpenFace2ツールキットを用いて、与えられたビデオから顔や頭の動きを抽出します。顔の動作単位や特定の軸周りの回転、口の特定のランドマーク間の3D距離を収集することにより、与えられた10秒のビデオクリップから20個の顔/頭特徴量を取得します。

最後に、上記の20個の顔/頭特徴量の間のピアソン相関係数を計算し、10秒間のクリップを表す190次元の特徴ベクトルを取得します。190次元の特徴ベクトルを抽出した後は、1クラスサポートベクターマシン(SVM)を利用して、10秒のビデオクリップが正真正銘、対象人物のビデオかどうかを判別します。

また、タクヒョン・チョン他もディープフェイクの検出に人為的特徴量を利用する別の方法を提案しています。これは、人のまばたきのパターンを分析して、ディープフェイクビデオを検出する手法です。まばたきのパターンは体調や認知活動、生物学的要因に基づいて変化することが知られており、研究ではこれを前提にしています。この手法では、アルゴリズムをいくつか用いて顔領域を抽出し、ビデオの各フレームで目のアスペクト比(EAR)を計算します。目を閉じた時のEAR値は通常、目を開いた時より小さくなるので、適切な閾値を設定することにより、EAR値に基づいてまばたきを検出し、ビデオ内のまばたきパターンを分析できます。(正確なフレームワークの定式化については元の論文をご覧ください)

このフレームワークでは、ビデオ内の人物を説明するための入力として四つの属性(性別、年齢、活動、時間)が使用されました。これらの属性に基づき、代表的なまばたきパターンのデータを集めて事前に作成したデータベースにクエリを実行します。次に、データベースのクエリから得られたまばたきパターンのデータと測定したまばたきパターンを比較して、ディープフェイクかどうかを検出します。

人為的特徴量を利用した検出手法の詳細は、前述の調査論文や「GANprintR」論文の関連セクションをご覧ください。

学習的特徴量

ここでは、学習的特徴量を用いてディープフェイクを検出する手法を見ていきましょう。これらの手法の多くは、ディープフェイク検出に必要な特徴量の学習に、畳み込みニューラルネットワーク(CNN)を利用します。

アンドレアス・レスラー他による論文「FaceForensics++」では、数種の学習ベース手法と一種類の人為的特徴量抽出手法を用いて、様々な品質のビデオにおける偽画像検出能力を評価しています。入力画像から事前に顔領域を抽出し(手法によっては、センタークロップまたはサイズ変更も行う)、様々な手法で偽画像を検出しました。すると、生のインプットデータでは全ての手法が高い精度を達成しましたが、圧縮したビデオを使用した場合は、パフォーマンスが低下しました。実験で用いた手法のうち、全てのビデオ品質にわたって最高のパフォーマンスを達成したのはXceptionNetモデルでした。

一部のディープフェイク作成手法は、時間的一貫性を維持したビデオを生成することができません。このような不整合によって生じるアーティファクトが、ディープフェイクビデオを検出するための良い手がかりになります。

モデルのトレーニング用に空間情報と時系列情報を組み合わせる方法の一つは、3D畳み込みニューラルネットワークを利用することです。そこで、ヤオフイ・ワン他は、3D畳み込みニューラルネットワーク(具体的にはI3D、3D ResNet、3D ResNeXt)の加工ビデオ検出能力を分析しています。彼らが行った様々な実験に関しては、元の論文をご参照ください。

イレーネ・アメリーニ他は、オプティカルフローを利用してディープフェイクを検出する方法を提案しています。大まかにご説明すると、ディープフェイクビデオでは、フレーム間の動きの不整合(顔の一部の不自然な動きなど)が生じる可能性があり、オプティカルフローによってこれを捉えることができるというものです。与えられたフレームf(t)に対してPWC-Netモデルを利用して、オプティカルフローのフォワード推定OF(f(t), f(t+1))を行うと、シーン内の様々な要素の見かけの動きを予測できます。抽出されたオプティカルフロー値はRGB画像形式に変換され、オプティカルフローCNNがそれを利用してディープフェイクを検出します。

アーティファクト

現時点では、ディープフェイクの作成手法は完璧ではありません。そのため、しばしば画像加工の証拠が残るので、これを分析すれば、そのメディアがディープフェイクかどうかを推定できます。ここでは、しばしばアーティファクトと呼ばれるこのような証拠を探す検出手法を見ていきましょう。

ディープフェイク検出手法の中には、画像内の感度不均一性(PRNU)パターンを利用するものがいくつかあります。論文「ノイズプリント」の著者が言及しているように、ルーカス他の画期的な論文によると、デバイス製造過程に不完全性が存在するため、全ての取得画像には個々のデバイス独自のマーク(PRNUパターン)が残ることが観察されています。つまり、PRNUがない場合は、加工された画像であることを示している可能性があるということです。そこで、当然のことながら、PRNUベースの手法はディープフェイク検出に利用できますが、これらの手法にはいくつか欠点があります。その一つが、適切な推定を行うためには多くの画像を必要とすることです。

フランチェスコ・マーラ他による別の論文では、カメラがPRNUの跡を残すのと同じように、GAN(敵対的生成ネットワーク)が生成した画像にも特定の「フィンガープリント」が残ることが示されています。著者らは、GANのフィンガープリントの証拠を示す実験を提示しています。

特定のGANによって生成された画像Xiで、フィンガープリントは画像のセマンティクスと関係のない外乱を表します。フィンガープリントを取得するためには、まずRi = Xi – f(Xi)を用いて残留ノイズRiの値を算出します。関数fはノイズ除去フィルターです。この残留ノイズは、ゼロでない確定的要素(フィンガープリント、F)とランダムノイズ要素(Wi)の和に相当すると考えられるので、Ri = F + Wiになります。

ランダムノイズ要素は、同じGANが生成した異なる画像を多数入力して平均をとるとほぼ相殺されるので、上記の計算を行うとGANフィンガープリントの値を推定できます。

さらに、この研究では、フィンガープリントを利用して、異なる種類のGANが生成した画像を判別する実験も行われています。この実験では、次のような二つの異なるGANアーキテクチャが使用されました。

  • GAN A: オレンジの画像をリンゴの画像に変換するためにトレーニングされたCycle GAN
  • GAN B: キッチンの画像を生成するようトレーニングされたProgressive GAN

画像とフィンガープリントの相関や同様の指標に基づけば、有意なフィンガープリントを利用して、与えられた画像はどちらのGANが生成したものかを判別できるはずだと著者らは述べています。実験結果は次の通りです。

  • GANの相互相関(一つのGANが生成した画像の残留ノイズと別のGANのフィンガープリントとの相関)はゼロ付近に均等に分布し、生成画像と、関係のないフィンガープリントの間には相関性がないことを示しています。
  • GANの自己相関(一つのGANが生成した画像の残留ノイズと同じGANのフィンガープリントとの相関)はゼロより著しく大きく、正しいフィンガープリントの間には有意な相関があることを証明しています。
    この結果は、フィンガープリントを利用すれば、ディープフェイク検出だけでなく、ディープフェイクのソースまで特定できる可能性があることを示唆するので、興味深いものです。ただし、これらのフィンガープリントの特性や使い勝手、堅牢性を評価するためにはさらなる研究が必要であると著者らは述べています。

さらに、ニン・ユー他の研究では、GANのトレーニングとフィンガープリントの分析に関する詳しい調査が行われています。彼らは、GANのトレーニングがわずかに違うだけでもフィンガープリントは異なる可能性があり、これによってきめ細かいモデル認証が可能になるという興味深い主張を提示しています。彼らの研究は全般にわたって、GANフィンガープリント手法の実現可能性や性能に関する優れたインサイトを提供します。

ディープフェイク検出が直面する課題

ディープフェイク検出手法の精度向上には、クリアしなければならない課題がいくつかあります。以下で見ていきましょう。

画質の低下

インターネットで共有されるメディアは、データ圧縮やサイズ変更、ノイズなどによって品質が低下している可能性があります。一部のディープフェイク検出アルゴリズムにとっては、これが精度向上を阻む課題となる場合があります。

前述の通り、論文「FaceForensics++」では、異なる品質のビデオを用いて検出手法のパフォーマンスを比較しています。その結果、生の入力データでは高い精度を示すのに対し、圧縮されたビデオではパフォーマンスが低下することが明らかになっています。

品質やコンテンツの劣化に対してロバストなディープフェイク検出手法を開発することは非常に重要です。ディープフェイクや偽造証拠などのメディアアイテムは、様々な品質のものがオンラインで広範に拡散されている可能性が高いからです。

アーティファクトやフィンガープリントの除去

検出に利用されるアーティファクトまたは「フィンガープリント」情報を偽画像の作成者が除去して、ディープフェイク検出を逃れようとする可能性があります。例えば、「GANprintR」論文では、合成した偽画像からGANフィンガープリントを除去する簡単な自動エンコーダベースの手法が紹介されています。これは、画像の視覚的品質を維持しながら顔加工検出システムを騙す手法です。このような戦略は、一部のディープフェイク検出手法の精度を脅かします。

さらに、ディープフェイク検出手法が非常に限定された特性(映像内の異常なまばたき率など)に依存している場合は、それらの特性を持たないディープフェイク作成手法が開発されていくでしょう。

ディープフェイク検出手法の汎用化や進化の遅れ

平たく言うと、一部のディープフェイク検出戦略は、トレーニング分野と異なるコンテンツや加工技術への汎用性が低い場合があります。ヤオフイ・ワン他は複数の画像加工手法を用いた実験の一つで、本物のビデオと、3種類の加工技術を用いて作成したフェイクビデオを基に、3D畳み込みニューラルネットワーク検出器をトレーニングしました。トレーニング済みのモデルを使用して、トレーニング時とは異なる手法で作成されたディープフェイクの検出をテストしたところ、(他の実験と比較して)パフォーマンスの低下が認められました。

ディープフェイク検出において、未知の分野への汎用化は非常に重要です。一つには、ディープフェイク検出を実世界に適用する場合、コンテンツの本当の出処や、偽情報の検出など特定のシナリオに適用される加工の種類はわからない可能性が高いからです。また、新しいディープフェイク作成手法が開発されるにつれ、汎用性の低い戦略は、これらの手法をカバーするために常にアップデートする必要が生じます。一部のディープフェイク検出手法は他のものより未知の分野への汎用性が高い場合があります。このような戦略を特定し、制約のない設定に適応できる検出手法を生み出すことが重要です。

ディープフェイクの未来

ディープフェイクが蔓延するオンラインの世界に入るのは、ブラックボックスに入るようなもので、そこに何があるかわかりません。それと同じように、テクノロジーとその活用事例に対する恐れは、2000年以降顕著でした。今後は、私たちに役立つものがないか調べてみることを選択すべきではないでしょうか。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中