ディープフェイクに関するワンストップの説明と、Faceswap を使用して簡単にディープフェイクを作成する方法を説明します。
人工知能はもはや「人工」ではありません。この時代は、それを私たち人間に危険なほど近づけています。
提案したり、書いたり、芸術を創造したりすることができ、まるで生きているように見え、話すようになりました。
これは、この分野で活用すべき最新の開発の 1 つです。ただし、これは私たちが注意しなければならないことでもあります。
ディープフェイクとは何ですか?
ディープフェイクという言葉は、ディープラーニングとフェイクを組み合わせた造語です。簡単に言えば、これは巧妙に操作されたメディア、または深く偽造されたメディアであると考えることもできます。
Wikipedia によると、これは合成メディアとしても知られており、既存の画像、音声、ビデオが変更されて、完全に別人を表現するものになります。
通常、ディープフェイクでは、著名な人物が通常なら言わないようなことを言っているように見えます。
作成者のスキルに基づいて、それが本物か偽物かを判断するのは非常に困難です。
ディープフェイクはどのように機能するのか?
簡単に言うと、元のビデオの一部 (顔など) が似たような偽物に置き換えられます。このような場合、この 「オバマ」ビデオ のように、フェイススワップと呼ぶこともできます。
ただし、ビデオだけに限定されるわけではなく、ディープフェイク画像や音声も用意されています (近い将来、ディープフェイク VR アバターも登場するでしょう)。
このようなトリックの背後にある有効な方法論は、主にアプリケーションと基礎となるアルゴリズムに依存します。
Disney によるこの研究論文 によると、エンコーダ/デコーダ、敵対的生成ネットワーク (GAN)、ジオメトリベースのディープフェイクなど、さまざまな技術が存在します。
ただし、次のセクションは Facewap との連携方法に大きく影響されます。 これは、複数のアルゴリズムで期待どおりの結果を得ることができる、無料のオープンソースのディープフェイク ソフトウェアです。
ディープフェイクを生成するには、抽出、トレーニング、変換という 3 つの主要なプロセスがあります。
#1. 抽出
これは、元のメディア サンプルと交換用のメディア サンプルから関心のある主題領域を検出して絞り出すことです。
ハードウェアの機能に基づいて、効率的な検出を選択するためのアルゴリズムが多数存在します。
たとえば、Faceswap には、CPU または GPU の効率に基づいて、抽出、位置合わせ、およびマスキングのためのいくつかの異なるオプションがあります。
抽出はビデオ全体から顔を特定するだけです。位置合わせは、あらゆる顔の重要な特徴 (目、鼻、顎など) をスポットします。最後に、マスキングにより、対象領域を除く画像の他の要素がブロックされます。
出力にかかる全体の時間は、オプションを選択する際に重要です。平凡なハードウェアでリソースを大量に消費するアルゴリズムを選択すると、失敗したり、許容可能な結果を表示するまでに大幅に時間がかかる可能性があるためです。
ハードウェアに加えて、選択は、入力ビデオに手の動きや眼鏡などの顔の障害が発生するかどうかなどのパラメータにも依存します。
抽出にはいくつかの誤検知が含まれるため、最終的に必要な要素は出力のクリーニング (後述) です。
最終的に、元のビデオと偽物 (交換に使用される) の抽出が繰り返されます。
#2. トレーニング
これがディープフェイク作成の核心です。
トレーニングは、エンコーダーとデコーダーで構成されるニューラル ネットワークに関するものです。ここでは、抽出されたデータがアルゴリズムに供給されて、後で変換するためのモデルが作成されます。
エンコーダは入力をベクトル表現に変換し、デコーダと同様にベクトルから顔を再作成するアルゴリズムをトレーニングします。
その後、ニューラル ネットワークは反復を評価し、損失スコアを割り当てることで反復を元の反復と比較します。この損失値は、アルゴリズムが反復を続けるにつれて時間の経過とともに低下し、プレビューが許容できる場合に停止します。
トレーニングは時間のかかるプロセスであり、通常、実行される反復と入力データの品質に基づいて出力が向上します。
たとえば、Faceawap は、オリジナルと交換用の画像をそれぞれ最低 500 枚ずつ提案します。さらに、最高の再現を実現するために、画像はそれぞれの間で大幅に異なり、独自の照明の下で可能なすべての角度をカバーする必要があります。
トレーニングの長さを考慮して、一部のアプリケーション (Faceswap など) では、トレーニングを途中で停止したり、後で続行したりできます。
特に、出力のフォトリアリズムはアルゴリズムの効率と入力にも依存します。そして、もう 1 つはハードウェアの機能によって制限されます。
#3. 変換
これはディープフェイク作成の最終章です。変換アルゴリズムには、ソースビデオ、トレーニング済みモデル、およびソースアライメントファイルが必要です。
その後、色補正、マスクの種類、希望の出力形式などに関するいくつかのオプションを変更できます。
これらのいくつかのオプションを設定したら、最終的なレンダリングを待つだけです。
前述したように、Faceswap は多くのアルゴリズムで動作し、許容可能な顔交換を得るためにさまざまなアルゴリズムを使用できます。
それだけですか?
いいえ!
これは単なる顔の交換であり、ディープフェイク技術のサブセットでした。顔の交換は、文字通りの意味のように、顔の一部を置き換えるだけで、ディープフェイクで何ができるかについてかすかなアイデアが得られます。
信頼性の高い交換を行うには、次のように、オーディオ (音声クローンとしてよく知られています) と、フレーム内に収まるものすべてを含む体全体を模倣する必要がある場合もあります。
それで、ここで何が起こっているのでしょうか?
何が起こったのかというと、ディープフェイク作成者が自分でビデオを撮影し(最後の数秒で示されているように)、会話をモーガン・フリーマンの合成音声で口パクし、頭を置き換えたということです。
結論的には、これはフェイススワップだけではなく、オーディオを含むフレーム全体の問題です。
YouTube では、何を信じてよいのか怖くなるほどディープフェイクが大量に見つかります。必要なのは、効率的なグラフィックス カードを搭載した高性能のコンピューターだけです。
ただし、完璧を達成するのは難しく、特にディープフェイクの場合はそれが当てはまります。
視聴者を誤解させたり驚かせたりする説得力のあるディープフェイクを作成するには、スキルと 1 ~ 2 分のビデオの処理に数日から数週間かかります。
興味深いことに、現時点でこれらのアルゴリズムの能力はこれくらいです。しかし、これらのアプリケーションがローエンドのハードウェア上でどれほど効果的であるかなど、将来がどうなるかは、政府全体を不安にさせています。
ただし、将来の影響については立ち入りません。代わりに、ちょっとした楽しみのために自分で行う方法を確認してみましょう。
(基本的な) ディープフェイク動画の作成
ミームを作成するためのディープフェイク アプリのこのリストでは、多くのアプリケーションを確認できます。
そのうちの 1 つは Faceswap で、これを使用します。
続行する前に確認することがいくつかあります。まず、ターゲットのさまざまな感情を描写した高品質のビデオが必要です。次に、ターゲットにスワップするソース ビデオが必要になります。
さらに、Faceswap を続行する前に、ブラウザやゲームなどのグラフィック カードを大量に使用するアプリケーションをすべて閉じてください。これは、VRAM (ビデオ RAM) が 2 GB 未満の場合に特に当てはまります。
ステップ1: 顔を抽出する
このプロセスの最初のステップは、ビデオから顔を抽出することです。このためには、 入力ディレクトリ でターゲットビデオを選択し、抽出用の 出力ディレクトリ をリストする必要があります。
さらに、検出器、アライナー、マスカーなどを含むいくつかのオプションがあります。それぞれの説明は Faceawap の FAQ にありますが、ここで情報を蒸し返すのは無駄です。
一般に、理解を深め、適切な出力を得るためにドキュメントを確認することをお勧めします。ただし、Faceswap 内には特定のオプションにカーソルを置くと表示される役立つテキストがあります。
簡単に言えば、普遍的な方法はなく、最良のアルゴリズムから始めて、説得力のあるディープフェイクを作成するまでうまく進めていく必要があります。
コンテキストのために、他のすべてのオプションをそのままにして、Mtcnn (検出器)、Fan (アライナー)、および Bisenet-Fp (マスカー) を使用しました。
当初、私は S3Fd (最高の検出器) と他のいくつかのマスクを組み合わせて試しました。しかし、私の 2Gb Nvidia GeForce GTX 750Ti は矢面に耐えることができず、プロセスは繰り返し失敗しました。
最後に、私はそれをやり遂げるために期待と設定をトーンダウンしました。
適切な検出器、マスカーなどを選択する以外に、 [設定] > [設定の構成] には、ハードウェアを支援するために個々の設定をさらに微調整するのに役立つオプションがさらにいくつかあります。
簡単に言うと、可能な限り小さいバッチ サイズ、入力サイズ、出力サイズを選択し、LowMem などにチェックを入れます。これらのオプションは普遍的に利用できるわけではなく、特定のセクションに基づいています。さらに、ヘルプ テキストは、最適なオプションを選択するのにさらに役立ちます。
このツールは顔を抽出するという優れた仕事をしますが、出力フレームにはモデルのトレーニング (後で説明します) に必要な量よりもはるかに多くのものが含まれる可能性があります。たとえば、すべての顔 (ビデオに複数の顔がある場合) が含まれますが、ターゲットの顔をまったく含まない不適切な検出も含まれます。
これはデータセットのクリーニングにつながります。出力フォルダーを確認して自分自身を削除するか、Faceswap の並べ替えを使用してヘルプを得ることができます。
前述のツールを使用すると、さまざまな面が順番に配置され、必要な面を 1 つのフォルダーにまとめて残りを削除できます。
念のため、ソースビデオの抽出を繰り返すこともできます。
ステップ2: モデルのトレーニング
これはディープフェイクの作成において最も時間がかかるプロセスです。ここで、 入力 A は ターゲット面を指し、 入力 B はソース面を指します。さらに、 モデル ディレクトリは トレーニング ファイルが保存される場所です。
ここで最も重要なオプションは Trainer です。個別のスケーリング オプションが豊富にあります。ただし、私のハードウェアで機能したのは、最も低い構成設定の Dfl-H128 とライトウェイト トレーナーです。
次にバッチサイズです。バッチ サイズを大きくすると、全体のトレーニング時間は短縮されますが、VRAM の消費量が増加します。反復は出力に固定的な影響を与えないため、十分に高い値を設定し、プレビューが受け入れられるようになったらトレーニングを停止する必要があります。
あらかじめ設定された間隔でタイムラプスを作成するなど、さらにいくつかの設定があります。ただし、最小限のモデルをトレーニングしました。
ステップ 3: オリジナルへの交換
これはディープフェイク作成における最後の偉業です。
通常、これにはそれほど時間はかかりません。多くのオプションを試して、目的の出力をすぐに得ることができます。
上の画像に示されているように、変換を開始するために選択する必要があるいくつかのオプションがあります。
入力および出力ディレクトリ、モデル ディレクトリなど、ほとんどのオプションについてはすでに説明しました。重要なことの 1 つは、ターゲット ビデオのアライメント ファイル (.fsa) を参照するアライメントです。これは、抽出中に入力ディレクトリに作成されます。
特定のファイルが移動されていない場合は、[配置] フィールドを空白のままにすることができます。それ以外の場合は、ファイルを選択して他のオプションに進むことができます。ただし、以前に抽出をクリーンアップした場合は、アライメント ファイルをクリーンアップすることを忘れないでください。
このため、このミニツールは [ツール] > [配置] にあります。
まず、 [ジョブ] セクションで [面の削除] を選択し、元の位置合わせファイルとクリーンなターゲット面フォルダーを選択して、右下の [ 位置合わせ] をクリックします。
これにより、最適化されたフェイス フォルダーと一致する、変更された位置合わせファイルが作成されます。これは、スワップ先のターゲットビデオに必要であることに注意してください。
さらにいくつかの設定には、カラー調整とマスク タイプが含まれます。カラー調整によってマスクのブレンドが決まります。いくつか試してプレビューを確認し、最適なオプションを選択できます。
マスクの種類の方が重要です。これも、あなたの期待と利用可能なハードウェアによって異なります。通常、入力ビデオの特性も考慮する必要があります。たとえば、 Vgg-Clear は 障害物のない正面顔に適切に機能しますが、 Vgg-Obstructed は 手のジェスチャーや眼鏡などの障害物にも機能します。
次に、 Writer は 、必要な出力に基づいていくつかの選択肢を提示します。たとえば、ビデオ レンダリングには Ffmpeg を 選択します。
全体として、ディープフェイクを成功させる鍵は、いくつかの出力をプレビューし、利用可能な時間とハードウェアの能力に応じて最適化することです。
ディープフェイクの応用
ディープフェイクには、良いもの、悪いもの、危険なアプリケーションがあります。
良いものは、より多くの参加を目的として、実際にそこにいた人たちによる歴史の教訓を再現することで構成されています。
さらに、テキストからビデオを生成するためにオンライン学習プラットフォームでも使用されています。
しかし、最大の恩恵を受けるのは映画業界だろう。ここでは、スタントマンが命を危険にさらす場合でも、実際の主演がスタントを演じる様子を容易に想像できます。さらに、多言語映画の作成もこれまでより簡単になります。
残念なことに、悪いものはたくさんあります。実際のところ、これまでで最大のディープフェイク アプリケーションの 96% (この Deeptrace レポートによると) は、ポルノ業界で有名人の顔をポルノ俳優に交換するものです。
さらに、ディープフェイクは「標準的な」非有名人女性に対する武器としても利用されています。通常、このような被害者は、ソーシャル メディア プロフィールにディープフェイク詐欺に使用される 高品質の写真やビデオを 載せています。
もう 1 つの恐ろしいアプリケーションは、ビッシング、別名ボイス フィッシングです。そのようなケースの1つでは、英国に本拠を置く企業のCEOが、ドイツの親会社の「CEO」の命令で 24万3,000ドルを送金したが 、後にそれが実際にはディープフェイクの電話であったことが判明した。
しかし、さらに危険なのは、ディープフェイクが戦争を引き起こしたり、降伏を求めたりすることです。最近の試みでは、ウクライナ大統領 ヴォロディミル・ゼレンスキーが 自国の軍隊と国民に対し、進行中の戦争に降伏するよう告げた。しかし、今回の真実は、水準以下のビデオによって明らかになりました。
結論的には、ディープフェイク アプリケーションは数多くあり、まだ始まったばかりです。
これは私たちに100万ドル規模の質問をもたらします…
ディープフェイクは合法ですか?
これは主に地方行政に依存します。ただし、何が許可され、何が許可されないかを含めて、明確に定義された法律はまだ見つかっていません。
それでも、明らかなことは、ディープフェイクを何に使用するか、つまりその目的に依存するということです。スワッピングのターゲットを動揺させずに誰かを楽しませたり、教育したりするつもりであれば、ほとんど害はありません。
一方、悪意のあるアプリケーションは、管轄区域に関係なく、法律によって罰せられるべきです。もう 1 つのグレーゾーンは著作権侵害であり、適切な検討が必要です。
ただし、繰り返しになりますが、合法的なディープフェイクのアプリケーションについては地方自治体に確認する必要があります。
注目してください!
Deepfkaes は人工知能を活用して、誰にでも発言させることができます。
インターネット上にあるものは何も信用しないことは、私たちが行動すべき最初のアドバイスです。誤った情報が大量に存在しており、その有効性は増すばかりです。
そして、ディープフェイクの作成はますます簡単になるので、今度はディープフェイクを見分ける方法を学ぶときが来ました。