banner

ブログ

Nov 08, 2023

AI を正す: MIT 研究者が人間とマシン ビジョンの間のギャップをどのように埋めるか

マサチューセッツ工科大学アダ​​ム・ゼー著 2023 年 5 月 9 日

MIT の研究者は、敵対的トレーニングを使用してコンピューター ビジョン モデルをトレーニングすると、知覚の直線性が向上し、人間の視覚処理により似たものになることを発見しました。 知覚的な直線性により、モデルは物体の動きをより正確に予測できるようになり、自動運転車の安全性が向上する可能性があります。 敵対的にトレーニングされたモデルはより堅牢になり、画像がわずかに変化してもオブジェクトの安定した表現が維持されます。 研究者らは、その発見を利用して新しいトレーニングスキームを作成し、なぜ敵対的トレーニングがモデルが人間の知覚を模倣するのに役立つのかをさらに調査することを目指しています。

研究者たちは、コンピューター ビジョン モデルが視覚世界をより安定した予測可能な方法で表現することを学習するのに役立つ特性を特定しました。

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">MIT の研究者は、敵対的トレーニングによってコンピューター ビジョン モデルの知覚の直線性が向上し、人間の視覚処理により似たものになり、オブジェクトの動きをより正確に予測できるようになることを発見しました。

公園のベンチに座って、誰かが散歩しているのを眺めているところを想像してみてください。 人が歩くにつれてシーンは常に変化しますが、人間の脳は時間の経過とともにその動的な視覚情報をより安定した表現に変換することができます。 知覚矯正として知られるこの能力は、歩行者の軌跡を予測するのに役立ちます。

人間とは異なり、コンピューター ビジョン モデルは通常、知覚の直線性を示さないため、非常に予測不可能な方法で視覚情報を表現することを学習します。 しかし、機械学習モデルにこの機能があれば、物体や人がどのように移動するかをより正確に推定できるようになるかもしれません。

MIT の研究者らは、特定のトレーニング方法により、コンピューター ビジョン モデルが人間と同様に、より知覚的に直線的な表現を学習できることを発見しました。 トレーニングには、機械学習モデルに何百万もの例を示してタスクを学習させることが含まれます。

研究者らは、敵対的トレーニングと呼ばれる手法を使用してコンピュータ ビジョン モデルをトレーニングすると、画像に追加された小さなエラーに対する反応が鈍くなり、モデルの知覚の直線性が向上することを発見しました。

MIT の研究者らは、特定のトレーニング手法により、特定の種類のコンピューター ビジョン モデルが、より安定した予測可能な視覚表現を学習できることを発見しました。これは、人間が知覚矯正として知られる生物学的特性を使用して学習するものとより似ています。 クレジット: MIT News with iStock

研究チームはまた、知覚の直線性が、モデルをトレーニングして実行するタスクによって影響を受けることも発見しました。 画像の分類などの抽象的なタスクを実行するようにトレーニングされたモデルは、画像内のすべてのピクセルをカテゴリに割り当てるなど、より詳細なタスクを実行するようにトレーニングされたモデルよりも、より知覚的に単純な表現を学習します。

たとえば、モデル内のノードには「犬」を表す内部アクティベーションがあり、これによりモデルが犬の画像を見たときに犬を検出できるようになります。 知覚的に直線的な表現は、画像に小さな変化がある場合でも、より安定した「犬」表現を保持します。 これにより、より堅牢になります。

研究者らは、コンピューター ビジョンにおける知覚の直線性をより深く理解することで、より正確な予測を行うモデルの開発に役立つ洞察を明らかにしたいと考えています。 たとえば、この特性により、コンピューター ビジョン モデルを使用して歩行者、自転車、その他の車両の軌道を予測する自動運転車両の安全性が向上する可能性があります。

「ここで得られるメッセージの 1 つは、人間の視覚などの生物学的システムからインスピレーションを得ることは、特定の物事がなぜそのように機能するのかについての洞察を得ることができると同時に、ニューラル ネットワークを改善するためのアイデアを刺激することもできるということです」と Vasha DuTell 氏は言います。 、MIT のポスドクであり、コンピューター ビジョンにおける知覚の直線性を調査した論文の共著者です。

DuTell の論文には、電気工学およびコンピュータ サイエンス学科 (EECS) の大学院生で筆頭著者の Anne Harrington も参加しています。 アユシュ・テワリ、ポスドク。 マーク・ハミルトン、大学院生。 サイモン・ステント氏、ウーブン・プラネット社リサーチマネージャー。 ルース・ローゼンホルツ氏、脳・認知科学部門の主任研究員であり、コンピューターサイエンス・人工知能研究所(CSAIL)のメンバー。 および主著者である William T. Freeman 氏は、電気工学およびコンピュータ サイエンスのトーマスおよびゲルト パーキンス教授であり、CSAIL のメンバーです。 この研究は、学習表現に関する国際会議で発表されています。

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">人間の知覚の直線性に関するニューヨーク大学の研究者、DuTell、Harrington、およびその同僚は、その特性がコンピューター ビジョン モデルにも役立つのではないかと考えました。

彼らは、さまざまなタイプのコンピューター ビジョン モデルが学習した視覚表現をまっすぐにするかどうかを判断することに着手しました。 彼らは各モデルにビデオのフレームを供給し、学習プロセスのさまざまな段階でその表現を調べました。

モデルの表現がビデオのフレーム全体で予測可能な方法で変化する場合、そのモデルは矯正されています。 最終的には、その出力表現は入力表現よりも安定するはずです。

「表現は非常に曲線的に始まる線として考えることができます。直線化するモデルはビデオからその曲線を取り出し、処理ステップを通じてそれを真っ直ぐにすることができます」と DuTell 氏は説明します。

彼らがテストしたほとんどのモデルはまっすぐになりませんでした。 そうした少数の人々のうち、最も効果的に姿勢を正した人々は、敵対的トレーニングとして知られる手法を使用して分類タスクのトレーニングを受けていました。

敵対的トレーニングでは、各ピクセルをわずかに変更することで画像を微妙に変更します。 人間には違いに気付かないかもしれませんが、こうした小さな変更が機械をだまして画像を誤って分類してしまう可能性があります。 敵対的トレーニングによりモデルがより堅牢になるため、これらの操作によってだまされなくなります。

敵対的トレーニングでは、モデルが画像のわずかな変化に反応しにくくなるように学習するため、時間の経過とともにより予測可能な表現を学習するのに役立ちます、とハリントン氏は説明します。

「敵対的トレーニングがモデルをより人間に近づけるのに役立つかもしれないという考えはすでに人々にありましたが、それがこれまでテストされていなかった別の特性に引き継がれるのを見るのは興味深いことでした」と彼女は言います。

しかし、研究者らは、敵対的にトレーニングされたモデルは、画像全体をカテゴリに分類するなどの広範なタスクについてトレーニングされた場合にのみ、まっすぐになることを学習することを発見しました。 画像内のすべてのピクセルを特定のクラスとしてラベル付けするセグメンテーションを課せられたモデルは、敵対的にトレーニングされた場合でもまっすぐになりませんでした。

研究者らは、ビデオを見せてこれらの画像分類モデルをテストしました。 彼らは、より知覚的にストレートな表現を学習したモデルは、ビデオ内のオブジェクトをより一貫して正しく分類する傾向があることを発見しました。

「私にとって、これらの敵対的にトレーニングされたモデルは、ビデオを見たこともなく、時間データでトレーニングされたこともなく、それでもある程度の矯正を示しているのは驚くべきことです」と DuTell 氏は言います。

研究者らは、敵対的トレーニングプロセスの何がコンピュータビジョンモデルをまっすぐにするのか正確にはわかっていないが、その結果は、より強力なトレーニングスキームがモデルをよりまっすぐにすることを示唆している、と彼女は説明する。

この研究を発展させて、研究者らは学んだことを利用して、モデルにこの特性を明示的に与える新しいトレーニング スキームを作成したいと考えています。 彼らはまた、敵対的トレーニングをさらに深く掘り下げて、なぜこのプロセスがモデルの矯正に役立つのかを理解したいと考えています。

「生物学的な観点から見ると、敵対的トレーニングは必ずしも意味があるわけではありません。それは人間が世界を理解する方法ではありません。なぜこのトレーニングプロセスがモデルがより人間らしく振る舞うのに役立つように見えるのかについては、まだ多くの疑問があります」とハリントン氏は言う。

「ディープ ニューラル ネットワークによって学習された表現を理解することは、堅牢性や一般化などの特性を向上させるために重要です」と、ダナ ファーバーがん研究所およびハーバード大学医学部の助教授であるビル ロッター氏は述べていますが、この研究には関与していません。 「Harrington らは、自然ビデオを処理するときにコンピューター ビジョン モデルの表現が時間の経過とともにどのように変化するかについて広範な評価を実行し、これらの軌跡の曲率がモデルのアーキテクチャ、トレーニングのプロパティ、およびタスクに応じて大きく異なることを示しました。これらの発見は、改良されたモデルを開発し、生物学的な視覚処理についての洞察も提供します。」

「この論文は、自然ビデオの傾き補正は、人間の視覚システムによって示されるかなりユニークな特性であることを確認しています。これは、敵対的に訓練されたネットワークのみがそれを表示します。これは、人間の知覚の別の特徴である自然か人工かにかかわらず、さまざまな画像変換に対するロバスト性との興味深い関連性を提供します」 」とディープマインド社の研究員であるオリヴィエ・エナフ氏は言うが、彼はこの研究には関与していない。 「敵対的に訓練されたシーン セグメンテーション モデルでさえ入力をまっすぐにしないということは、将来の研究に重要な疑問を引き起こします。人間はコンピュータ ビジョン モデルと同じ方法で自然のシーンを解析するのでしょうか? 動いているオブジェクトの軌道を、そのオブジェクトの動きに敏感でありながら表現し予測するにはどうすればよいでしょうか?この論文は、矯正仮説を視覚的行動の他の側面と結びつけることで、より統一された知覚理論の基礎を築きます。」

参照: 「学習された視覚表現における知覚の直線性の探求」アン・ハリントン、ヴァシャ・デュテル、アユシュ・テワリ、マーク・ハミルトン、サイモン・ステント、ルース・ローゼンホルツ、ウィリアム・T・フリーマン著、ICLR 2023.PDF

この研究は、トヨタ研究所、MIT CSAIL METEOR Fellowship、米国科学財団、米国空軍研究所、米国空軍人工知能加速器から資金の一部を受けています。

研究者たちは、コンピューター ビジョン モデルが視覚世界をより安定した予測可能な方法で表現することを学習するのに役立つ特性を特定しました。 矯正の勉強中
共有