banner

ニュース

Apr 24, 2023

研究者は、人間と同じように学習するための資産訓練マシンを特定しました

公園のベンチに座って、誰かが散歩しているのを眺めているところを想像してみてください。 人が歩くにつれてシーンは常に変化しますが、人間の脳は時間の経過とともにその動的な視覚情報をより安定した表現に変換することができます。 知覚の直線化として知られるこの能力は、歩く人の軌跡を予測するのに役立ちます。人間とは異なり、コンピューター ビジョン モデルは通常、知覚の直線性を示さないため、非常に予測不可能な方法で視覚情報を表現することを学習します。 しかし、機械学習モデルにこの能力があれば、物体や人がどのように動くかをより正確に推定できるようになるかもしれません。MITの研究者らは、特定のトレーニング方法が、人間と同じようにコンピュータービジョンモデルがより知覚的に直線的な表現を学習するのに役立つことを発見しました。 トレーニングには、タスクを学習できるように機械学習モデルに何百万もの例を示すことが含まれます。研究者らは、敵対的トレーニングと呼ばれる手法を使用してコンピューター ビジョン モデルをトレーニングすると、画像に追加された小さなエラーに対する反応が鈍くなり、モデルの知覚が向上することを発見しました。また、チームは、知覚的な直線性が、モデルをトレーニングして実行するタスクによって影響を受けることも発見しました。 画像の分類などの抽象的なタスクを実行するようにトレーニングされたモデルは、画像内のすべてのピクセルをカテゴリに割り当てるなど、より詳細なタスクを実行するようにトレーニングされたモデルよりも、より知覚的に単純な表現を学習します。 たとえば、モデル内のノードには「犬」を表す内部アクティベーションがあり、これによりモデルが犬の画像を見たときに犬を検出できるようになります。 知覚的に直線的な表現は、画像に小さな変化がある場合でも、より安定した「犬」表現を保持します。 研究者らは、コンピューター ビジョンにおける知覚の直線性をより深く理解することで、より正確な予測を行うモデルの開発に役立つ洞察を明らかにしたいと考えています。 たとえば、この特性により、コンピュータ ビジョン モデルを使用して歩行者、自転車、その他の車両の軌道を予測する自動運転車の安全性が向上する可能性があります。」 ここで得られるメッセージの 1 つは、人間などの生物学的システムからインスピレーションを得ているということです。ビジョンは、特定のものがそのように機能する理由についての洞察を与えるだけでなく、ニューラル ネットワークを改善するためのアイデアを刺激することにもなります」と、MIT 博士研究員であり、コンピューター ビジョンにおける知覚の直線性を調査した論文の共著者である Vasha DuTell 氏は述べています。この論文の主著者であるアン・ハリントンは、電気工学およびコンピュータサイエンス学科(EECS)の大学院生です。 アユシュ・テワリ、ポスドク。 マーク・ハミルトン、大学院生。 サイモン・ステント氏、ウーブン・プラネット社リサーチマネージャー。 ルース・ローゼンホルツ氏、脳・認知科学部門の主任研究員であり、コンピューターサイエンス・人工知能研究所(CSAIL)のメンバー。 および主著者である William T. Freeman 氏は、電気工学およびコンピュータ サイエンスのトーマスおよびゲルト パーキンス教授であり、CSAIL のメンバーです。 この研究は、学習表現に関する国際会議で発表されています。矯正の研究人間の知覚のまっすぐさに関するニューヨーク大学の研究者チームによる2019年の論文を読んだ後、DuTell、Harrington、および彼らの同僚は、その特性がコンピュータービジョンに役立つのではないかと考えました。彼らは、さまざまな種類のコンピュータ ビジョン モデルが学習した視覚表現をまっすぐにするかどうかを判断することに着手しました。 彼らは各モデルにビデオのフレームを供給し、学習プロセスのさまざまな段階で表現を調べました。ビデオのフレーム間でモデルの表現が予測可能な方法で変化する場合、そのモデルは矯正されています。 最終的には、その出力表現は入力表現よりも安定するはずです。「表現は、非常に曲線的に始まる線として考えることができます。直線化するモデルは、ビデオからその曲線を取得し、それをまっすぐにすることができます。」処理ステップです」と DuTell 氏は説明します。彼らがテストしたほとんどのモデルはまっすぐになりませんでした。 そうなった数少ないもののうち、最も効果的にまっすぐになったものは、敵対的トレーニングとして知られる手法を使用して分類タスク用にトレーニングされていました。敵対的トレーニングには、各ピクセルをわずかに変更することで画像を微妙に変更することが含まれます。 人間には違いに気付かないかもしれませんが、こうした小さな変更が機械をだまして画像を誤って分類してしまう可能性があります。 敵対的トレーニングによりモデルがより堅牢になるため、こうした操作にだまされなくなります。敵対的トレーニングでは、モデルが画像のわずかな変化に反応しにくくなるように学習するため、これにより、モデルは時間の経過とともにより予測可能な表現を学習することができます、とハリントン氏は説明します。 「人々は、敵対的トレーニングがモデルをより人間に近づけるのに役立つかもしれないという考えをすでに持っていました。そして、それが人々がこれまでテストしたことのない別の特性に引き継がれるのを見るのは興味深いことでした」と彼女は言います。研究者らは、敵対的にトレーニングされたモデルが、画像全体をカテゴリに分類するなどの広範なタスクについてトレーニングされた場合にのみ、まっすぐになることを学習することを発見しました。 画像内のすべてのピクセルを特定のクラスとしてラベル付けするセグメンテーションを課せられたモデルは、敵対的にトレーニングされた場合でもまっすぐになりませんでした。一貫した分類研究者らは、ビデオを見せてこれらの画像分類モデルをテストしました。 彼らは、より知覚的にストレートな表現を学習したモデルは、ビデオ内のオブジェクトをより一貫して正しく分類する傾向があることを発見しました。」私にとって、これらの敵対的にトレーニングされたモデルが、ビデオを見たこともなければ、時間データでトレーニングされたこともないことは驚くべきことです、まだある程度の直線化を示しています」と DuTell 氏は言います。研究者らは、敵対的トレーニング プロセスの何がコンピュータ ビジョン モデルの直線化を可能にするのか正確にはわかっていませんが、その結果は、より強力なトレーニング スキームによりモデルがより直線化されることを示唆していると彼女は説明しますこの研究を基にして、研究者らは学んだことを利用して、モデルにこの特性を明示的に与える新しいトレーニング スキームを作成したいと考えています。 彼らはまた、なぜこのプロセスがモデルの矯正に役立つのかを理解するために、敵対的トレーニングをさらに深く掘り下げたいと考えています。「生物学的な観点から見ると、敵対的トレーニングは必ずしも意味があるわけではありません。それは人間が世界を理解する方法ではありません。なぜこのトレーニングプロセスは、モデルがより人間のように振る舞うのに役立つように見えるのか、とハリントン氏は言います。「ディープニューラルネットワークによって学習された表現を理解することは、堅牢性や一般化などの特性を改善するために重要です」とダナファーバー癌大学助教授のビル・ロッター氏は言います。同研究所とハーバード大学医学部はこの研究には関与していなかった。 「Harrington らは、自然ビデオを処理するときにコンピューター ビジョン モデルの表現が時間の経過とともにどのように変化するかについて広範な評価を実行し、これらの軌跡の曲率がモデルのアーキテクチャ、トレーニングのプロパティ、およびタスクに応じて大きく異なることを示しました。これらの発見は、改良されたモデルの開発と、生物学的な視覚処理への洞察も提供します。」「この論文は、自然ビデオの矯正が人間の視覚システムによって示されるかなりユニークな特性であることを確認しています。それを表示するのは敵対的に訓練されたネットワークだけであり、これは、別の特徴との興味深い関連性を提供します。」人間の知覚: 自然か人工かにかかわらず、さまざまな画像変換に対する堅牢性です」と、この研究には関与していない DeepMind の研究科学者であるオリヴィエ・ヘナフ氏は述べています。 「敵対的に訓練されたシーン セグメンテーション モデルでさえ入力をまっすぐにしないということは、将来の研究に重要な疑問を引き起こします。人間はコンピュータ ビジョン モデルと同じ方法で自然のシーンを解析するのでしょうか? 動いているオブジェクトの軌道を、そのオブジェクトの動きに敏感でありながら表現し予測するにはどうすればよいでしょうか? 「この研究は、トヨタ研究所、MIT CSAIL METEOR Fellowship、国立研究開発法人 MIT CSAIL METEOR Fellowship から一部資金提供を受けています。」科学財団、米国空軍研究所、および米国空軍人工知能アクセラレータ。

共有