強化学習の著者サットンの著名なエッセイ「苦い教訓」和訳

2025年2月3日
2025年2月4日
人工知能
147view

1 AI研究において、たびたび引用される強化学習の著者サットンの著名なエッセイ「苦い教訓」和訳
- 1.1 リッチ・サットン
  - 1.1.1 2019年3月13日苦い教訓

AI研究において、たびたび引用される
強化学習の著者サットンの著名なエッセイ「苦い教訓」和訳

引用の際はこちらのエッセイの一部のみだが,もともとは4つの事例の中での歴史的観察に基づいています。

リッチ・サットン

2019年3月13日苦い教訓

70 年にわたる AI 研究から読み取れる最大の教訓は、計算を活用する一般的な方法が、最終的には最も効果的であり、しかもその差は大きいということです。その究極の理由はムーアの法則、つまり計算単位あたりのコストが指数関数的に継続的に低下するというその一般化です。ほとんどの AI 研究は、エージェントが利用できる計算が一定であるかのように行われてきました (その場合、人間の知識を活用することがパフォーマンスを向上させる唯一の方法の 1 つになります)。しかし、一般的な研究プロジェクトよりも少し長い期間をかけて、必然的に大量の計算が利用可能になります。短期的に違いを生む改善を求めて、研究者はドメインに関する人間の知識を活用しようとしますが、長期的には計算を活用することだけが重要です。この 2 つは必ずしも相反するものではありません。しかし、実際には相反する傾向があります。一方に費やした時間は、もう一方に費やしていない時間です。どちらかのアプローチに投資するという心理的なコミットメントがあります。そして、人間の知識のアプローチは、計算を活用する一般的な方法を利用するのに適さない方法で方法を複雑にする傾向があります。 AI 研究者がこの苦い教訓を遅ればせながら学んだ例は数多くあるが、最も顕著なものをいくつか見てみると有益である。

[事例1]コンピュータチェス　1990年代
コンピューターチェスでは、1997 年に世界チャンピオンのカスパロフを破った方法は、大規模で深い探索に基づいたものだった。当時、チェスの特殊な構造に対する人間の理解を活用する方法を追求してきたコンピューターチェス研究者の大多数は、これを落胆の目で見ていた。特殊なハードウェアとソフトウェアを使用した、より単純な探索ベースのアプローチの方がはるかに効果的であることが判明したとき、人間の知識に基づいたチェス研究者は負けを認めなかった。彼らは、「力ずく」探索が今回は勝ったかもしれないが、それは一般的な戦略ではなく、そもそも人々がチェスをプレイする方法ではなかったと述べた。これらの研究者は、人間の入力に基づいた方法で勝つことを望んでいたが、それが実現しなかったときに失望した。

[事例2]コンピュータ囲碁　2010年代
同様の研究の進展パターンは、コンピュータ囲碁でも見られましたが、さらに 20 年遅れました。当初は、人間の知識やゲームの特殊性を利用して探索を回避することに多大な努力が払われましたが、探索が大規模に効果的に適用されると、それらの努力はすべて無意味、あるいはさらに悪い結果となりました。また、価値関数を学習するために自己プレイによる学習を使用することも重要でした (これは他の多くのゲームやチェスでも同様ですが、1997 年に初めて世界チャンピオンに勝利したプログラムでは学習は大きな役割を果たしませんでした)。自己プレイによる学習、および一般的な学習は、大規模な計算を活用できるという点で、探索に似ています。探索と学習は、AI 研究で大量の計算を利用するための最も重要な 2 つの技術クラスです。コンピュータ囲碁では、コンピュータチェスと同様に、研究者の初期の努力は人間の理解を利用することに向けられ (そのため、必要な探索が少なくなります)、ずっと後になってから、探索と学習を取り入れることで大きな成功を収めました。

[事例3]音声認識　1970年代
音声認識では、1970 年代に DARPA がスポンサーとなった初期のコンテストがありました。参入者には、人間の知識（単語、音素、人間の声道などに関する知識）を活用する特別な方法が多数含まれていました。一方、より統計的な性質を持ち、隠れマルコフモデル（HMM）に基づいた、はるかに多くの計算を行う新しい方法もありました。ここでも、統計的方法が人間の知識に基づく方法に勝利しました。これにより、数十年にわたって徐々に自然言語処理のすべてに大きな変化がもたらされ、統計と計算がこの分野を支配するようになりました。音声認識における最近のディープラーニングの台頭は、この一貫した方向性における最新のステップです。ディープラーニング方法は、人間の知識への依存度をさらに下げ、さらに多くの計算と、膨大なトレーニングセットでの学習を組み合わせて、大幅に優れた音声認識システムを生み出します。ゲームの場合と同様、研究者は常に、研究者が自分の考えで動いていると考える通りに動作するシステムを作ろうとし、その知識をシステムに取り入れようとしたが、最終的には逆効果となり、研究者の時間の膨大な無駄遣いとなった。ムーアの法則により、膨大な計算が可能になり、それを有効活用する手段が見つかったのだ。

[事例4]画像認識（コンピュータビジョン)　2010年代
コンピュータービジョンでも、同様のパターンが見られる。初期の手法では、視覚はエッジや一般化された円筒、または SIFT 機能の検索と考えられていた。しかし、今日では、これらはすべて捨て去られている。現代のディープラーニングニューラルネットワークは、畳み込みの概念と特定の種類の不変性のみを使用し、はるかに優れたパフォーマンスを発揮する。

これは大きな教訓です。私たちは、同じ種類の間違いを繰り返しているため、この分野としてまだ完全には学んでいません。これを理解し、効果的に抵抗するには、これらの間違いの魅力を理解しなければなりません。私たちが考える方法を組み込むことは、長期的にはうまくいかないという苦い教訓を学ばなければなりません。

この苦い教訓は、

1) AI 研究者はエージェントに知識を組み込もうとすることがよくある、

2) これは短期的には必ず役立ち、研究者自身も満足するが、

3) 長期的には頭打ちになり、さらなる進歩を妨げることさえある、

4) 画期的な進歩は、最終的には、検索と学習による計算のスケーリングに基づく反対のアプローチによってもたらされる、

という歴史的観察に基づいています。

最終的な成功は苦い色合いを帯びており、しばしば完全には理解されません。

なぜなら、それは好まれる人間中心のアプローチに対する成功だからです。

この苦い教訓から学ぶべきことの 1 つは、汎用メソッドの大きな力、つまり、利用可能な計算が非常に大きくなるにつれて計算量が増えてもスケーリングし続けるメソッドの力です。このように恣意的に拡張できると思われる 2 つの方法は、検索と学習です。

この苦い教訓から学ぶべき 2 つ目の一般的なポイントは、実際の心の中身はとてつもなく、取り返しのつかないほど複雑であるということです。私たちは、心の中身について考えるための簡単な方法、たとえば空間、オブジェクト、複数のエージェント、対称性について考えるための簡単な方法を見つけようとするのはやめるべきです。これらはすべて、恣意的で本質的に複雑な外の世界の一部です。複雑さは無限であるため、組み込むべきものではありません。代わりに、この恣意的な複雑さを見つけて捕捉できるメタメソッドのみを組み込む必要があります。これらのメソッドに不可欠なのは、適切な近似値を見つけることができることですが、それらの検索は私たちではなく私たちのメソッドによって行われるべきです。私たちが求めているのは、私たちと同じように発見できる AI エージェントであり、私たちが発見したものを含むエージェントではありません。私たちの発見を組み込むと、発見プロセスをどのように実行できるかがわかりにくくなるだけです。

強化学習の著者サットンの著名なエッセイ「苦い教訓」和訳

AI研究において、たびたび引用される
強化学習の著者サットンの著名なエッセイ「苦い教訓」和訳

リッチ・サットン

2019年3月13日苦い教訓

ミチ・オカク「量子超越」エピローグ(要約)

国立大学のAI講座の講師

人工知能の最新記事4件

国立大学のAI講座の講師