報酬系について - 空想犬猫記

高校生の頃、親に勧められてリチャード・ドーキンスの『利己的な遺伝子』を読んだ。生物界では、遺伝子があたかも利己的に振る舞っているかのように、自然淘汰が進むという話だった（もちろん、遺伝子に「己」はないため、この表現は機知に富む一方で誤解を招きやすい）。本の内容は、その理論モデルの正当性を裏付ける多くの事例を紹介する構成だったと記憶している。この理論モデルの優れた点は、①複製、②変異、③選択という条件がそろった系において、ミクロな単位である遺伝子の振る舞いから、マクロな進化の結果を説明できる点にある。
「利己的な遺伝子」の理論モデルは、一見すると多くの生物的・文化的現象を巧みに説明しているように見える。しかしその説明の多くは、事後的（事後合理化的）であり、どんな結果が生じても「それは遺伝子にとって有利だったからだ」と言えてしまう。そのため、現象に当てはまるだけで、予測する力や新しい仮説を生む力に乏しいように感じられる。これは、いわゆる「人間原理」に似ていて、「そうでなければ我々は存在していない」という説明になっていない説明と同様の無力感をもたらす。
時は流れて、世に放たれた私は、あれこれとやりたいことをさせてもらってきたのだが、自分に与えられた時間を多く見積もっても半分は過ぎたところで、際限のないヒトの欲望や、世代間での同じ過ちの繰り返しを目の当たりにし、人間の行動を駆動する根本的な欲求とは何なのだろうかと考えることが多くなった。
現代では、人間の思考、意識、感情、運動の制御など、あらゆる生命活動の中枢は脳という臓器にあると広く認識されている。脳はおよそ860億個のニューロン（神経細胞）から構成され、それらが数百兆個に及ぶシナプス（神経接続）を介して相互に情報を伝達しあっている。このようなニューロン同士の高度に組織化されたネットワークが、思考、学習、記憶、意識といった高次の脳機能を支えていることは、近年の神経科学の研究によって明らかにされつつある。
したがって、人間の行動を駆動する根本的な欲求もまた、こうしたニューロンとシナプスから成る神経回路網の構造と動態によって実装されていると考えるのが自然である。さらに、多くの人類に共通する行動傾向が見られることから、これらの回路には種全体に共有された普遍的な特徴が備わっている可能性も高い。
人間の神経回路網の構造を進化的ゲーム理論の枠組みに当てはめて考えると、①複製および②変異は、生物学的な再生産や遺伝的突然変異によって説明できる。
では、③選択はどのようなメカニズムによって実現されるのだろうか。
この問いに対する一つの仮説として、私は最近とある「報酬系（reward system）」に注目している。人間にとっての報酬とは、端的に言えば「快感」として知覚されるものである。もう少し正確に表現すれば、報酬には正負の二方向があり、正の報酬は「快」、負の報酬は「苦（あるいは痛み・不快）」として主観的に経験される。こうした報酬系は、神経回路網の中で選択を駆動する内部的な基準として機能し、進化的に形成された行動傾向の選別・強化に関与していると考えられる。
報酬系にどのような化学物質が関与しているかといった詳細なメカニズムは、ここでは脇に置いておこう。要するに——そして率直に言えば——ヒトは「キモチイイ」と感じることを、人生という時間軸に沿って積分した総量が最大になるように行動している、ただそれだけなのではないか。そう思ったのが、この話を書き始めた動機でもある。
では、もう少し踏み込んで考えてみよう。人間を人間たらしめるその「報酬系」は何か、どのような特徴を持っているのだろうか。ここからが、本題である。

予測とその的中

脳が「ヒト（＝意識）」に対して報酬を与える挙動とは何か。言い換えれば、私たちは何に踊らされて生きているのか。これを一言で表すなら——それは「予測とその的中」である。
たとえば、「夢がかなった瞬間」というのは、単に願望が実現したというだけでなく、「夢」というかたちで将来を予測し、それが現実に的中した」という構造を持っている。報酬は、この予測が的中したという一致感（コンシステンシー）に対して与えられているのである。
では、車の運転の場合はどうだろうか。運転が好きな人の中には、ドリフト走行を楽しむ人もいる。なぜ、人はわざわざ危険を冒してまでドリフトをするのだろうか。その理由のひとつは、ドリフトには単なる一次的な制御、つまり「進行方向にハンドルを切る」といった単純な操作だけでなく、加速度やその変化率（加速度の加速度）といった高次の動的パラメータを予測・制御する複雑なスキルが求められるからである。つまり、ドリフトとは高度な運動予測とその的中によって成り立っている。ドライバーは、車体の挙動を瞬間ごとに予測し、それを制御によって思い通りの軌道に乗せることで、予測の的中という快感（＝報酬）を得ているのだ。
車の運転の例からも分かるように、どうやら脳は、現状からの距離が遠い予測であればあるほど、その的中によって得られる報酬を大きく評価する傾向があるようだ。たとえば、「空を自由に飛びたい」という夢を叶える手段として、「リチウムイオンバッテリーを用いたドローンで地上から3メートルの高さを20分間飛行する」よりも、「未知のエネルギー源Xと謎の物理法則Yを利用して、地球全土を超音速で飛び回る」といったほうが、より非現実的＝より遠い予測であるがゆえに、実現したときの報酬が飛躍的に大きくなる。このように、人間の報酬系は、予測が困難であればあるほど、それが的中したときに大きな報酬を与えるよう設計されている。
この仕組みを、音楽をはじめとする芸術の分野にも当てはめてみよう。たとえば、コード進行やリズム、旋律といった構造から快感が得られるのは、脳が次に来る音や展開を予測し、それが的中するというサイクルが繰り返されているからだと考えられる。しかしどうだろう、そうだとすれば、予測が容易な単純な童謡こそが至高の音楽ということになりそうだが、実際はそうではない。むしろ、予測が裏切られ、しかもその裏切りが意外性と納得感を両立する形で「解決」されたときにこそ、脳はより強い快感を覚える。どうやら、報酬系のモデルには「意外性とその再構成」という要素を組み込む必要がありそうだ。

意外性とその再構成

音楽への適用を試みて、報酬系は「予測の的中」によって駆動される仕組みであることが見えてきたと同時に、それ以外の報酬回路が存在していることが分かってきた。それは「意外性とその再構成」である。この回路は予測が破綻したときの保護回路として機能していて、予測が外れても、元の予測を書き換えて結果を再構成して一致解決させたときに、通常的中時以上の報酬を与えるというものである。
たとえば、漫才の「ボケとツッコミ」に見られるような笑いは、予定調和を裏切る意外性に根ざしている。「こう来るだろう」という予測が裏切られたとき、脳は一瞬混乱する。しかしその直後に、「ああ、そういうことか」と再構成されると、むしろより大きな快感を伴って笑いが生じる。このような報酬の構造は、「予測の的中」だけでなく、「予測の破綻→再構成」という流れに対しても快を与えるように設計されていることを示している。
このように、脳は「予測と的中」だけでなく、「予測のずれと再統合」にも報酬を与える。予測不能なものに対しては恐れや不快を覚えることもあるが、そのズレが知覚可能な範囲内で起こり、かつ再構成可能である場合、人間はそれをむしろ積極的に楽しむ傾向がある。意外性とは、広い意味での「予測とその失敗」から生まれる学習と再構築のチャンスであり、それこそが芸術や物語、ユーモアの根源になっている。

因果性への欲求

ここまで見てきたように、脳は「未来を予測し、それが的中したとき」に快を感じる報酬回路を持っている。では、その予測対象が未来ではなく「過去」であった場合、同じような報酬は得られるのだろうか？
この問いに対する興味深い答えは、科学者の行動様式に見いだすことができる。たとえば、物理学者がある自然現象を観察し、そこに潜む「法則性」や「因果関係」を解明しようとする行為。これは、現時点に存在する結果に対して、過去の構造や原因を仮定し、それが整合的であるかどうかを確かめるという意味で、「逆向きの予測」として捉えることができる。
物理法則の発見は、単なるデータの整理ではない。観測された現象に対して、「このような初期条件と法則があれば、現在の観測結果が必然的に導かれるはずだ」と考える。その「説明が的中した瞬間」に、強い知的快感がもたらされる。つまり、「なるほど、そうだったのか」という納得は、報酬系が駆動する一致検出の一形態にほかならない。
これは、単に「予測が合った」ことの快感ではない。むしろ、「無秩序に見えた事象群の背後に、単純で普遍的な原理が存在していた」という整合性の発見＝因果性の回復に対する報酬である。過去の出来事が、「それ以前の構造から自然に導かれていた」と理解されたとき、脳はそれを「的中」として処理し、報酬を与える。
この種の快は、個人的な体験の再評価とは異なり、世界の秩序そのものを再構成する試みによって生まれる。つまり、物理学者が「世界を理解した」と感じる瞬間には、進化的に形成された報酬系の一種のピークがある。
こうして見ると、人間は未来に対して予測を行うだけでなく、過去に対しても「説明可能性＝予測可能性」を求めていることが分かる。すなわち、我々の認知装置は、「現在という結果」に整合する「過去という原因」を見いだすことで、安心感や快感を得るように設計されているのである。

まとめ

この構造は、決して自然科学の営みにとどまらない。たとえば歴史学では、膨大な出来事の連なりから意味ある因果を抽出し、物語として再構成することが中心的な作業である。推理小説はその縮図であり、読者は無数の伏線や矛盾のなかに「真相」——つまり一本の因果線——を見いだしたとき、知的な快感を得る。そして陰謀論ですら、この報酬系の構造と無関係ではない。事実が断片的で複雑であるとき、人はその空白を「意味のある因果」で埋めたくなる。たとえその意味が誤っていたとしても、「説明がついた」という感覚それ自体に、報酬が与えられる。
このように、人間は未来に対しては希望と予測の一致を求め、過去に対しては因果と整合の発見を求める。前者は「これから何が起こるか？」という問いに対し、後者は「なぜこうなったのか？」という問いに応える営みであり、そのどちらもが、報酬系という神経回路のメカニズムに根ざしている。
重要なのは、これらが単に知的な興味や趣味嗜好ではなく、生存戦略として神経系に埋め込まれたメカニズムであるという点だ。未来を予測する能力は、捕食者や自然環境に対して先手を打つために不可欠だった。一方、過去の因果を理解する力は、同じ失敗を繰り返さず、パターンを学習するために必要だった。だからこそ、人間の脳はこのふたつの「一致」に快を与えるように進化してきたと考えられる。
そして私たちは今、科学や芸術、宗教やフィクションといった多様な文化的形式の中で、依然としてこの快感を追い求めている。予測とその的中、秩序の発見、意外性と納得感の両立——これらすべてが、人間の知的活動を内側から駆動している燃料なのだ。
詳らかに言ってしまえば、「理解」したことや「意味」なんて本当は存在しない。ただ報酬系が、いつも通り淡々と仕事をしているだけだ。
ヒトの意識は、制限時間内に報酬を最大化するための、ただの踊り子なのかもしれない。
あなたが「この世のすべてには意味がある」と感じたその瞬間も、クスリと笑った瞬間も、音楽で高揚したその時も、予測とその的中に報いる報酬系は、今日も、遺伝子のヴィークルの中で、静かに、淡々と、あなたの行動を報い続ける。