News Feature

顔の探偵

Doris Tsaoは、脳が顔認識に使うコードを解読した。彼女は今、私たちが顔を含めた全てのものを見る仕組みを明らかにしようとしている。

Doris Tsaoは、何百もの人間の顔をサルに見せることによって、視覚系の基本的な側面を明らかにしてきた。 Credit: PHOTO ILLUSTRATION BY SAM COMEN FOR NATURE

Doris Tsaoは顔認識の暗号解読を目指して研究生活を始めた。しかし、2018年9月の数週間、彼女は自分の顔の表情を抑えるのに苦労した。Tsaoは、名誉あるマッカーサー財団の「天才」賞を授与されたばかりだった。賞金は50万ドル（約5500万円）以上で、使い道は受賞者に任される。しかし、彼女は受賞を秘密にしておくことを約束させられていた。財団がカリフォルニア工科大学（米国パサデナ）の彼女の研究室に撮影班を送り込んできたときでさえもだ。興奮すると同時に困惑してもいた彼女は、うまい説明を考え出さなければならず、その間ずっと感情が顔に出ないように努力していたのだった。

Tsaoに数々の賞と称賛をもたらしたのは、顔に関する彼女の研究だった。2017年彼女は、脳が顔の形状や特徴間の距離、濃淡、そしてテクスチャー（質感）などにおける多数の微細な違いから顔を見分けるときに使用するコードを解読した。このコーディングの単純さは、神経科学研究者たちを驚かせ、彼らをうならせた。

「彼女の研究は革新的です」と、ロンドン大学ユニバーシティカレッジ（英国）のセインズブリーウェルカム神経回路・行動研究センターのディレクター、Tom Mrsic-Flogelは述べる。

しかし、Tsaoは顔コードを発見した科学者として記憶されるだけでは満足していない。顔コードは目的を達するための手段の1つだと彼女は言う。彼女が本当に興味を持っている疑問、つまり、脳が知覚のギャップを埋めることで1つにまとまった完全な世界のモデルを作り上げる仕組みの解明に取り組むための優れたツールの1つだと考えているのだ。「この考え方は、すっきりと数学的に公式化できるのです」と彼女は言うが、それを検証するのは甚だしく困難だった。Tsaoは現在、どこから手を付けたらいいかを知っている。

精神に関する最も手に負えない謎のいくつかを解明したいというTsaoの大望は、神経学者のMargaret Livingstoneにとって驚きではない。Livingstoneは、Tsaoがハーバード大学医学系大学院（米国マサチューセッツ州ボストン）の博士課程に在籍していた全期間を通して彼女を指導していた。「Dorisは決して横道にそれることがありませんでした。控えめで集中力があり、常に大きな疑問に取り組んでいました」とLivingstoneは回想する。

Tsaoは科学一色の家庭で成長した。母親はコンピュータ・プログラマーとして働いており、父親は機械視覚研究者だった。両親はTsaoがまだ4歳のときに、「より多くの機会を得られる、より良い生活」を求めて、常州（中国江蘇省）から米国に移住した、と彼女は言う。

「私が視覚を研究するようになったのは、おそらく父の影響が一番大きかったと思います。そうではないと示したいのですけど」と、Tsaoは言う。高校生のときに、父娘は脳がどのように視覚のさまざまな側面を処理するのかに関する数学的理論について議論した。彼女は、そうした理論が「信じられないほど美しい」と思ったと言う。「父のおかげで、視覚は深遠な説明を必要とするという考え方が頭の中にしっかり根付いたのです」。

彼女はカリフォルニア工科大学で数学と生物学の学士号を得てから、1996年にLivingstoneの研究チームに加わり、当初は脳が視野の奥行きを知覚する方法についての研究を行った。

顔コード

Livingstoneの研究室ではマカク属のサルを使って実験を行っている。マカク属サルの視覚系と脳組織はヒトとよく似ている。霊長類の目を通した世界の景観は、網膜から視覚野に送られる。視覚野のさまざまな層は、入ってくる情報の初期の処理を担当する。最初、暗い色または明るい色のいくつかの画素程度だった情報は、100ミリ秒以内に、脳領域のネットワークを駆け抜けてさらなる処理を受け、意識的に認識される立体的な風景となる。その風景の中では多数の物体が動き回っている。

博士課程の大半、Tsaoは視覚野の最外層に的を絞って研究を行った。網膜からの情報が最初に到達する場所だ。彼女は、単一の脳細胞の発火を記録できるほど感度の高い微小電極をサルの脳のこの領域に挿入する方法を学んだ。しかし、視覚野をより深く調べる助けとするために、脳の画像化も実験に加えることにした。機能的磁気共鳴画像法（fMRI）によって脳の活性化をより広くマッピングできるようになれば、単一細胞をより正確に記録する技術をガイドする助けになり得る。当時、動物の脳の画像化を行っている研究室はほとんどなかったが、サルのfMRIのパイオニアでルーバン・カトリック大学（ベルギー）のWim Vanduffelが、Tsaoがボストンで研究を行うのに必要な基礎設備の立ち上げを助けてくれた。

この技術に関して学んでいる間、彼女は近くのマサチューセッツ工科大学（米国ケンブリッジ）の神経科学者Nancy KanwisherがfMRIによって発見した意外な結果を知った。Kanwisherは、ヒトの脳のある小領域が、人間の顔の写真を見せられたときはいつも光るが、家やスプーンなどの人間以外の物の写真を見せられたときには光らないことを明らかにした。

Tsaoは、同じ顔認識システムがサルにも存在するなら、システムに関わっているニューロンを高感度電極を用いて調べることができ、それらがどのように機能するかを解明できるのではないかと考えた。

彼女は、当時Kanwisherのラボのポスドク研究者だったWinrich Freiwaldとチームを組み、下側頭（IT）皮質（Kanwisherが特定した脳の領域）を調べるために単一細胞記録とfMRIを組み合わせた一連の実験を始めた。その後の約8年間に、FreiwaldとTsaoと彼らの共同研究者たちはいくつかの重要な発見をした^1-3。サルに次から次へと写真を見せ、ヒトかサルの顔に応答して発火する個々の細胞をマッピングした。これによって彼らは、脳の各半球にIT皮質に沿って分布する6個のパッチ（特定の刺激に応答するニューロンが密集したパッチ状の構造）を特定できた。パッチのどれかを電気的に刺激すると、他のパッチも光った。現在、ロックフェラー大学（米国ニューヨーク）にいるFreiwaldは、それらの顔パッチがネットワークを作って一緒に発火するのを初めて見たときは、「胸躍る瞬間でした」と言う。

FreiwaldとTsaoは、パッチには特殊化する傾向があることも発見した。髪や鼻や虹彩などのさまざまな細かい要素を消した一連の漫画に描かれた顔をサルに見せることによって、彼らはどの細胞が顔の特定の特徴に応答して発火するかを調べることができた。1つの細胞の発火頻度は、特徴がどれくらい極端かによって一定比率で上昇する。これは傾斜路形同調（ramp-shaped tuning）として知られる特性で、顔のコーディングの基本となることが分かった。例えば両目の間隔に応じる細胞は、目と目が近接している顔に対しては発火頻度が低いが、両目が大きく離れているときには発火頻度が高くなるといった具合だ。次に、サルに向きが異なる本物の顔の写真を見せると、視覚野に最も近いパッチの細胞は、どんな顔でも特定の方向を向いている場合に応答して発火する傾向があり、一方、最も深い位置にあるパッチの細胞は、顔がどのような向きであれ、少数の個人の顔に応答した。

IT皮質がこの情報から顔全体をどのようにコーディングしているかを調べるに当たって、Tsaoは、「顔らしさ」の最も重要な次元（鼻がどれくらいとがっているか、目はどのような位置にあるか、肌の色はどうかなど）を混ぜ合わせることによって、あらゆる顔を作成できることに気付いた。Tsaoと彼女のラボのポスドク研究者Steven Le Changは、顔全体で最も変化が見られる50の次元（25の形状と25の外観の次元）を特定し、50の次元の値が分かっている2000の顔画像のセットを作成した⁴。彼らはサルの目の前でそれらの画像をごく短時間さっと提示し、その間に2個の顔パッチの205個のニューロンの応答を測定した。すると、コードは自ら姿を現し始めた。

最も浅いところにあるパッチの細胞は、形状の次元に同調する傾向があったが、IT皮質のより深いところに位置する細胞の多くは外観の次元に応答した。これは理にかなっていた。より深いところにある細胞は、目前の頭が回されているときに変形した形状の次元を説明しなければならない可能性があるからだ。TsaoとChangは、ニューロンがある顔の次元に基づいてどのように発火するかを予測でき、さらに、これらの細胞の発火パターンのみから顔を再構築することさえできたのだ（「顔をデコードする」を参照）。

**顔をデコードする**
サルで顔認識をデコードするために、Doris TsaoとSteven Le Changは、サルに人間の顔写真を何百枚も見せている間に、そのサルの顔パッチと呼ばれる脳の領域のニューロンからの信号を記録した。顔パッチは、物体の視覚処理に関わる下側頭(IT)皮質に位置している。 Credit: PHOTOS: STEVEN LE CHANG AND DORIS TSAO

この研究成果は、皮質の個々の細胞が皮質の深い部分に行くに従って、より複雑な視覚情報を解釈し、最終的に、最も深いポイントで個々の細胞が特定の人物の顔をコードするようになるメカニズムを示しているように思えた。

その考え方は直観的には筋が通っていた。2005年に、当時カリフォルニア工科大学のポスドク研究者だったRodrigo Quian Quirogaは、ジェニファー・アニストン細胞として知られるようになった細胞を見いだした。Quian Quirogaは発作の治療のために脳に電極を植え込んであるてんかん患者に被験者として実験に参加してもらって、なじみのある人物もしくは有名人の写真に応答して単一ニューロンが信号を発することを発見した。そうした細胞は、その人物に関するどんな概念にも応答した。例えば、ある1つのニューロンは俳優のジェニファー・アニストンの写真に応答して発火したが、文字に書かれた彼女の名前、あるいは彼女が主演した映画のタイトルにさえ応答した。これらの「概念」細胞は、IT皮質よりも脳のもう少し深いところにある海馬に存在していた⁵。

Tsaoは2015年に、現在レスター大学（英国）にいるQuian Quirogaとアスコナ（スイス）で開かれた小さな学会で会った。Tsaoはその学会で最新の結果を発表していた。夕食のときに、彼はTsaoに、彼女の顔細胞は彼の概念細胞とどのように関連すると考えているかと尋ねた。「私の細胞はたぶんあなたの細胞に先行する細胞でしょう」と彼女は答えた。しかし、彼女は一晩中、自分が述べた答えが気になって仕方がなかった。ある1つのことがずっと彼女を悩ませてきた。彼女が研究を続けてきたIT皮質深部の細胞は、しばしばいくつかの個々の顔に応答して発火したが、それらの顔は互いに全く似ていなかったのだった。

その夜彼女は眠ることができず、Changと彼女が自分たちのデータに適用してきた数学的解析について熟考した。そのとき、ある考えがひらめいた。彼女は細胞の傾斜路形同調応答をすっきりと説明する数式について100万回も考察してきた。しかし、暗闇の中、静かなホテルの一室で、それがあるタイプの射影を説明する数学演算と同じであることに気付いたのだった。例えば、射影は、2個の異なった物体に太陽が当たっているとき、それらの置かれた位置によって同じ影ができる可能性があることを説明する。もしも細胞が多次元「顔空間」からの多数の次元を合わせたものを単に射影しているだけなら、「多くの異なった顔がなぜ顔細胞に同じ応答を引き起こすことがあるのかを説明できるでしょう」と、彼女は言う。IT皮質は特定の個人に狙いを定めるようなことは全くしていない。特定の個人への変化は、脳のさらに深部のポイントで起こっているに違いない。

カテゴリーの変化

朝食のときに、Tsaoは新しく得た直観についてQuian Quirogaに語り、そして彼も同じように考えていたことを知った。そこで彼女は彼と珍しい賭けをした。彼女は、その仮説が間違っている方に高価なワインを一瓶賭けたのだ。「仮説が正しいなら、ワインの一瓶くらい取られても全く惜しくありませんでしたから」。

急いで研究室に戻ったTsaoとChangは追加実験を始めた。その結果、賭けには負けてワインをQuian Quirogaに贈ることになったが、2017年に顔認識コードに関する論文⁴を発表することができた。

そのコードは、ぞくぞくするほど（そして少しばかり残念に感じられるくらい）シンプルだった、とTsaoは言う。これを実感できたことは、「私にとって、最も幸福な瞬間の1つでした」。

同じシンプルなコードをIT皮質全体に適用できる可能性は十分にある。科学者たちは体⁶や景色⁷や色付きの物体⁸など、顔以外のものに応答する、顔パッチネットワークに似た別のネットワークを発見している。しかし、IT皮質の大部分は未知の領域である。2018年の夏にドイツのベルリンで開かれた欧州神経科学連合の学会で、Tsaoは彼女が現在行っている研究の詳細をいくつか発表した。Tsaoは、ラボのポスドク研究者Pinglei Baoとともに、自らがIT皮質の無人地帯と呼んでいる領域の細胞を電気的に刺激し、その間にそのサルの脳をスキャンした。2個のパッチが光り、別のネットワークの存在が示されたが、このときはその機能が何なのかは全く分からなかった。

それを突き止めるために彼女は、記録用電極をそれらのパッチに刺し、サルが写真を見ている間のニューロンの活動をモニターした。写真は、動物や乗り物から、野菜や家まで50のランダムに選ばれた物体で、それぞれが24の異なった角度から撮影されていた。ニューロンは顔に応答しなかった。また発火活性のパターンからは、物体のその他の特定のカテゴリーがネットワークに関連しているということも示唆されなかった。代わりに示唆されたのは、ニューロンは、異なる物の一般的な特性をコーディングしているように思える、ということであった。それらのニューロンは、例えば、カメラの三脚のようにとがっているもの、またはUSBスティックのようにずんぐりしているもの、あるいは、猫のように動くもの、家のように動かないものに応答するように思える。

このネットワークが情報を処理する方法は、顔パッチネットワークが顔を処理するやり方と顕著な類似性がある。個々の細胞は傾斜路形同調により、形状または特徴の要素に応答する。例えば、物の動きに同調する1つの細胞は、洗濯機に対してはゆっくり発火し、猫に対しては急速に発火するかもしれない。より浅いパッチは、似たようなカテゴリーの似たような方向の物体に応答する傾向があり、IT皮質で最も深いところにあるパッチの細胞は、どのような角度であっても、いくつかの特定の物に応答する傾向があった。そして、TsaoとBaoは、たった400個ほどのニューロンの発火パターンを見ることによって、どんな物の外観も正しく予測できた。

「私たちは、IT皮質全体が、接続されたパッチのネットワーク内で同様の機構を使って情報を処理していて、全てのタイプの対象を認識するのに同じコードを使用しているかもしれないと考えています」と、Tsaoは言う。

フリードリヒ・ミーシャー生物医学研究所（スイス・バーゼル）の神経科学者のGeorg Kellerも、同じような考えを持っている。「そのような、特徴に基づくコーディングが脳で広く作動しているかもしれないという希望を抱いています」と彼は言う。

幻覚発生装置

しかし今、Tsaoは、脳が物体をどうやってデコードするかだけでなく、それよりももっと大きな構図を描きたいと考えている。脳が世界を全体的に捉えるやり方を解明したいと思っているのだ。これは、脳に流れ込む視覚などの知覚情報がどのように処理されるかだけでなく、経験によって脳に深く埋め込まれたハイレベルの知識がどのように知覚に影響するかをも理解することを意味する。「考えてみてください。湖に浮かぶぼんやりとした塊が、おそらくカモだということを私たちはどうやって知っているのでしょうか」と、彼女は言う。

私たちの脳は、この湖に浮かぶものが「カモ」だと、どうしてわかるのだろうか。 Credit: ROBERT MCGOUEY/ALL CANADA PHOTOS/GETTY

脳は、顔や食物やカモをすくい上げる単なる一連の受動的なふるいではなく、「世界についての現在における最高の内的モデルに基づいて現実のバージョンを発生させる、幻覚発生装置なのです」とTsao。彼女の考えはベイズ推定という理論を利用する。脳は、ハイレベルの知識に知覚を結合することによってのみ、可能な限り最良の形で現実を理解できるようになるのだと彼女は言う。

可能性のある1つのメカニズムは、予測処理と呼ばれる長く議論が続いている理論で、現在、神経科学者の間で関心が高まっている。予測処理の考え方では、脳はミリ秒ごとに自分の周囲環境がどのように変化するかを予測し、さまざまな感覚を通して受け取る情報とその予測とを比較することによって稼働している、とする。脳はあらゆるミスマッチ（予測誤差と呼ばれる）を使って、自身の世界モデルをアップデートする。

脳画像化と電気生理学を組み合わせて、Doris Tsaoは霊長類の脳をさらに深く調べている。 Credit: SAM COMEN FOR *NATURE*

何が起こっているかを明らかにするために、Tsaoは脳の幻覚発生装置がどのように配線されているのかを突き止めたいと考えている。しかし、どのアプローチがうまくいくかが分からないので、彼女は同時にいくつかを試して、脳のより深い部分から記録を取っている。

Tsaoが用いている方法の1つは、人の横顔にも花瓶にも見える有名な「だまし絵」（ルビンの壺）などによる目の錯覚を調べることだ。脳はそれを数秒間見つめた後に、ページをさっさっと何度もめくり返すように、2種類の知覚を自動的に切り替える。サルがその絵を見つめているときに、個々の単一ニューロンを記録することによって、Tsaoは、その切り替えが脳のどこでどのように起こるのか、そして、それが世界の内部表現をどのようにリセットするかを特定しようとしている。もう1つの方法は、見慣れた顔の写真をサルに見せてから、その顔を変形させて別の見慣れた顔にし、その間に脳の記録を取るというものだ。そのサルの脳は自動的に、ある顔を見慣れたものとして分類しようとするだろう。そしてある明確なポイントで、見ている人物についての知覚を2人のうちの一方から他方へと切り換えるだろう。「10年前には、これらの現象をどこから調べ始めたらいいか、誰にも分からなかったでしょう。顔、あるいは花瓶が脳のどこで処理されているかが明らかになっていなかったからです」とTsaoは言う。今は、場所とコードの両方が分かっているので、「知覚が移行するとき、何が変化するかを正確に問うことができるようになりました」。

ヒト以外の霊長類で実験する手法には「多くの可能性があります」と、マウス視覚野で予測コーディングを研究しているKellerは言う。マウスの世界の内的モデルは限られているので、マウスでの実験結果をヒトに適用できるかどうかは明らかではないと彼は言う。また、彼や他の研究者が、ヒトの脳でfMRIと脳波を使用して予測コーディングを研究したとしても、そのような手法からは表面的な知見しか得られないだろう。「私たちの方法では、ヒトにおけるメカニズムの解明や、そのメカニズムがヒトでどのように実行されるのかを知ることはできないでしょう。しかしDorisの方法ならば、それが可能になるでしょう」。

Tsaoは、若い頃に父がインスピレーションを与えてくれた美しい方程式のようなものを求めて脳をさらに深く調べ続けている。しかし、彼女はもはや興奮を隠す必要はない。今、その興奮は彼女の顔全体に広がっている。

翻訳：古川奈々子

Nature ダイジェスト Vol. 16 No. 3

DOI: 10.1038/ndigest.2019.190316

原文

How the brain’s face code might unlock the mysteries of perception

Nature (2018-12-13) | DOI: 10.1038/d41586-018-07668-4
Alison Abbott
Alison Abbottは、Nature の上席欧州特派員。

参考文献

Tsao, D. Y. et al. Science 311, 670–674 (2006).
Moeller, S. et al. Science 320, 1355–1359 (2008).
Freiwald, W. A. & Tsao, D. Y. Science 330, 845–851 (2010).
Chang, L. & Tsao, D. Y. Cell 169, 1013–1028 (2017).
Quian Quiroga, R. et al. Nature 435, 1102–1107 (2005).
Popivanov, I. D. et al. J. Neurosci. 34, 95–111 (2014).
Kornblith, S. et al. Neuron 79, 766–781 (2013).
Lafer-Sousa, R. & Conway, B. R. Nature Neuroscience. 16, 1870–1878 (2013).