[译] 认知工具：使不可见变为可见

本文翻译自 MIT Siegel Family Quest for Intelligence 学术报告 Prof. Judy Fan: Cognitive Tools for Making the Invisible Visible，演讲者为斯坦福大学心理学助理教授 Judy Fan。引言由 MIT 教授 Josh Tenenbaum 发表。

Josh Tenenbaum：Judy 是我最欣赏的认知科学家之一——无论在哪个年龄段。她是年轻一代中客观标准下的领军人物，曾获 Glushko 博士论文奖、NSF Career Award 等多项荣誉。但我邀请她并非因为这些。我认为 Judy 是我所知任何领域、任何阶段中最具创造力的研究者之一。她的背景来自神经科学，做过大量视觉心理物理学和计算神经科学的工作，与 Dan Yamins 等人合作。但她已从基础的感知过程——那些可用优雅计算模型描述的事物——转向了使我们成为人类的高级认知过程：艺术表达、叙事、教育、学习与教学，以及我们如何通过符号、数据与解释来理解世界。她保持着对严谨性的追求，她的核心挑战是：如何以视觉神经科学和计算神经科学中我们所珍视的那种严谨和精确，来研究这些真正重要且困难的问题。Judy，请。

Judy Fan：Josh 太客气了。非常感谢大家。我对这个系和社区怀有深厚的感情和敬意——你们所体现的科学价值观令我敬佩。今天能以几分钟时间向各位汇报我们正在进行的工作，确实是一种享受。

认知工具

我们研究认知工具（cognitive tools）。什么是认知工具？

让我们从数轴（number line）这个简单而熟悉的例子开始。大自然是不会给我们数轴的——是我们发明了它。正如西班牙建筑师高迪所言：自然界中没有直线或尖锐的角落，但这并没有阻止我们。我们创造了它们，并延伸出笛卡尔直角坐标系——一种真正前沿的思维工具。

当笛卡尔及其同时代人意识到可以将代数表达式与几何曲线联系起来，以解决各种数学难题——包括困扰了世界数千年的提洛问题（Delian problem，如何使一个完美立方体的体积翻倍）——其影响力难以高估。这项技术在四个世纪中将各种方程求解问题转化为寻找两条曲线交点的问题。

cognitive tools

如今，它已成为不可或缺的教育基础：地球上几乎所有数学课程都引入了符号与图形符号的组合，用以表示和操作数学对象。

我们探究的核心问题是：人类是如何走到这一步的？人类心智的何种特性使这种持续创新成为可能？

视觉抽象：使不可见变为可见

这个故事至少始于 3 万到 8 万年前，当解剖学意义上的现代人类开始在物理环境中做标记——将周围环境中的物体和表面重新利用为意义的载体。

我们没有停留在洞穴壁画。人类学习与发现的故事与技术史深深交织在一起：

达尔文的雀鸟：只有将这些案例并排观察时，形态学变异才开始显现并跃然纸上；
伽利略的望远镜：提供了质疑太阳系组织方式正统学说所需的分辨率；
拉蒙·卡哈尔的视网膜绘图：展示了神经系统不同部分的结构和连接方式；
费曼图：展示亚原子粒子在存在与不存在之间的闪烁——我们永远无法用裸眼直接观察的事件。

这些例子的共同点是，它们利用了视觉抽象（visual abstraction），以一种突出什么是相关的的格式来传达我们所看到和知道的内容。在此基础上，我们利用对世界的不断扩展的理解来创造新事物——将生物学洞见转化为生物工程，将物理理论转化为先进仪器，将神经科学转化为医疗设备，将量子力学转化为现代电子学。

闭合认知环路

传统认知心理学关注人们如何处理外部世界提供的信息。社会认知研究丰富了这幅图景，考虑了多个个体之间的交互行为。但我认为这幅图景仍缺少两个关键要素：

认知工具/技术：编码信息的物质对象，旨在影响我们的思维——我们如何思考、思考什么；
工程学：人们如何利用对世界的理解——无论是通过直接经验还是社会中介——来创造新的、有用的事物。

如果不认真考虑这幅图景中的”工程学”这一半，我敢说，我们永远无法解释我们所知的这个世界如何以及为何成为现在这样。

我实验室的核心目标：发展心理学理论，既解释我们如何发现解释世界运作的有用抽象（科学），也解释我们如何应用这些抽象去创造新事物（工程）。今天我计划分两部分介绍我们的进展。

第一部分：视觉抽象与手绘

三个递进行为

理解人们如何使用视觉抽象进行交流，可以从三个递进的行为层次来思考：

视觉感知（Visual Perception）：将原始感官输入转化为语义上有意义的感知体验；
视觉生产（Visual Production）：生成一组在物理环境中留下有意义且可见痕迹的标记；
视觉交流（Visual Communication）：决定如何排列图形元素、以何种顺序，以对他人心智产生特定影响——告知、教授、说服、协作或任何其他目的。

研究 1：ConvNet 与手绘理解

在早期工作中，我和合作者 Dan Yamins、Nick Brown 发现：通用视觉算法——特别是经过自然照片训练的多层可学习空间卷积神经网络——能够相当强地泛化到即使是非常稀疏的手绘草图。这意味着，至少在某些情况下，可通过构建更好的腹侧视觉通路（ventral stream）计算模型来解决图画意义与相似性的问题。在后续工作中（由 Charles Lu 领导，与 Xiaolong Wang 合作），我们进一步训练了解码器，能在”可扭曲但不撕裂”的约束下将草图中的局部元素映射到照片中的对应元素，证实了相当强的空间约束主导着手绘与实物之间的对应关系。

然而，静态的确定性视觉处理模型无法解释我们如何理解和生成更抽象的图画——比如遍布此楼的框图、箭头、波浪线。它们意味着什么取决于我们正在谈论什么。

研究 2：语境敏感的绘图策略

在绘画游戏中，我们让”绘图者”看到一组物体并画出高亮的目标物体，操纵干扰物与目标物是否属于同一基本类别（”近”条件 vs. “远”条件）。我们发现，普通人能非常灵活地调整绘图策略：在需要唯一识别具体实例时画出更详细、更忠实的图；在只需类别级别抽象时则画出更稀疏的图。我们提出了一个包含 ConvNet 视觉编码器和概率决策模块的计算模型——消融实验证实，视觉抽象能力（通过网络的编码层操作化）和对语境的敏感性对于捕捉人类在适当抽象层次上进行交流的行为至关重要。

在更近期的工作中，我们进一步考察了当人们对之前与同一人交互的记忆导致产生更加抽象——甚至可能是原型符号（proto-symbolic）——的标记时，新的图形约定（graphical convention）是如何涌现的。

研究 3：视觉解释 ≠ 视觉描绘

当人们需要传达机械性知识（事物如何运作）时，会发生什么？

我们区分了两种假设：

累积假说（Cumulative hypothesis）：人们将视觉解释视为普通描绘的增强版本——在传达视觉外观的基础上叠加机制信息；
可分离假说（Dissociable hypothesis）：人们将解释视为选择性地提取机械性抽象、同时大量弱化视觉外观的图像。

Holly Huey 设计了精巧的实验——构造六种新型机械装置，具有清晰的闭合电路机制。实验参与者在”解释”条件下被告知他们的画将被用于帮助他人理解物体如何工作，在”描绘”条件下则用于识别任务。

关键发现：

解释中比描绘中包含更多因果部件的笔触，更少背景元素，更多符号性标记（箭头、运动线）；
解释更好地传达机制工作原理，但描绘更好地传达物体身份——这与可分离假说一致；
由于省略了背景细节，一些解释可能恰恰抽走了建立图画与机器部件映射所需的关键信息。

核心启示：即使是第一次被要求生成视觉解释的人，也共享着关于”解释性图示应该包含什么”的直觉——即使这意味着牺牲视觉保真度来强调更抽象的机械性信息。

SEVA 基准：人与 AI 的草图理解差距

受毕加索著名的公牛系列素描启发——从高度细节化到极度抽象，却始终是”公牛”——我们与 Kushin Mukherjee 等人创建了 SEVA 基准，收集了约 5,500 人在不同”生产预算”（时间限制）下绘制的约 90,000 幅手绘草图，涵盖 128 个视觉概念。

在 17 种当时的 SOTA 视觉算法与人类之间进行对比后，我们发现：

虽然部分模型在识别任务上优于其他模型，但模型间的性能差异被模型与人类之间的差距完全淹没；
CLIP 训练模型在多种条件下表现突出，在其上构建的 CLIPasso 生成算法在高预算下（32 笔触 vs. 32 秒人工作品）达到与人类相似的功能性识别效果，但在紧凑预算下与人类的差异显著增大；
即使在顶层准确率接近时，人类与模型在错误模式分布上存在系统性差异。

对人工系统的启示

我们希望 SEVA 基准能为开发类人视觉抽象模型的社区提供有用的资源，同时也表明：要发展有意义的科学模型，仅构建更好的模式识别系统是不够的——我们需要解释人们在生成和理解抽象图像时的完整认知过程。

第二部分：多模态抽象与统计推理

如果说手绘是一类特别持久、多才多艺且易于获取的”使不可见变为可见”的工具，那么数据可视化或许是现代最具影响力的技术发明之一。

为什么关注数据可视化？

与望远镜和显微镜一样，图表帮助”分辨”我们无法直接观察的世界部分。但与光学技术不同的是，它让你看到过于庞大、过于嘈杂或过于缓慢以至于无法用肉眼观察的模式和现象。图表是新闻报道中的常客，是循证决策的基石，在商业、政府和每个科学与工程领域中不可或缺。

William Playfair 在 1786 年绘制了第一幅时间序列图，展示英格兰 80 年间的进出口平衡。与我们之前讨论的手绘不同——如果你从未见过这种图像，乍看可能并不明显你在看什么。但一旦学会了如何阅读它，它就像一种超能力：如此多的独立观察可被蒸馏为单一图形，讲述一个仅凭观看就能读取的故事。

方向一：可视化理解的认知基础

在 Arnav Verma 领导的基准测试工作中，我们在来自教育、健康、可视化、心理学和机器学习社区的六个常用图表推理测试集上，对人类参与者和多种所谓的多模态 AI 系统进行了仔细对比。我们不仅记录了总体得分，还记录了完整的错误模式分布。

关键发现：

在所有六个测试上，模型与人类之间存在有意义的差距——不仅在宽松评分下如此，在严格评分下更是如此；
这一差距可能在仅依赖最流行的 Chart-QA 基准时被遗漏——该基准上差距显得小得多；
在最需要”真正仔细看”的对抗性设计图表（如 CALVI，具有迷惑性的 y 轴限制）上，差距更大；
即使 GPT-4V 在准确率上接近人类水平，所有模型的错误模式都远低于人类噪声天花板——即 GPT-4V 也并非以类似人类的方式犯错。

方向二：可视化选择——人们如何为问题选择图表？

Holly Huey 的形式化框架是：给定一个关于数据集的问题（”认知目标”），人们应从可能的图表菜单中挑选最能帮助回答问题的那一张。我们构建了数百个基于真实数据集（base R 自带数据集）的问题，记录了人们在每种认知目标下选择条形图、折线图还是散点图的分布。

我们发现，最佳的候选策略是受众敏感假说（audience-sensitive hypothesis）：人们实际上对与回答问题相关的图表特征（而非图表的整体类型或数据聚合程度）敏感。该模型成功预测了约 1,700 名其他参与者在回答每个问题（无论措辞多么奇怪）且看到每一种可能的图表时的表现。

方向三：评估可视化能力的测试到底在测量什么？

在 Erik Brockbank 与 Arnav Verma 领导的即将发表的工作中，我们追问：现有测试究竟在测量什么技能，以及我们能否做得更好？

我们发现：

校园样本与美国人口代表性样本在个别题目难度上高度一致；
在一个测试上表现好的人往往在另一个上也表现好，暗示两个测试可能在测量某些相同的底层因素；
但表现并不按图表类型或任务类型（找最大值、识别聚类、描述分布、检索值等）一致地变化；
一个简约的四因子模型比基于图表类型或任务本体的模型好得多地预测了错误模式；
现有评估可能并未以最佳方式刻画可视化理解能力。

结语与展望

我们真正想要的是发展心理学理论，来解释人们如何使用我们继承并持续创新的认知技术工具箱——理解为什么这个工具箱看起来如此、以及未来哪些认知工具可能效果更好。

从长远来看，我认为理解这些工具如何运作以及如何使其变得更好至关重要，因为正是这些工具处于两项最具影响力和最具生成性的活动的核心：

教育与工程——教育的制度，以及每一代学习者应该能够站在前人的肩膀上看得更远的期望；以及由此赋予我们不断重新想象世界如何可以变得更好、并走出去使之成真的能力。

Q&A 精选

问：关于描绘中偏离真实的表示（如用蓝色画出装满水的玻璃杯），与文化和语言的关系？

答：我们从美学哲学中汲取灵感：与其将这些画视为”假”或”错误”，不如将其视为人们在特定目标下生成的实际数据。追问的是：为什么它们以这种方式呈现、而非另一种？忠实于视觉现象学与习得的惯例，都是合理的约束来源。

问：AI 系统在可视化中的类人错误模式？

答：这是一个极好的问题。熟练的教师发展出诊断”迷思概念”（misconceptions）的能力——关键不在答案的对错，而在于规范性正确路径与学生思维过程之间的差距的性质。在现代大规模机器学习时代，我们使用”机制可解释性”（mechanistic interpretability）工具——也可称为人工神经网络的认知系统神经科学——来诊断正确答案和错误答案来自何处。瓶颈可能在感知层面，也可能在推理步骤层面；目标是将这些步骤暴露出来。

问：如何为儿童设计初始图表，使其易于学习？

答：这依赖于在大量神经典型视觉和认知发展的基础上构建——掌握不同形状在特定空间排列中的存在，依赖读写能力本身。视觉场景难以杂乱为更难处理；视觉搜索过程的某些方面被”征用”来识别人应关注的图像子区域。随着时间推移，将场景组件映射到概念变得越来越快速和容易——这一过程中发生的变化本身就非常迷人。

原文：MIT Quest — Prof. Judy Fan: Cognitive Tools for Making the Invisible Visible
Judy Fan 实验室：https://psychology.stanford.edu/people/judy-fan