用 LLM 重新发明学习这件事 ——关于交互式学习系统的实践笔记，以及一些更大的猜想

（这篇文章是从一系列实践里提炼出来的，包括为 Git、smolagents、NanoClaw、pi-mono 等项目制作的交互式学习系统。每次制作的过程，也是我自己理解这些系统的过程）

如果你想直接体验这些交互式学习系统，可以打开下面两个在线 Demo：

一、起点：一个让人沮丧的时刻

起因是一种很常见的挫败感：在 GitHub 上找到一个看起来很厉害的库，star 数过万，README 写得很好看，clone 下来，然后完全不知道从哪里开始。

代码文件一打开，几十个文件夹，每个文件之间互相引用，抽象层叠着抽象，不知道哪里是入口，不知道哪个概念是核心，不知道作者为什么要这样设计而不是那样设计。花了一个小时看文档，还是一头雾水。最后关掉，去找个更简单的替代品，或者根本就放弃了。

这是真实的学习阻力，不应该仅仅用个人能力不足来解释，而应该看到其背后的原因：复杂系统的文档几乎从不考虑读者的认知负载；文档的目的是（面向具备专业知识的使用者）描述功能，不是帮助（初学者）理解。

于是我开始做一件事：让 LLM 帮我把这些复杂系统「解构」成可以渐进理解的形式。

二、方法：渐进式引入和最小实现

核心提示词是这样的：

先精简一下，找出它解决的问题是什么，它的核心抽象是什么，先写一个迷你版本，只保留最核心的组件并且配上最小示例与测试。随后对比解释真实库为什么需要更多层，重点从性能优化、错误处理、扩展点与生态兼容性四个角度理解其设计动机。

这个方法背后有几个真实的认知原理。

第一，理解需要锚点。人脑不擅长在没有任何已知参照的情况下理解新概念。如果你从来没见过「消息队列」，直接讲 Kafka 的分区复制机制是没有意义的。但如果先理解「两个进程之间需要传递数据，最简单的方式是一个列表」，再解释为什么这个列表需要持久化、需要顺序保证、需要处理消费者崩溃——每一层新的复杂度都有了它存在的理由。

第二，复杂度需要被解释，不是被展示。一个有一万行代码的库，它的每一行都是某个具体问题的答案。但代码本身不告诉你问题是什么。「最小实现」的作用，是先建立一个可以工作的简单版本，然后让你亲眼看到它在哪里失败——失败了，你才真正理解为什么真实库需要那些额外的复杂性。

第三，概念交叉引用比线性叙述更有效。把抽象概念落地到具体代码，把代码行为联系到它解决的场景，让同一个概念在多个角度反复出现——这种网状结构比线性文档更接近人类实际的记忆方式。认知科学里的「精细编码」理论（elaborative encoding）说的正是这个：一个概念被连接到的已知事物越多，它越不容易被遗忘。

三、为什么做成交互式系统，而不是直接输出文章

这里有一个实际观察：同样的内容，做成分章节、可点击、有题目的形式，学习效果明显好于直接输出一篇文章。

原因不是技术的，是心理的。

一篇长文章会让你感觉「我应该从头读到尾」，然后你在第三段就开始走神，在第七段已经滑动到底部了。而一个有章节结构的系统，会让你感觉「我在一个有进度的旅程里」。每完成一节，有一个小小的完结感；每道题目答对，有一个小小的确认感。这不是什么深刻的认知科学，是非常朴素的人性。

更重要的是，题目——哪怕很简单的选择题——会强迫你把「我好像看懂了」转化为「我能不能用这个概念推理出新的结论」。这是被动接收和主动检索之间的差别。认知科学里有大量关于「测试效应」（testing effect）的研究，一致的发现是：主动检索对记忆的强化效果，比重复阅读高出几倍。选择题的价值不在于检验你是否记住了答案，而在于它迫使你的大脑主动搜索并激活相关概念，这个激活过程本身就是学习。

(苏格拉底提问学习法也对于学习效果的提升有帮助，但不适合离线网页展示)

四、一个更大的背景：LLM 时代，能力差距会重新分化

当模型越来越强，人与人之间的差距并不会消失，只会转移。当模型已经强到足以为大多数人稳定提供及格甚至不错的输出时，通用层面的使用能力会迅速普及，因而不再稀缺。差距会更多地体现在另外几个环节：能不能发现值得解决的问题，能不能在具体情境里判断结果是否可靠，能不能根据目标、约束和后果持续修正输出。

其中最重要的一类差异，和后果直接相关。只要一个输出一旦出错，代价要由某个人、某个组织、某个系统承担，判断就不会轻易外包给模型。医疗中的取舍、法律中的解释与责任、工程中的安全边界、金融中的风险暴露、组织中的用人决策，都属于这一类。

另一类差异，来自问题定义和约束整合。很多高价值工作的核心并不是解答一个已知问题，而是先发现什么才是问题；也不是生成一段看起来完整的方案，而是把技术、商业、制度、时间、心理、资源这些彼此冲突的约束放到一起处理。模型擅长在局部任务上给出流畅输出，人则要决定问题是否问对了，目标是否合理，限制条件是否完整，标准是否需要重写。模型越强，这些能力越重要，因为模型也会越来越擅长把一个错误的问题解得很漂亮。

关键在于，这些能力并不会随着模型变强自动长在使用者身上。判断、问题定义、约束整合、标准建立，本身也需要长期学习和训练。也正因为如此，教育的问题反而会变得更尖锐：如果未来更稀缺的能力集中在这些环节上，那么学习系统究竟在培养什么，教育又在围绕什么目标组织自己。

五、教育可能是最先被根本改写的领域之一

AI 进入教育已经很多年了，而且确实在持续推进。答疑、批改、练习、推荐、陪练、培训，这些方向都已经见效。但到目前为止，这些变化大多还停留在旧框架内部。它们让原有流程更快、更细、更便宜，但服务的是既有教育系统的优化。对（应该可以被称为是一个资深学习者的）我自己而言，这样的变化远远不够。

K12 教育的市场规模大，目标集中，题目和分数天然提供了清晰反馈，适合AI技术快速落地；提分、练习、答疑、批改、推荐，这些环节最容易做成产品，也最容易证明效果。但是后果也是显而易见：学校教育与真实社会需求之间的脱节更容易被固化，学生长期面对的竞争压力、评价压力和意义感缺失也更容易积累。传统教育把原本通向真实世界的学习，压缩成了对评分机制的被迫适应。

真实世界中的教育需求，首先来自真实问题本身：为了完成某个目标而学习，为了应对某项任务而训练，为了获得可落地的能力而持续投入。今天围绕编程、数据分析、模型应用、自动化工作流迅速长出的课程、教程和训练营，就是最直接的例子：一项技能只要具有现实使用价值，市场就会立刻为它长出教学内容、学习路径和训练服务。

相比之下，K12 体系里的大量题目，本质上只是对真实需求的劣化、抽离和重组。问题的动机被拿掉了，真实背景被拿掉了，使用场景被拿掉了，最后留下一个可训练、可评分、可排名的外壳。于是教育的核心 KPI 也随之收缩到分数上，凡是不能直接转化成分数的东西，例如学习动机、用途、迁移、落地、对问题来源的理解，这些都会被系统性降权。学生长期面对这样的内容，很容易陷入一种普遍的虚无感：会做题，却不知道为什么做；背下了解法，却不知道什么时候能用；每天都在学习，却感受不到知识和现实之间的连接。

同步上课、统一进度、统一教材、统一作业、统一考试、同龄分班、固定学期制，这些是大规模筛选和低成本管理的产物。动机、理解、兴趣、节奏差异、问题路径，这些东西太复杂，也太不标准化。但LLM 改变了这套结构背后的几个前提：

第一，学习支持不再严重依赖稀缺的高水平教师资源，一个训练好的 LLM 可以同时面对任意多的学生。
第二，学习内容可以持续贴合具体学习者的状态，学习速度不同、背景不同、认知特点不同的人，不必再被塞进同一节奏和同一表达方式。
第三，知识调用摆脱了固定学科边界和课程顺序的束缚，可以围绕学习者当下的问题、兴趣和理解状态连续展开，在不同层次、不同领域之间自由切换。学习路径终于可以跟着个体的理解阶段走，而不是只能跟着课程表走。

很多学生反感的不是学习，而是做题：抽象、去情境、和生活脱节。知识一旦能重新接回真实问题、具体经验和兴趣入口，学习意愿就会立刻不同。兴趣也不只是引诱注意力的手段，它完全可以成为通向更深、更难、更要求系统理解的入口。围绕问题、兴趣和理解状态来组织学习第一次具备了现实性。

六、LLM 让教育第一次具备了系统工程化优化的条件

LLM 对教育的意义，不只是成为教学工具，还可能把认知科学和教育科学本身，从低数据、低反馈、低可控的状态，推到一个高密度实验和高频迭代的状态。

过去教育研究长期受限于课堂本身：一个老师面对很多学生，交互稀疏，记录粗糙，反馈滞后，变量难控。很多关键问题因此无法被持续观察和精细比较，研究最后往往只能落到平均提升和总体效果这类粗颗粒结论上。

而LLM 让一件以前非常困难的事情第一次变得可能：可以在极大规模上，对学习过程本身进行连续、细粒度、可迭代的观察与干预。学习过程本身第一次有可能被过程化地建模。研究者不再只能看考试前后分数有没有变化，而可以进一步观察学习者如何提问，在哪里反复出错，遇到哪类表述会突然明白，哪些类比有效，哪种反馈会促使他继续推进，哪种提示又过强，以至于制造出一种虚假的理解感。若这些过程数据能够被系统整理，教育研究确实有可能进入一个比过去更科学、更动态、更个体化的阶段。

不过，这种突破并不会自动发生。它至少依赖三个前提。

第一，教学效果的定义必须更严格。只看学生是否觉得更容易懂、是否更愿意学，很容易把顺滑感误判为学习效果。更关键的指标，应当是延迟之后的保留、面对新情境时的迁移、独立解决问题的能力、识别和修正错误的能力、面对变式时的稳定性，以及内部表征是否更稳固、更压缩。否则，LLM 很可能只会让解释越来越流畅，却没有让掌握真正发生。

第二，对学习者的刻画必须更细。所谓因材施教，不能停留在视觉型、听觉型这类过度简化的分类上。真正影响教学路径的，是学习者当前的前置知识结构、容易在哪个抽象层级失去理解、对形式化表达的耐受度、先看例子还是先看结构更有效、会在哪些地方产生错误自信、需要多强的检索练习和多慢的节奏控制。关键不只是给不同的人不同内容，而是建立对不同学习者的有效诊断。

第三，教学过程必须进入闭环。过去很多人谈 LLM 教育，关注的仍是它能不能讲题、写讲义、出练习。这些都只是供给内容。更深的一层，是把教学组织成连续优化的过程：先诊断状态，再选择干预，接着观察反应，检验是否真正掌握，然后决定下一步怎么教。只有形成这个闭环，教育才会从内容分发转向系统优化。

从这个意义上说，LLM 也许第一次让因材施教从道德口号变成了工程问题和科学问题。

这本身也很像目前LLM最火的agent训练。两者都要处理类似的问题：中间状态不可直接观测、目标跨越多步、局部正确未必通向整体成功、反馈必须在过程中不断更新。