Featured image of post 用 LLM 重新发明学习这件事
——关于交互式学习系统的实践笔记,以及一些更大的猜想

用 LLM 重新发明学习这件事 ——关于交互式学习系统的实践笔记,以及一些更大的猜想

(这篇文章是从一系列实践里提炼出来的,包括为 Git、smolagents、NanoClaw、pi-mono 等项目制作的交互式学习系统。每次制作的过程,也是我自己理解这些系统的过程)

如果你想直接体验这些交互式学习系统,可以打开下面两个在线 Demo:

一、起点:一个让人沮丧的时刻

起因是一种很常见的挫败感:在 GitHub 上找到一个看起来很厉害的库,star 数过万,README 写得很好看,clone 下来,然后完全不知道从哪里开始。

代码文件一打开,几十个文件夹,每个文件之间互相引用,抽象层叠着抽象,不知道哪里是入口,不知道哪个概念是核心,不知道作者为什么要这样设计而不是那样设计。花了一个小时看文档,还是一头雾水。最后关掉,去找个更简单的替代品,或者根本就放弃了。

这是真实的学习阻力,不应该仅仅用个人能力不足来解释,而应该看到其背后的原因:复杂系统的文档几乎从不考虑读者的认知负载;文档的目的是(面向具备专业知识的使用者)描述功能,不是帮助(初学者)理解。

于是我开始做一件事:让 LLM 帮我把这些复杂系统「解构」成可以渐进理解的形式。

二、方法:渐进式引入和最小实现

核心提示词是这样的:

先精简一下,找出它解决的问题是什么,它的核心抽象是什么,先写一个迷你版本,只保留最核心的组件并且配上最小示例与测试。随后对比解释真实库为什么需要更多层,重点从性能优化、错误处理、扩展点与生态兼容性四个角度理解其设计动机。

这个方法背后有几个真实的认知原理。

第一,理解需要锚点。人脑不擅长在没有任何已知参照的情况下理解新概念。如果你从来没见过「消息队列」,直接讲 Kafka 的分区复制机制是没有意义的。但如果先理解「两个进程之间需要传递数据,最简单的方式是一个列表」,再解释为什么这个列表需要持久化、需要顺序保证、需要处理消费者崩溃——每一层新的复杂度都有了它存在的理由。

第二,复杂度需要被解释,不是被展示。一个有一万行代码的库,它的每一行都是某个具体问题的答案。但代码本身不告诉你问题是什么。「最小实现」的作用,是先建立一个可以工作的简单版本,然后让你亲眼看到它在哪里失败——失败了,你才真正理解为什么真实库需要那些额外的复杂性。

第三,概念交叉引用比线性叙述更有效。把抽象概念落地到具体代码,把代码行为联系到它解决的场景,让同一个概念在多个角度反复出现——这种网状结构比线性文档更接近人类实际的记忆方式。认知科学里的「精细编码」理论(elaborative encoding)说的正是这个:一个概念被连接到的已知事物越多,它越不容易被遗忘。

三、为什么做成交互式系统,而不是直接输出文章

这里有一个实际观察:同样的内容,做成分章节、可点击、有题目的形式,学习效果明显好于直接输出一篇文章。

原因不是技术的,是心理的。

一篇长文章会让你感觉「我应该从头读到尾」,然后你在第三段就开始走神,在第七段已经滑动到底部了。而一个有章节结构的系统,会让你感觉「我在一个有进度的旅程里」。每完成一节,有一个小小的完结感;每道题目答对,有一个小小的确认感。这不是什么深刻的认知科学,是非常朴素的人性。

更重要的是,题目——哪怕很简单的选择题——会强迫你把「我好像看懂了」转化为「我能不能用这个概念推理出新的结论」。这是被动接收和主动检索之间的差别。认知科学里有大量关于「测试效应」(testing effect)的研究,一致的发现是:主动检索对记忆的强化效果,比重复阅读高出几倍。选择题的价值不在于检验你是否记住了答案,而在于它迫使你的大脑主动搜索并激活相关概念,这个激活过程本身就是学习。

(苏格拉底提问学习法也对于学习效果的提升有帮助,但不适合离线网页展示)

四、一个更大的背景:LLM 时代,能力差距会重新分化

当模型越来越强,人与人之间的差距并不会消失,只会转移。当模型已经强到足以为大多数人稳定提供及格甚至不错的输出时,通用层面的使用能力会迅速普及,因而不再稀缺。差距会更多地体现在另外几个环节:能不能发现值得解决的问题,能不能在具体情境里判断结果是否可靠,能不能根据目标、约束和后果持续修正输出。

其中最重要的一类差异,和后果直接相关。只要一个输出一旦出错,代价要由某个人、某个组织、某个系统承担,判断就不会轻易外包给模型。医疗中的取舍、法律中的解释与责任、工程中的安全边界、金融中的风险暴露、组织中的用人决策,都属于这一类。

另一类差异,来自问题定义和约束整合。很多高价值工作的核心并不是解答一个已知问题,而是先发现什么才是问题;也不是生成一段看起来完整的方案,而是把技术、商业、制度、时间、心理、资源这些彼此冲突的约束放到一起处理。模型擅长在局部任务上给出流畅输出,人则要决定问题是否问对了,目标是否合理,限制条件是否完整,标准是否需要重写。模型越强,这些能力越重要,因为模型也会越来越擅长把一个错误的问题解得很漂亮。

关键在于,这些能力并不会随着模型变强自动长在使用者身上。判断、问题定义、约束整合、标准建立,本身也需要长期学习和训练。也正因为如此,教育的问题反而会变得更尖锐:如果未来更稀缺的能力集中在这些环节上,那么学习系统究竟在培养什么,教育又在围绕什么目标组织自己。

五、教育可能是最先被根本改写的领域之一

AI 进入教育已经很多年了,而且确实在持续推进。答疑、批改、练习、推荐、陪练、培训,这些方向都已经见效。但到目前为止,这些变化大多还停留在旧框架内部。它们让原有流程更快、更细、更便宜,但服务的是既有教育系统的优化。对(应该可以被称为是一个资深学习者的)我自己而言,这样的变化远远不够。

K12 教育的市场规模大,目标集中,题目和分数天然提供了清晰反馈,适合AI技术快速落地;提分、练习、答疑、批改、推荐,这些环节最容易做成产品,也最容易证明效果。但是后果也是显而易见:学校教育与真实社会需求之间的脱节更容易被固化,学生长期面对的竞争压力、评价压力和意义感缺失也更容易积累。传统教育把原本通向真实世界的学习,压缩成了对评分机制的被迫适应。

真实世界中的教育需求,首先来自真实问题本身:为了完成某个目标而学习,为了应对某项任务而训练,为了获得可落地的能力而持续投入。今天围绕编程、数据分析、模型应用、自动化工作流迅速长出的课程、教程和训练营,就是最直接的例子:一项技能只要具有现实使用价值,市场就会立刻为它长出教学内容、学习路径和训练服务。

相比之下,K12 体系里的大量题目,本质上只是对真实需求的劣化、抽离和重组。问题的动机被拿掉了,真实背景被拿掉了,使用场景被拿掉了,最后留下一个可训练、可评分、可排名的外壳。于是教育的核心 KPI 也随之收缩到分数上,凡是不能直接转化成分数的东西,例如学习动机、用途、迁移、落地、对问题来源的理解,这些都会被系统性降权。学生长期面对这样的内容,很容易陷入一种普遍的虚无感:会做题,却不知道为什么做;背下了解法,却不知道什么时候能用;每天都在学习,却感受不到知识和现实之间的连接。

同步上课、统一进度、统一教材、统一作业、统一考试、同龄分班、固定学期制,这些是大规模筛选和低成本管理的产物。动机、理解、兴趣、节奏差异、问题路径,这些东西太复杂,也太不标准化。 但LLM 改变了这套结构背后的几个前提:

  • 第一,学习支持不再严重依赖稀缺的高水平教师资源,一个训练好的 LLM 可以同时面对任意多的学生。

  • 第二,学习内容可以持续贴合具体学习者的状态,学习速度不同、背景不同、认知特点不同的人,不必再被塞进同一节奏和同一表达方式。

  • 第三,知识调用摆脱了固定学科边界和课程顺序的束缚,可以围绕学习者当下的问题、兴趣和理解状态连续展开,在不同层次、不同领域之间自由切换。学习路径终于可以跟着个体的理解阶段走,而不是只能跟着课程表走。

很多学生反感的不是学习,而是做题:抽象、去情境、和生活脱节。知识一旦能重新接回真实问题、具体经验和兴趣入口,学习意愿就会立刻不同。兴趣也不只是引诱注意力的手段,它完全可以成为通向更深、更难、更要求系统理解的入口。围绕问题、兴趣和理解状态来组织学习第一次具备了现实性。

六、LLM 让教育第一次具备了系统工程化优化的条件

LLM 对教育的意义,不只是成为教学工具,还可能把认知科学和教育科学本身,从低数据、低反馈、低可控的状态,推到一个高密度实验和高频迭代的状态。

过去教育研究长期受限于课堂本身:一个老师面对很多学生,交互稀疏,记录粗糙,反馈滞后,变量难控。很多关键问题因此无法被持续观察和精细比较,研究最后往往只能落到平均提升和总体效果这类粗颗粒结论上。

而LLM 让一件以前非常困难的事情第一次变得可能:可以在极大规模上,对学习过程本身进行连续、细粒度、可迭代的观察与干预。学习过程本身第一次有可能被过程化地建模。研究者不再只能看考试前后分数有没有变化,而可以进一步观察学习者如何提问,在哪里反复出错,遇到哪类表述会突然明白,哪些类比有效,哪种反馈会促使他继续推进,哪种提示又过强,以至于制造出一种虚假的理解感。若这些过程数据能够被系统整理,教育研究确实有可能进入一个比过去更科学、更动态、更个体化的阶段。

不过,这种突破并不会自动发生。它至少依赖三个前提。

第一,教学效果的定义必须更严格。只看学生是否觉得更容易懂、是否更愿意学,很容易把顺滑感误判为学习效果。更关键的指标,应当是延迟之后的保留、面对新情境时的迁移、独立解决问题的能力、识别和修正错误的能力、面对变式时的稳定性,以及内部表征是否更稳固、更压缩。否则,LLM 很可能只会让解释越来越流畅,却没有让掌握真正发生。

第二,对学习者的刻画必须更细。所谓因材施教,不能停留在视觉型、听觉型这类过度简化的分类上。真正影响教学路径的,是学习者当前的前置知识结构、容易在哪个抽象层级失去理解、对形式化表达的耐受度、先看例子还是先看结构更有效、会在哪些地方产生错误自信、需要多强的检索练习和多慢的节奏控制。关键不只是给不同的人不同内容,而是建立对不同学习者的有效诊断。

第三,教学过程必须进入闭环。过去很多人谈 LLM 教育,关注的仍是它能不能讲题、写讲义、出练习。这些都只是供给内容。更深的一层,是把教学组织成连续优化的过程:先诊断状态,再选择干预,接着观察反应,检验是否真正掌握,然后决定下一步怎么教。只有形成这个闭环,教育才会从内容分发转向系统优化。

从这个意义上说,LLM 也许第一次让因材施教从道德口号变成了工程问题和科学问题。

这本身也很像目前LLM最火的agent训练。两者都要处理类似的问题:中间状态不可直接观测、目标跨越多步、局部正确未必通向整体成功、反馈必须在过程中不断更新。

使用 Hugo 构建
主题 StackJimmy 设计