与不同领域的朋友讨论 AI 的记录，AI 能做什么，以及 AI 的局限

这几天跟几个不同领域的朋友聊 AI，越聊越觉得，真正值得追问的不是「AI 能不能替代人」，而是它会先把哪些旧秩序击穿，又在哪些地方还必须依赖人的训练、直觉与责任。

数学研究会被如何冲击

最先让我不安的，是数学研究里已经出现了一种非常现实的麻烦：有人把 AI 生成的证明和推广，当成论文生产线，只要形式上像那么回事，就足够拿去换发表、名声和利益。

程序代码至少还能跑出结果，数学证明却往往没有一个立刻可见的外部反馈，所以这个领域特别容易被那些看起来像对的东西污染。

眼下能依靠的，似乎还只是信誉。但单靠信誉约束，本来就更像高信任社会里才勉强能运转的逻辑；只要学术共同体还默认先发出来再说，而且错误发表之后也很少被认真追责，就总会有人愿意赌一把。

更糟的是，现在不少人实际采用的，就是让 AI 先写，自己粗看一遍，再丢给合作者继续判断；有的人甚至根本不检查，只把审稿意见继续喂给 AI，等于把审稿人变成免费的纠错机器。

如果这种趋势继续下去，至少未来一两年里，数学界很可能会出现大量似是而非的证明和基于这些证明继续灌水的文章；真正还在做严谨工作的研究者，反而更容易被挤压。我当然希望更长远的未来会把这些人淘汰掉，但这在当下更像愿望，不像机制。

所以我现在越来越觉得，数学研究迟早会更依赖定理证明器和形式化验证。到了那一步，没有经过机器检查的证明，默认就不再值得轻信。

可技术并不能自动解决制度问题。AI 灌水之所以能成立，本质上还是因为传统学术生产默认文章一旦发表就算过关，后续很少有人追着纠错，也很少有期刊愿意公开暴露自己的问题。

我能想到的制度出路，反而很现实：把评审尽可能公开化。只要错误能够被公开指出，作者必须为自己的结论承担后果，那么用 AI 生成错误内容的代价才会真正变高。就像计算机领域正在做的 Open Review 一样，所有人都可以在某篇文章下面发表自己的观点，然后作者也需要进行回复。

与此同时，AI 也确实在把数学研究推向另一条路。它已经能把一些卡了很久的问题往前推一步，尤其擅长调动不同方向里早就存在、但研究者自己未必熟悉的结论，把它们重新拼接起来。

这意味着，未来的数学论文里，很可能会出现越来越多把不同方向接通来解决老问题的工作。它未必都是坏事。坏的是人不再检查，只剩提交。

基础训练不会被替代

读完徐贲的文章《AI时代，文科还有出路吗？》之后，我虽然没法判断他对文科本身的判断是否完全成立，但把其中的「文科」替换成「数学研究」，我几乎处处都能感到贴切。那篇文章最后给出的两条出路，我也基本认同：一是去承担那些一旦出错就会造成真实后果的责任，二是去做真正有深度的跨学科研究。

一位做人文研究的朋友提醒我，文科真正的问题并不是低质量、试错式的思考本身，而是这些本该停留在个人过程里的半成品被制度放了出来，挤占了公共注意力。

她也认为，AI 真正冲击的不是作为知识的人文学科，而是作为制度的人文学科：制度在制造边界、训练标准化产出，知识本身却天然在穿越边界；但与此同时，一个人如果想真正学到东西，依然不能把 AI 的总结、检索和梳理，当成自己已经完成了积累，否则最终只会困在一种看起来很完整、实际上却并不属于自己的知识外壳里。

这一点我非常认同。换到数学里也一样。AI 现在当然已经可以写出看起来很像回事的证明，机器甚至也能够验证一部分形式化步骤，但这依然替代不了那些枯燥、漫长、甚至让人厌烦的训练。

因为训练的目的，从来不只是多记一点知识，而是不断修正人的直觉。到了知识边界附近，一个人能不能判断 AI 给出的东西哪里不对、哪里有启发、哪里只是华丽的错话，靠的正是这种被训练过的直觉。

那位朋友后来又把话题拉回到学科边界本身。她的意思很清楚：学科划分只是近代以来为了效率而形成的制度安排，当它开始妨碍知识生长的时候，就应该被调整，而不是被神圣化。

这也是我这段时间为什么更愿意去做跨学科的事情。那些我已经知道大致该怎么做的问题，迟早会被 AI 更快地做掉；真正还值得我投入的，反而是不同学科之间的连接处。

教学的问题，本质上还是人的问题

聊到教学时，那位朋友又提到另一个让我很有共鸣的判断：今天很多学生基础越来越差，这固然会在 AI 时代表现得更明显，但问题并不是从 AI 才开始的。

我自己的感受也很明确。哪怕没有 AI，学生也早已困在形式化学习、分数竞争和保研叙事里，慢慢失去了夯实基础的意愿和能力；AI 只是把这个问题提前暴露了出来。

所以真正该问的，从来不是现在的人还要不要用 AI，而是如果一个人不学基础，他究竟会在哪些场景里撞墙。这个问题如果老师自己想不清楚，学生当然也不会信服。

她还用一个非常直白的标准来形容所谓真本事：如果断网断电、没有课件也没有 AI，一个老师还能不能继续把课讲下去、把学生作业看明白，这才真正说明他有没有把知识装进自己身体里。

这也让我越来越确定，很多老师和学生其实都在非常浅地使用 AI：老师把它当表达审校和零碎知识核对工具，学生把它当作业代写者，结果就是大家都在口头上拥抱 AI，真正的使用能力却并没有跟上。

我也感觉到，大部分人其实都没有把 AI 用到应有的程度，哪怕是做 AI 研究或者做 AI 创业的人，也常常只是摸到了一层皮。

这也是为什么我想做的不只是教人几个提示词、几个智能体配置，或者一套很快就会过时的技术动作。我真正想做的，是一套能让没有工程背景、思维已经固化多年的人，也能慢慢学会把 AI 用进自己生活、研究和工作里的学习方式。

我之所以现在能比一些人多用出一点能力，与其说是掌握了什么高深技术，不如说是我过去的人生刚好训练出了一些更适合这个时代的思维习惯。但这并不意味着我没有挫败感。每当我碰到那些真正有创造力、又有很强工程思维的人，我同样会清楚地感觉到自己的不足。

可我还是相信这件事能学会，也能教会。我认识一个把 AI 用得最好的人之一，就是文科出身、同时还在照顾家庭的人；我见过不少孩子用 AI 的方式，也比许多成年人更自然。这个事实本身就说明，文理工的划分并不重要，重要的是一个人能不能建立新的思维习惯。

所以这段时间，我一边做科研，一边也在主动接触那些真正做 AI 教育的人。我越来越觉得，AI 更像是放大器：理想情况下，它会把一个人原本的方向、能力和兴趣放大；但现实是，很多人的思维方式已经被长期训练得过于僵硬，连自己真正想做什么都不容易重新找回来。

也正因为如此，我对 AI 教学的想象从来不是一门技术课，而是一种会认真照顾人的情绪、焦虑、挫败和脆弱的通识教育。它必须把学生当完整的人来看待，而不是一上来就用代码和工作流把人压垮。

我希望最终做出来的，也不是学校里一门局部的示范课程，而是一套更大范围的、跨学科也跨文化的学习体系，让更多人真的学会把 AI 变成自己的工具。

AI 的边界还远没有画清

另一位朋友最近试了 Gemma 4 这样的本地模型，结论很直接了当：只要任务属于那种看起来说得完整、实际上却没有外部校验的知识性回答，它就很容易一本正经地胡说八道。

这个观察我基本同意。本地模型从原理上就更适合编程这类可以立刻知道对错的任务，因为它可以在报错和修正中不断迭代；可一旦进入知识查询、事实判断这类自己无法验证的场景，没有联网勘误，也没有可信信源的交叉验证，它给出的很多结论都不可靠。

那位朋友进一步怀疑，LLM 本质上只是一个擅长模仿语言的统计系统，真正危险的地方不在于它会不会说话，而在于它太容易用流畅的话把人骗过去。

我不完全同意把它直接判成没有智能。我们其实也不知道人脑是怎么产生智能的，但这并不妨碍我们承认人有智慧。今天的大语言模型更像一个能力分布极不均匀的东西：在某些任务上强得惊人，在另一些任务上又蠢得离谱。

所以我更愿意把它看成一种局部能力极强、整体又很不稳定的工具。它在编程、计算机、以及那些能够快速验证对错的任务上，确实已经超过了绝大多数人；但这并不意味着它就自动拥有了面对所有现实问题的判断力。

真正值得研究的，不是急着证明它有没有智能，而是不断把它的边界画清楚：哪些地方可以靠工程手段继续改进，哪些地方不行，哪些地方甚至需要新的人工智能路线。

这也解释了为什么我既反感把 AI 当神来拜，也反感因为几次错误就断言它毫无价值。它在某些任务上像天才，在某些任务上像白痴。问题从来不是一句行或者一句不行能说完的。

那位朋友还提出了一个我很认同的判断：LLM 在文字、图片和音乐里之所以常常显得套路化，是因为这些领域不仅需要生成能力，还需要审美、价值选择和对现实的交叉验证，而这些东西没法直接从统计结果里长出来。

我觉得这个判断非常重要。就拿数学来说，它表面上像一个能够明确判定对错的学科，但真正的研究过程并不是一行一行机械验算，而是大量依赖直觉、经验和审美去判断什么值得信、什么值得做。

现在 AI 进入数学研究，大致也就两条路：一条是把证明形式化，交给机器严格验证；另一条是把 AI 当成一个不太可靠但偶尔非常有启发的合作者。后一条路很像陶哲轩形容过的那种状态：绝大多数输出都不行，但偶尔会有一些组合和思路真正把人往前推一下。

我甚至觉得，这个判断也可以推广到文字、图片和音乐。AI 生成的大部分内容也许仍然平庸、空洞、甚至错误，但其中很小的一部分，依然可能给人新的想法。

还有一层价值，是搜索引擎暂时还没替代掉的。人与 LLM 的对话，往往不是从关键词开始，而是从一种感觉、一个情节、一个说不清的问题开始；如果它能顺着这些模糊的线索，把相关的知识和解释拉出来，这就是它降低知识门槛的真实地方。

可惜很多公司现在更愿意把这种能力用在情绪安抚、讨好用户和延长停留上，而不是用来解决真实问题。说得更直白一点，它们经常在道德和利益之间先选择利益。

我也觉得，一个更有价值的 AI，本来应该更善于指出人的盲点。只是出于商业考虑，相对靠谱的公司最多把这种更尖锐的模式藏在设置里，不会把它做成默认；更差的产品则干脆一路顺着用户说下去。Gemini 有一段时间就给过我很强的这种感觉。

当然，这件事也不只是公司的问题。人本来就未必真的想听真话。一个总是戳穿你的人，未必能当很久的朋友。可如果 AI 默认只负责安抚，那它就很难成为真正有价值的合作者。

我现在更相信的事

聊完这些之后，我反而更确定了一点：大语言模型还远没有到极限，但它真正能走多远，不取决于它会不会继续把话说得更漂亮，而取决于我们能不能在不同领域里同时把责任机制、基础训练和面向具体人的 AI 教育一起补起来。

如果没有更公开的纠错和追责，AI 只会把粗制滥造更快地包装成成果；如果没有更扎实的基础训练和直觉训练，人就会把 AI 的输出误当成自己的能力；如果没有真正贴着人的处境去设计的 AI 教学，那么绝大多数人只会在焦虑里被动跟随。

这几件事如果做不起来，AI 只会放大学术、教育和公共表达里原本就有的问题。

如果它们做得起来，AI 才可能真的帮助更多人成就自己。