首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的

AI已经可以写出严肃的科学论文了,并且在深度学习领域这一非常好复现的实验学科。可想而知,对于复现时间和资源成本相当高昂的学科,AI的潜力有多么的大。

那么AI的水平究竟如何呢?

对于理解科学问题,AI的水平大致相当于不求甚解的研究生。

大语言模型刚出现时,我曾拿自己研究的领域,数学问题做过测试。从最初的GPT3,我发现已是不求甚解的本科生水平(只会背书考试拿高分),但是对于比较微妙需要对概念深度理解而非简单复述的问题,回答的并不好。比如(0,∞)上可积的正值函数,在无穷远处函数值是否趋于0?又比如黎曼可积的函数是否一定Lebesgue可积?

但对于如今经过极大量语料训练过的AI,已经可以非常正确的回答这些刁钻但片面的问题,这些问题在互联网的角落曾有过讨论,故而也能被AI所知。

那为何目前AI只有不求甚解的研究生水平呢?对于人类之前没有讨论过,但本身不太复杂的问题,也就是说不是现有的知识,但如果有深入且系统训练过的人,可以凭经验和直觉知道答案的问题,AI表现就非常一般了。对于只知道seaech而非research的研究生,AI自然比他们高明,但需要research时,AI目前表现不好。

但要想提出难倒AI的问题,非得站在人类知识的边界上才可以,这就是一般研究生的水平了。

既然AI对于知识性的问题表现非常好,那做研究时的研究综述,以及做跨学科研究时另外学科的知识性内容就可以交给AI。这样相当于手下有不知疲倦的不求甚解的人类所有领域的研究生可用。

这便是AI for science的好处。用于研究的AI,国内为秘塔,国外有Gemini和deepsearch。我最近在做一个小小的跨学科研究,需要查询一个问题,我甚至不知道该问题在对方领域是否是已知的,是否有本质困难。

Gemini 发音 詹米奈。

Gemini在综合了近二十年文章的信息之后,给出了一篇非常优秀的文献综述。大概相当于不求甚解研究生一天的工作量(对于对该领域有一定了解的研究生,自然能自行在短时间内给出可信的回答)。在此文献综述的基础上,在该领域不如本科生的我得以在短时间内知道该问题的难度。

科学的研究需要大胆假设,小心求证。AI不够大胆,所以需要人去拍脑袋,但研究型AI在做小心求证的前期工作部分表现相当出色。

当然,如果只做小心假设,小心求证的科研。相当于做一定能做出来的问题,但做了个正确的结果,那水平虽然有限,AI也有一定的帮助。

如果做小心假设,大胆求证的科研。那就是短平快,大家都知道能做,为求快速做个差不多的结果不一定对,发到垃圾期刊上,那用AI简直如虎添翼,一年搞十篇。最初开始的那篇文章就是这个例子。

如果做大胆假设,大胆求证呢?那就和民科差不多了,调和级数即收敛又发散,相对论是错的。这种文章AI都不屑于来写,除非你写prompt强行让他来写。

看到了吗?真正好的科学,离民科只差一步,所以需要万分的谨慎。研究型AI对这样的科研,就有一定的作用,省去几天的时间。

AI是可敬的对手,也是值得信赖的伙伴。

AI就和计算机一样,计算机没出来之前人们用笔算盘手摇计算机来算,但很快不会编程的人就搞不了实验学科。那现在不会AI的同样搞不了实验学科。