×

David silver 谈强化学习

hqy hqy 发表于2025-04-30 18:28:07 浏览13 评论0百度已收录

抢沙发发表评论

谷歌 AI 教父 David silver 在最近的访谈里说,AI 要变强,必须停止模仿人类。这句话一下子击中了我。那么 David silver 是谁呢?

他是 Deepmind 的创始人之一,也是 Alpha go 背后的核心人物。最近呢,他提出一个重要的判断。第一,大语言模型的发展已经遇到瓶颈。第二,想要突破就必须停止靠人类数据训练,而要进入到一个新的时代,实践训练。什么意思呢?举个例子你就明白了。过去训练 AI 呢,就像一个学生学围棋,每一步都参考老师的棋谱,然后呢,被打分评估,这叫模仿学习。但问题是,你学的再好,也只能变成老师的复制品,永远无法超越他。而真正能进化的方式呢,是老师只告诉你规则,然后你就一个人下,不断的试,不断的摔,不断的悟。也就是说不是模仿,而是在实践中觉醒。这不就是我们人类自己的一个学习方式吗?

而 David silver 团队呢,也把这个方法用在了一个新的模型,Alphago Zero 的训练方式上。它完全没有看过人类的棋谱,只靠自己和自己下。你猜结果怎么样?不到40天,他就把人类历史上最强的,我们熟悉的围棋 AI 高手 Alphago 直接打成了100:0 。David silver 说,这一刻他们才真正意识到人类的数据反而可能是 AI 进化的上限。于是呢,他们把这套方法用在了别的领域。就在去年,他们做出了 Alpha fold 这是一款能够预测蛋白质三维结构的 AI 模型。解决了科学家长达50年都没有解开的难题,让预测蛋白质结构的过程从数年缩短到数小时。

我去年就讲过这个话题,毫无悬念的,他们获得了去年的诺贝尔化学奖。注意哦,这可是诺贝尔奖第一次把化学奖颁给了人工智能领域的科学家。而现在呢,他们又开始做一个可以证明数学定理的 AI 名字叫 Alpha proof 据说目前 are a proof 已经达到了国际数学奥赛银牌选手的水平,还解出了只有1%的人类能解的难题。

这些消息太重要了,同志们,AI 正在用自己的方式创造着人类没有发现的知识。我们以为我们在训练 AI 实际上 AI 正在教会我们别再执着于复制答案,去亲自打开那些还没被命名的世界。再回头想想我们的教育呢?是不是我们常常会希望孩子听话一点,最好呢,能按我们教的方式走。我们甚至恨不得把多年摸爬滚打出来的一点人生经验通通传授给孩子,认为这样子他们就能少吃点亏,少走点弯路,幸福一点,成功一点。但你有没有想过,也许他人生最重要的东西不是我们能教的那个部分,而是我们教不了也没走过的那段路。

在科技圈创业这么多年,看到这几十年的技术和社会变迁,我越来越相信,真正好的教育不是教孩子成为更像我们的人,而是让他们拥有成为超越我们的人的能力。也许我们能给他们最好的礼物不是知识本身,也不是经验本身,而是在未知里试错的勇气,在实践中成长的空间。教育也同样不是复刻答案,而是允许他们创造答案。愿我们都不只是他们的前车之鉴,也能成为他们向未来迈出第一步时,那个安静坚定的起点