×

MIT新突破:用光训练大语言模型,比电子芯片快千倍还省电为什么鹤童能挡敖光的人刀合一,却能轻易被哪吒一脚踩烂了裙子?

hqy hqy 发表于2025-04-08 00:12:03 浏览12 评论0百度已收录

抢沙发发表评论

你是否畅想过,借助光来训练人工智能,使其能像人类般自如地说话、写作与创作?这并非科幻情节,而是美国麻省理工学院(MIT)研究人员正在探索的前沿领域。他们成功研发出一种新技术,能够利用光实现大型语言模型。所谓语言模型,简而言之,是一种能依据上下文生成自然语言文本的人工智能技术,可用于聊天、写文章、做作业、唱歌等场景。通常,语言模型规模越大,其理解和表达人类语言的能力就越强。

然而,训练大型语言模型绝非易事。需要海量数据对其进行“喂养”,以助其学习与记忆。这些数据存储于电子芯片,借助电流传输与处理。但此方式存在两大难题:其一,电子芯片存储空间有限,难以承载过多数据;其二,电流速度受限,无法快速传输和处理数据。因而,训练大型语言模型,往往需众多电子芯片连接构成超级计算机,不仅成本高昂,速度迟缓,且耗电量巨大。

是否存在更优方案?MIT的研究人员给出肯定答案。他们提出一种全新方法,借助光来实现大型语言模型。设计出基于光的神经网络,数据存储与处理在光纤而非电子芯片上进行。该方法优势显著:一是光纤空间广阔,可存储海量数据;二是光速度极快,能快速传输和处理数据。所以,利用光纤训练大型语言模型,仅需少量光纤连接构成光子计算机,既经济实惠,速度又快,还极为省电。

那么他们是如何达成的呢?研究人员运用了名为“可变光学延迟线”的设备,可在光纤中临时存储光信号。可将光信号视作特殊数据,它既能携带信息,又能被改变与操作。通过调节光纤中的反射镜、透镜、分束器等元件,便能对光信号执行编码、解码、加权、激活等操作,这些操作等同于神经网络的功能。

此外,他们还利用了“相干性”这一物理特性,不同波长的光信号间会产生干涉效应。可将干涉效应想象成特殊运算,能把两个或多个光信号合并,亦或把一个光信号复制成多个。如此一来,在不增加硬件复杂度的前提下,扩展了系统的规模与并行度。

研究人员运用该系统构建了简单语言模型,并在一些基准任务中测试。结果显示,该系统性能与电子芯片相当甚至更优,且速度更快、功耗更低。据估算,若将系统扩展到数百亿个参数规模,其速度可比当前最先进的电子芯片快1000倍,功耗降低1000倍。

此项研究成果发表于《自然·光子学》杂志,研究团队由MIT微纳米技术实验室(MTL)和MIT计算机科学与人工智能实验室(CSAIL)的人员组成。他们表示,该方法为开发更强大高效的大型语言模型开辟了新方向,有望推动其他基于光的人工智能应用。

#光技术 #大型语言模型 #人工智能 #MIT科研成果