对大模型的思考,可以再多一点“非线性”思维

前沿科技共绘“未来”图景!2023世界人工智能大会展览面积均创历届之最

科幻作家江波曾说,人们总是用线性方式思考问题。比如当改良蒸汽机出现后,人们就会期望得到更大、更实用的机器,但现实比小说更科幻的是,技术突破常常以“非线性”方式来到人们身边。


(资料图)

从某种角度来说,今年引爆世界的大语言模型就是以“非线性”方式一下子进入了人类视野,以至于今年的世界人工智能大会上,几乎所有关于人工智能(AI)的讨论都绕不开这个选项。在昨天举行的2023世界人工智能大会科学前沿全体会议上,对于大模型以及有望到来的通用人工智能(AGI),与会专家提醒,在考虑它对人类社会带来的影响方面,不妨让思维“非线性”一点。

大模型或许会改变城市格局

大模型的浪潮才刚刚开始,一个无法忽视的问题是,这是一个需要投入巨大资源、消耗巨大算力的赛道。在全球进入“双碳”时代的背景下,模型在算力层面对能源和环境的影响尤为值得关注。

由此,2017年图灵奖得主,美国艺术与科学院(AAAS)、国家科学院(NAS)、国家工程院(NAE)院士大卫·帕特森在会上提出一个“好问题”:如果人们制造计算机的能耗大于计算的能耗,人们还需要耗费大量资源去建造更快的计算机吗?

要回答这个问题,当务之急是要计算出计算机在工作时需要消耗多少能耗,包括计算本身消耗的能量以及配电、冷却方面的能量消耗。不少科学家做了相关实验,发现训练不同深度学习语言模型的二氧化碳当量从?0.012至284?吨不等。比如在不做超参数调整的情况下,训练一个基于?Bert?的模型的碳排放相当于一次环美飞行的碳排量。帕特森自己的研究显示,多数公司在运行深度学习神经网络模型时所消耗的能源和算力要多于模型训练阶段。

当大算力成为一种竞争力,按照“非线性”思考方式,帕特森提醒那些气候凉爽的高原以及拥有丰富水利资源的区域将迎来新的发展机遇。由于计算这件事在不同区域所产生的碳足迹不同,拥有“算力友好型”禀赋的区域可以借此获得发展机会,甚至改变现有的城市格局。

与其“卷”红海,不如寻求新突破

模型架构好比建筑框架,从设计之初就是为了贴合应用需求。复旦大学计算机科学技术学院教授邱锡鹏认为,大模型越是发展,现在的Transformer模型架构的不适应就越发突出。比如现行架构是没有记忆的,处理长输入需要非常高的计算量。因此,最好的方式并非在现行架构中继续“卷”下去,而是为大模型量体裁衣设计新的架构。

事实上,芯片架构也需要创新。当下市场主流芯片架构有英特尔公司的X86和ARM公司的ARM,前者善于处理大数据,后者处理快数据为主,两者分别支撑起个人电脑及移动互联网(手机)时代的主流芯片架构。

相比之下,帕特森更推崇开源构架RISC-V。正是因为开创了一种系统、定量的方法来设计和评价计算机体系结构,并对RISC微处理器行业产生了持久影响,他被授予2017年图灵奖。据介绍,RISC-V的平均指令数只有X86和ARM的1/10,且架构可以随意更改,可满足从智能手表、智能汽车到5G基站、服务器的各种不同性能需求。更重要的是,RISC-V不隶属于任何一家公司,任何企业、团队和个人都可以免费用它来设计芯片。

此外,大模型虽然带火了GPU(图形处理器),但正如它的名字,GPU是为了图像处理而发明的,而且恰巧碰上了机器学习的发展浪潮。在邱锡鹏看来,与其用线性思维去“卷”GPU,不如开发更适合人工智能的硬件,或许会有新的突破。

用电影阐述AI,更要试用AI

AI能帮电影人解决什么问题?《流浪地球》系列科幻影片导演郭帆说,《流浪地球2》剧组整体有3万人,最多一场戏时2000多人在现场,现行条件下没有一个剧组能协调好这么多人。他期望AI能给出解决方案,比如未来只需要少量人员来现场,其他人通过AI协同,可以在不同地点共同完成一件事。

作为一个用电影阐述AI的新生代导演,郭帆用实际行动证明自己对AI有着很深的思考。他表示,未来半年内,他们将尝试在剧本、拍摄、后期、宣传、发行等20多个电影工业化环节上“试用AI”。

用线性思维来看,郭帆称得上是做到了拥抱新技术的最佳电影人,但他带给人们的惊喜不止于此。“我们还要考虑到观影模式的变化,如果未来人们是戴着头显看电影的,我们能否拿出足够优秀的作品。”他说。

好在清华大学智能产业研究院院长、中国工程院外籍院士张亚勤的回答稍稍给郭帆吃下一颗定心丸。他表示,从《阿凡达》《泰坦尼克号》的制作经验来看,虽然计算机技术发挥了越来越大的作用,但真正拿出创意的仍然是人。因此不管电影形态如何变化,作为工具的大模型只会变得更顺手,它能够让更多人更快地将创意变成现实。

作者:沈湫莎

图片:除注明外为沈湫莎摄

责任编辑:任荃

关键词:

编辑: MO
下一篇: 最后一页

相关新闻

精彩推送