关灯
《文稿,还能这样写》作者雄文《笔杆子碎语》作者王一端《机关文稿写作入门》作者杨新宇《机关文字工作五十讲》作者何新国
最新《公文写作培训课程》直播间《公文写作百法例讲》作者房立洲老秘网站长、《老秘笔记》作者老猫《公文高手的自我修养》作者胡森林
开启左侧

[科学发展] 人工智能发展现状与未来思考

  [复制链接]
老猫 发表于 2025-7-23 09:22:21 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
公文写作培训班
◎北京中关村学院院长、中关村人工智能研究院理事长   刘铁岩

2025年4月25日,中共中央政治局就加强人工智能发展和监管进行第二十次集体学习。习近平总书记在主持学习时强调,面对新一代人工智能技术快速演进的新形势,要充分发挥新型举国体制优势,坚持自立自强,突出应用导向,推动我国人工智能朝着有益、安全、公平方向健康有序发展。人工智能是研究和开发用于模拟、延伸和扩展人类智能的理论、方法及应用系统,其目标是使机器能够像人类一样思考、学习和进化,从而自主执行各种任务。发展至今,人工智能已成为一个超高速发展、多分支渗透的课题领域。当前,对世界各国而言,人工智能正在重塑现实、定义未来——谁能率先发现新方向、占领新前沿、建立新标准,谁就更有可能在日益激烈的国际化竞争中掌握先机。

一、人工智能经历了怎样的发展历程?决定人工智能成败的关键因素有哪些?

(一)人工智能的发展历程至少经历过三起两落

第一次起落:20世纪50年代中期至70年代中期,都可说是“符号主义”阶段(SymbolicAI)。1956年,在美国达特茅斯学院举办了一场人工智能夏季研讨会。这次会议被学术界与产业界公认为人工智能研究的起源。计算机的应用带来了自动计算能力的提升,虽然当时计算机硬件很弱,但已发明了很多重要技术雏形,如定理证明、机器学习、计算机视觉、语音识别等。举例来说,1955年至1956年,艾伦·纽厄尔(AllenNewell)、司马贺(HerbertAlexanderSimon)和约翰·克里夫·肖(JohnCliffordShaw)编写了史上首个人工智能程序LogicTheorist,用于证明数学原理,它成功证明了38个定理,其中有几个甚至比人类数学家的原始证明更优;1959年,阿瑟·李·塞缪尔(ArthurLeeSamuel)开发出了能够战胜普通水平人类玩家的西洋跳棋程序,并首次使用机器学习来改进棋力;1964年至1966年,MIT计算机科学家约瑟夫·维森鲍姆(JosephWeizenbaum)开发出史上第一个聊天机器人Eliza。

致使第一次人工智能研发退潮的主要因素包括:当时的计算资源非常贫乏,难以支撑科学家们的宏伟构想;程序只能在特定规则的约束下处理问题,而无法理解“常识”,语言与感知能力都不能突破技术限制等。总之,符号主义陷入困境,各国政府开始削减AI研究经费,大量项目被取消。

第二次起落:自20世纪70年代中期到80年代末期,即“专家系统”(ExpertSystem)阶段。专家系统是具有专门知识与经验的计算机智能程序,能够推动人工智能由理论走向实践、由普遍策略探讨走向专门知识运用。如果说达特茅斯会议确立了人类对通用人工智能(AGI)的美好想象,那么在经历了第一次起落后,人工智能的第二次浪潮暂别了AGI畅想,相对务实地探讨了“狭义智能”在专业领域的实用可能。其间,各国政府都将专家系统视作国家级战略:20世纪80年代初,日本经济产业省投入8.5亿美元用于第五代计算机项目的研究,这个项目的核心目标是建造出能够实现自然人机交互的机器;英国于1983年启动了耗资3.5亿英镑的“阿尔维计划”;同年,美国国防部亦开始主持实施五代机研发,投资约10亿美元。专家系统兴盛的10余年里,实用AI与知识处理成为学术界、工商业界瞩目的焦点。

然而,由于专家系统高度依赖各领域专家将知识转化为其可理解的规则,因而存在着难以破除的知识获取瓶颈,再加上学习和泛化能力极弱、维护成本极高,商业化遇冷、投资锐减也就是顺理成章的事。当专家系统将“规则驱动”的天花板暴露无遗,神经网络技术的突破,使研究者看到了“让机器自行学习数据规律”的可能,由此带动了连接主义的兴起,成为后来机器学习浪潮的源头。

第三次兴起:从2006年至今,人工智能研究进入“深度学习”(DeepLearning)阶段。2006年,杰弗里·辛顿(GeoffreyHinton)提出了“深度信念网络”(DBN,DeepBeliefNetwork);2007年,李飞飞和普林斯顿大学的同事开始建立大型注释图像数据库ImageNet,为渴求训练数据的神经网络提供了大规模监督学习的基础资源;2012年,杰弗里·辛顿和他的两名学生——亚历克斯·克里泽夫斯基(AlexKrizhevsky)、伊尔亚·苏茨克维(IlyaSutskever)设计的卷积神经网络架构AlexNet在ImageNet比赛中取得压倒性胜利,同为图灵奖得主的深度学习先驱杨立昆(YannLeCun)对此的评价是“计算机视觉历史上的转折点”;2016年,DeepMind开发的AlphaGo战胜顶尖人类棋手李世石,标志着人工智能推理与策略能力实现了质的飞跃;2023年,ChatGPT引爆全球,意味着多模态通用智能已初具雏形;2024年,杰弗里·辛顿与约翰·霍普菲尔德(JohnJ.Hopfield)获得诺贝尔物理学奖,而诺贝尔化学奖则由两位人工智能科学家——戴米斯·哈萨比斯(DemisHassabis)、约翰·迈克尔·乔普(JohnM.Jumper)与生物化学家大卫·贝克(DavidBaker)分享,引发了全球对人工智能与自然科学融合前景的热议;2025年,来自中国的开源大语言模型DeepSeek崭露头角,以高性能与低成本广受各国瞩目。

回望人工智能创新三起两落的历程,所谓“落”并非全然是挫折,更是技术演进过程中不可或缺的蓄势与试错。时至今日,再来看人工智能研究相对沉寂的那20多年,恰好对应着PC与互联网普及、云与大数据将兴的时代——或许人们对于智能机器的向往从未熄灭,只是在以更务实的态度,一点点架设起连接全球每一人、每一台机器的节点与网络。正因如此,当算法、数据与算力这三大核心要素同时具备突破条件时,人工智能才得以水到渠成地掀起又一轮时代浪潮。

人工智能三大要素中,算法是人工智能的核心灵魂,决定了模型如何处理数据以及如何从数据中学习知识;数据是人工智能的燃料,是模型学习和认知世界的依据,对模型的性能和泛化能力起着决定性作用;算力是人工智能发展的硬件基础和驱动力,为算法的运行和数据的处理提供强大的支持。

人工智能算法的发展大致可分为两个阶段:传统机器学习阶段与现代深度学习阶段。传统机器学习涵盖线性回归、逻辑回归、支持向量机、决策树、K-means聚类、K近邻、朴素贝叶斯、主成分分析,以及萌芽阶段的神经网络和集成学习等方法。这些算法主要依赖人工设计特征,适用于结构化数据,强调统计建模与可解释性,是人工智能技术发展的早期基石。现代深度学习则以三大核心架构为代表:循环神经网络(RNN)、卷积神经网络(CNN)与Transformer。RNN采用链式结构,擅长处理语音、文本等序列数据;CNN借助卷积核提取图像的局部特征,适用于图像分类与目标检测等任务;Transformer引入自注意力机制,具备全局并行处理能力,是当今大模型的主流架构,广泛应用于自然语言处理、多模态理解与生成式AI,如GPT和Gemini等。这些基于Transformer的模型有规模不断增大的趋势,如今拥有万亿参数已经司空见惯。从传统走向现代,人工智能算法不断从手工规则走向自动学习,从局部建模迈向全局建模,从小样本适配扩展至大数据与大模型驱动,推动了整个智能技术体系向更高的阶段跃迁。

(二)数据与算力的演进

数据维度,以OpenAI的GPT系列大模型为例,从GPT-1世代到坊间传闻的GPT-5世代,不到10年间,其训练数据规模实现了惊人的指数级膨胀:从约7000本书、4.7GB的文本语料,扩展到约70万亿词元(tokens)、相当于281TB的超大语料,训练数据量膨胀了数万倍。这样的变化不仅意味着“燃料”储备的扩容,更暗示了人工智能认知世界的“野心”增长——GPT-1世代像是在图书馆角落里汲取知识的学霸,而GPT-5世代则好比想吞噬整个互联网的饕餮。

算力维度,与训练数据的指数级膨胀现象几乎同步——过去10年来,人工智能模型的训练算力需求亦经历了前所未有的爆炸式增长。包括GPT、Claude、Gemini等代表性系列大模型在内,训练所需的算力急剧攀升,增速约为每两年增长750倍,远远超过芯片算力每两年翻一番的增长节奏。供需裂口的持续扩大,揭示出算力已成为现有技术路线下AI能力演进的一大瓶颈。为应对这样的挑战,各大芯片厂商也在勉力加速算力芯片的迭代。

不仅如此,几年前,模型训练“几卡”就行。很快,人工智能训练门槛被提升到“千卡”“万卡”。到现在,“万卡”不过是加入大模型竞赛的入场券,“十万卡”才是巨擘们构筑的竞争壁垒。更关键的是,算力的尽头是电力——并非所有企业与机构都具备承担高昂能耗成本的能力。可以预见的是,在训练范式未被颠覆式重构的前提下,人工智能训练将继续向大规模集群方向演进,算力储备会决定创新探索和研发能力的上限。

综上所述,算法、数据、算力三要素的协同进步推动了人工智能的突破性进展。

二、人工智能有哪些前沿方向和进展?国内外差距究竟有多大?

当我们聚焦人工智能的前沿地带,会发现大语言模型、科学智能与具身智能构建了人工智能演进的知识飞轮,形成了理解世界、探索世界、感知并影响世界的正向循环。ChatGPT、DeepSeek等大语言模型承担“知识梳理与表达”的任务,即对人类既有知识体系进行高效理解、系统总结与逻辑推理;科学智能负载着“知识外推与新建”的使命,立足于已有科学规律,提出新假说,执行仿真计算和理论验证,从而发现新的知识与原理——例如,2024年诺贝尔化学奖授予两位AI科学家,正是表彰其以AlphaFold为代表的AI系统在蛋白质结构预测与设计中所带来的突破;具身智能则专注于“知识反馈与更新”,借助机器人、实验室自动化系统等实现与物理世界的实时交互,感知环境、验证结果,并将其反馈回知识系统,构成了一个自我强化、持续演进的闭环。用一句话来概括:大模型以言通理,科学智能以理窥真,具身智能以行证道。

(一)人工智能知识飞轮的第一个关键支点——大语言模型

当前主流大语言模型普遍采用“预训练+微调”的学习范式。以海量的多模态数据,通过“下一词元预测”(NextTokenPrediction)的方法,对作为通用知识底座的基础大模型进行预训练,再通过下游任务对预训练模型进行微调,衍生出多样化的专用模型。这一机制支撑着语言理解、推理生成、任务执行等能力的协同进化,成为国际范围内通用人工智能发展的主流路径。

基于这样的技术范式,全球大模型竞争格局表现为:国外“4+1”,OpenAI的GPT系列、Anthropic的Claude系列、谷歌的Gemini系列及最近XAI推出的Grok相对领先,Meta的LLaMA紧随其后——LLaMA走开源路线,助推生态扩张,但与闭源商业模型相比仍有一定差距。相较之下,国内大模型发展呈现出百模竞发的局面,尽管整体仍处于跟随状态,但部分模型已逐步跻身全球主流评测榜单前列。例如2025年4月,DeepSeek-R1模型登上LLMLeaderboard全球第十,显示出国产模型技术体系在局部技术路径上的突破与演进潜力。

企业界、学术界的一个较为普遍的观点是:“规模定律”(ScalingLaw)与“压缩即智能假说”(CompressionRepresentsIntelligence)将指引大模型继续向前进化。所谓“规模定律”,是指理解、生成、推理等大模型能力将随着模型规模(参数量)、训练数据量、算力资源的投入呈现出持续的提升趋势,并且这种提升是可预测、具规律的——的确,“超大规模”正是新一波智能涌现的一大特征。换句话说,近期大模型变聪明的秘诀不是靠某种新颖的架构,而是“大力出奇迹”的结果。所以当下国内外头部公司仍在追随规模定律展开“军备竞赛”,从千亿级到万亿级,再到十万亿级。

智能的本质是什么?“压缩即智能假说”认为是——越多数据蕴含越多知识,而能够压缩这些知识的模型的规模就需要越大,相应地,模型所具有的智能也就越强。而当模型规模相当、算法相似时,不同大模型的差距将主要由数据规模与质量决定。更通俗地说,无论是人类大脑,还是人工智能系统,其“聪明”都应体现在能够从复杂、多模态的信息中提炼出核心的模式、规律和结构,并通过高度概括性的参数进行有效表达。这个提炼、概括与表达的过程,本质上就是一种压缩。如果压缩即智能假说成立,那么对中文大模型来说,数据的短板将不容忽视。可用于训练人工智能的语料,中文仅占约5%,英文占比则高达60%—70%,而且英文互联网拥有庞大的开放知识体系,内容覆盖面广,更新频繁;中文互联网则在电商、社交、短视频、直播等领域内容丰富,平台活跃度高,相比之下知识的容量略显匮乏。这也提示我们,训练中文大语言模型,也需要充分利用多语种的语料。

关于人工智能大模型路线,近期有一些新动态值得注意。

首先,预训练的智能增速放缓,规模定律的瓶颈渐显。一方面,数据量大不等于知识多,何况对现有数据资源,尤其是文本数据的利用已达峰值,未来的模型必须在有限的数据中寻找新的发展方式(如利用多模态数据提升模型的智能性)——正如前OpenAI联合创始人、SSI创始人伊尔亚·苏茨克维于2024年12月在NeurIPS2024大会演讲中所指出的:预训练作为AI模型开发的第一阶段即将结束。另一方面,训练方法的改进滞后于模型规模的膨胀,同时试验代价高昂——用于大模型训练的计算资源、时间及人力成本极高,动辄耗时数月、耗资上亿美元,一旦模型结构或训练参数设定有误,可以想象会造成多大损失。

其次,研究者们逐步摸索到了大模型的能力边界——尽管与前两次人工智能发展高潮的“前辈”们相比,今天的大模型可说是学问广博、智能高超,但仍旧缺乏对复杂新模态的理解能力、对知识的显式建模能力以及解决复杂推理等任务的能力。因此,前沿企业和机构纷纷通过“后训练”来提升大模型的智能,包括借助强化学习生成思维链数据,作为大模型解决推理问题的训练燃料;以及在测试阶段,允许模型花费更长时间、尝试更多路径,以获得更好的推理结果。OpenAI的推理系列大模型,从o1到o3版本的快速升级,展现出规模定律在后训练阶段依旧有效,之后发布的o4,性能又较o3有了显著的提升。当然,这些模型的局限也还存在。比如更擅长处理数学、编程等容易评价的任务,而不擅长那些验证困难的任务(如药物设计)。另外,成本问题始终不容忽视,虽然在一些基准测试中有优良表现,但其完成测试任务的成本相当高——高计算量模式下每任务动辄需要数百甚至上千美元。

再次,大模型的能力存在边界,但可以通过智能体(Agents)来延展边界,进而一步步靠近通用人工智能的梦想。现今,大模型缺乏自主目标,并且不擅长处理组合优化、数值仿真等非预测和生成任务。引入智能体可以赋予大模型自主树立目标、调用外部工具和规划任务路径的能力。这是一条通往通用人工智能的可行路线,即基于超大规模预训练大模型的智能基座,结合端到端强化学习后训练——从感知输入、决策动作到环境反馈、行为调整,全链均由模型一体化学习完成——配合超长链路深度推理且能自主规划、调用高级工具来达成目标的智能体(简称端到端智能体)。在此方面,近期的一些先行尝试者如OpenAI推出的Operator和DeepResearch智能体,而最新版本的o3、o4更是将这种智能体的能力内化回大模型本身,进一步提高了大模型的智能性。

最后,仅仅追逐尾灯,不足以决胜未来。反思近年来的“大模型热”,国外企业领跑、国内企业跟随的局面一直存在。但围绕大模型的竞争已经逐渐变得投入高、产出低、贬值快也是不争的事实:参与这场游戏需投入大量的顶尖人才与巨大的计算成本,然而由于产业价值尚不明确(迄今盈利的大模型屈指可数),也就意味着回报周期漫长并充满风险;更何况,这一领域原创难、模仿易、参与者众,可以说已成红海,继续跟注或加注很难说是理性的选择。因此,在不偏离主流创新路线的同时,积极探索另辟蹊径,成为新方向与新路线定义者的可能性,或许这才是务实与明智的态度。

(二)人工智能知识飞轮的第二个关键支点——科学智能

科学智能的目的是用人工智能的方法帮助我们更好地认识世界和改造世界。物理世界有不同的尺度,从而也定义了不同尺度的科学研究,例如微观科学(Micro-Science)、宏观科学(Macro-Science)和行星科学(Planet-Science),每个维度又可细分为若干研究方向与任务途径,并拥有不同的探梦者与领先者。

微观科学聚焦微观粒子尺度的科学建模和预测。在这一维度,人工智能表现活跃,并已孕育出一些激动人心的成果,代表方向如包括核聚变约束、终端电磁仿真、粒子加速器反应分析等分支课题在内的前沿物理,包括光伏或电池材料设计、非晶材料预测、OLED分子发现等课题在内的材料研发,包括蛋白质结构分析、药物分子合成、药物靶点发现、化合物筛选、蛋白质互作等课题在内的生物制药。宏观科学侧重工业、工程、能源、环境相关的大型系统模拟与设计,代表方向如工业设计、水利水务、气象预测、资源勘探等。行星科学锁定天文探索等代表方向,从黑洞探测到未知星系识别,都是相关研究方向的子课题。

“科学智能”不等于在科学研究中简单地使用人工智能。人工智能不只是为基础科学“打工”的帮手,而是可以从另一个角度,模拟人类认知、探索、改造世界的全程。因此,人工智能的角色更像是合作者,甚至于创造者。更明确地说,科学智能是用人工智能技术系统性地颠覆现有科学发现的过程,包括并不局限于:科学仿真——某些问题的科学规律清晰,可用科学计算方法完美求解,但速度很慢、需时较久,而人工智能可以带来几个数量级的加速,从而在空间或时间尺度上实现颠覆;科学实验——某些问题的科学规律不清晰,无法用科学仿真求解,但有海量数据可以利用,通过人工智能可以进行端到端的学习,预测实验结果,实现线下到线上的效率压缩;科学问题——通常作为个体的科学家,认知半径不可能是无限的,思考的过程更是旷日持久,而借助人工智能,人类学者可以更快地汲取知识、跨越学科边界,再辅以长链推理、高通量并发,便能够迅速提出有价值的新科学假说。

除了打造人工智能模型与系统来解决过往需要大量顶尖人力、付出极大心血、经历漫长时间才有可能破解的问题,科学智能还意味着,有能力展开全自动、开放式科学探索的“人工智能科学家”已脱颖而出。SakanaAI——一家日本企业发展史上最快获得独角兽封号的初创公司,正在探寻以基础模型实现科研过程自动化的可行性。2024年8月,SakanaAI推出“TheAIScientist”(AI科学家)系统,核心能力是使大模型能够独立进行研究。作为一种价值验证,该公司向“ICLRworkshop”(国际表征学习大会)提交了3篇完全自主生成的论文,其中一篇稿件获得了足够高的分数,超过了人类接受稿件的平均门槛,代表完全由人工智能生成的论文首次成功通过顶会的同行评审。今年2月,谷歌发布的“AICo-scientist”(AI联合科学家)则是基于Gemini2.0的高级推理能力,综合大量文献、生成新颖假说,进而提出详细研究计划的多智能体系统。目前,该系统在肝脏纤维化治疗、抗菌耐药性和药物再利用等重要研究领域已取得了多项初步成果。在国内,类似的研究也在如火如荼地展开,西湖大学的CycleResearcher,中国科学院的ScienceOne都是典型的例子。

与大语言模型相比,科学智能的发展阶段仍处于早期,尚未形成统一的目标和统一的技术路线。对比国际主要竞争对手,国内企业和机构普遍缺乏核心数据库,而国际数据平台相对成熟,因而存在一定的“卡脖子”风险,需要在政府侧进行统筹安排,未雨绸缪;人工智能产业链层面,国内商业化与产业链建设较为滞后,相比之下,诸如英伟达、微软等跨国企业已完成了初步的商业化,科研机构与企业间的互益协同逐步形成闭环。之所以英伟达、微软这类公司在科学智能领域的产业化进程中扮演着重要角色,是因为科学智能有望将原本需要在线下实验室里进行的研发工作系统化地迁移到在线上的云计算平台,而这种迁移的核心受益者将是人工智能芯片制造商和云计算服务商。

展望未来,我们认为科学智能领域的发展机遇会体现在智能化实验与科学智能体两方面。实验室的自动化和智能化可以帮助我们采集更多有效数据,也可以帮助实现干湿闭环,必将推动科学研究的效率大幅提升;同时,不断尝试让人工智能自主假设、推理、实验、验证,有可能在不久的将来形成新科学发现的“飞轮效应”,人机协同探索未知的步伐会越来越快,有望大幅提升科学发现的速度、加速人类文明的进化。

(三)人工智能知识飞轮的第三个关键支点——具身智能

具身智能的目标是通过本体和环境交互,利用反馈提升智能性,并对外部环境进行操控和施加影响。具身智能的应用场景非常广泛,可以涵盖工业制造、服务业、医疗康复、智能交通与出行、公共安全、教育娱乐等多重领域,展现出广阔的商业化前景。不过,总体而言,具身智能产业仍处在发展的早期阶段。

随着技术的持续演进,具身智能也在不断经历范式上的跃迁——从最初依靠程序控制的传统工业机械臂在流水线上反复执行固定动作的“预定义动作执行”阶段,到能够感知环境、响应动态变化、具备一定自主性的“自主运动能力”阶段,再到如今可在复杂场景中识别物品、完成多任务调度、实时调整策略的“大模型驱动的操控能力”阶段,具身智能领域正在取得日新月异的进步。

2023年7月,谷歌发布了可同时理解文字与视觉、并完成任务的机器人操作大模型RT-2(全称为“RoboticTransformer”)。RT-2的训练数据不仅来自具身智能体的操作记录,还包括互联网上丰富的图文问答内容。研究者通过将视觉、语言、行动三大维度的数据对齐,使RT-2形成通用理解,进而让其支配的具身智能体更能理解和执行人类布置的任务。

除了感知与运动控制能力外,具身智能体的整体表现还高度依赖于其是否具备有效的世界模型(WorldModel)与空间智能(SpatialIntelligence)——它们是智能体认知、预测环境及变化,并由此作出正确决策的基础能力支点。2024年2月,OpenAI发布Sora时,曾将之称为“世界仿真器”(Worldsimulator);同年12月,谷歌将其新推出的可生成3D影像的大规模生成模型Genie2称为“世界模型”。Genie2落实了端到端生成模型的技术路线,将Sora等AIGC模拟动态世界的能力提升到实时,为虚拟世界提供了一个可自洽、可推理、可交互、可扩展、可操纵的生成引擎,从而使仿真环境和真实环境之间的差距不断缩小,为具身智能提供了一个更真实、更高效的虚拟训练与思考空间。用户只需要上传图片,就能生成游戏或电影般真实的3D场景,并模拟角色执行不同动作的情况,用以训练或测试智能体。

为了让具身智能在物理世界里真正发挥作用,需要强大的机器人本体。本体设计是具身智能领域的热点之一,美国代表性的机器人本体包括Atlas、Optimus和Figure等,在灵活度和仿真度上都可圈可点,国内的宇树、天工、银河通用等机器人本体也有各自独特的设计。不过总体而言,在机器人本体方面,国内外仍存在较大差距。首先,国外的领先机器人本体的灵活度和功能仍遥遥领先,尤其在精细动作和灵巧手方面。其次,国外的几款机器人已经逐步进入量产阶段,而国内仍然处在原型机的阶段,不同原型机之间较大的制造方差为数据采集和模型适配带来了很大难度。

对具身智能技术与产业的快速进步构成挑战的因素包括:

一是数据挑战。遥操数据(通过人工远程操控具身机器人采集训练数据)虽然精度高,但采集难、规模小。以遥操方式获取数据费时费力,所能采集到的数据量很小,远不足以和训练大模型时动辄数千亿token的数据规模相比,导致模型泛化能力差;仿真合成数据(SimulationData)虽然可以突破规模的瓶颈,但是难以完全还原现实物理特性,如重力、摩擦力与环境细节,这就使得Sim2Real(从模拟到现实的迁移)的难度很大。另外,机器人异构性与标准化评测缺位。不同公司或研究机构设计和训练的机器人存在着显著的硬件差异,同时整个领域又缺乏统一的标准化评测任务和基准测试,所以很难判断某些模型或具身智能体的先进程度与通用性。

二是算法挑战。具身智能领域不仅缺乏类似“下一词元预测”那样简洁、统一且高效的技术栈,而且截至目前尚未归纳出类似大模型的“规模定律”,不能简单地通过增大模型尺寸和训练数据规模,期待持续获得更强的具身智能。这对于我国既是机遇也是挑战。机遇在于,当一个领域的算法迭代尚未收敛时,我们不会因为算力储备不足而处于明显劣势,可以通过算法创新寻找制胜的先机。挑战在于,目前国内主要的具身智能公司重本体、轻算法,需要在算法创新、大小脑开发方面有更多的投入。

三是场景挑战。某种意义上讲,业内过度聚焦人形机器人,并且把注意力集中在模仿人的行为和能力之上。这条技术路线未来的走向并不清晰,尤其是从社会伦理角度看,它并非必然给人类带来新的价值,相反有可能导致失业等社会问题。有鉴于此,或许应当更加关注具备重大潜力、可创造非凡价值、有望超越人类能力边界的场景,如无人驾驶、智能手术、抢险救灾等。

结合全球对人工智能三大新兴领域的研发投入与资本开支状况,对人工智能的发展现状进行简单总结,可以说:大模型如日中天(吸引了70%以上的投入);具身智能是冉冉上升的新星;科学智能对人类社会的潜在影响或许最为深刻,但现阶段才刚刚萌芽。再看发展目标,大模型和具身智能都很清楚——前者旨在实现通用人工智能,后者想要打造出通用、可泛化的具身机器人,而科学智能则因交叉场景多、跨度大而无法简单提炼。技术路径方面,大模型的下一站是端到端智能体;具身智能的路线相对发散,因而仍在探索中;科学智能目前还缺乏通用技术路线,除蛋白质折叠实现了“AlphaFold时刻”,其他场景仍不甚清晰。

三、人工智能技术如何实现“换道超车”?可能的发力点在哪里?

当前的人工智能技术正在经历飞速发展,这一波的技术浪潮虽已经历了十几年,但仍是炙手可热的朝阳产业。但是,如果我们带着审视的目光来分析人工智能的现状,不难发现它存在“来路”和“出路”上的潜在问题。

首先,人工智能技术的发展来自相关领域的基础研究。然而,令很多人难以置信的是,造就了今天人工智能辉煌局面的核心理论大多是30多年前提出的,大模型的核心架构Transformer则诞生于2017年,至今也有8年历史了,这对于人工智能这样一个飞速发展、一日千里的领域而言,是不可想象的。现实中,国内外信息技术巨擘都在不吝资源投注于大模型的训练和能力扩展,热衷于提升自家产品在各种榜单上的排名,却几乎无人关注人工智能理论上的创新和Transformer之外或之后的下一代核心架构。再比如芯片和人工智能编程框架——真正着眼于基础、投身芯片研发的团队少之又少,有实力的企业和机构大都选择从英伟达或AMD采购最新的、现成的GPU;编程框架则大多采用谷歌的TensorFlow或Meta的PyTorch。这种局面,对于我国的人工智能发展尤其危险,因为从芯片到核心算法、再到编程框架,都缺乏国产化,都存在“卡脖子”风险。

其次,人工智能技术要取得可持续发展,就必须产生实实在在的产业价值,有通畅的产业出口。然而,当前以大模型为代表的人工智能技术与不同行业的真实需求存在断层。我们接触了很多行业领域,如金融、物流、医疗、制药、化工、育种等,并深入到企业业务一线。多轮交流后就会发现,这些垂直行业在推动自身数字化转型、智能化升级的过程中所面临的诸多挑战——包括数据、系统和过程、任务、合规等——都不是付费订阅大模型的高级功能就能解决的。许多工业环境中根本不是以自然语言来实现交互;所需处理的数据也并非以文本、图像的形式存在;要完成的任务多是流程规划、多目标优化等,而不是用户意图预测和多模态内容生成;同时生产安全要求又很高,大模型一旦出现“幻觉”,便可能造成严重的生产事故。

理解了当前人工智能技术发展的潜在问题,也就给我们揭示了实现“换道超车”的可能性和前进方向。在北京中关村学院建院之初,我们就提出了“极基础、极应用”的研究理念,鼓励师生都能想得更深、走得更远。一方面要深挖人工智能基础理论,探索下一代模型架构,设计具有自主知识产权的人工智能芯片和编程框架,以釜底抽薪的方式去改变人工智能的技术布局与竞争格局;另一方面要深入了解各行各业的核心痛点,以终为始,为不同行业量身定制个性化的人工智能模型、工具、系统,而不是拿着已有的大模型锤子到处找钉子敲。

“极基础”和“极应用”看似是研究方向的两极,但其实是密切相连的:任何一个真正有价值的极应用问题,最后都会牵引出一系列的基础研究;而任何真正有影响力的极基础问题,都不是凭空臆想,往往受到了实际应用的启发。

举几个我们在研的实际项目来说明“极基础”和“极应用”的破局思路。

一是“AI颠覆工业仿真软件”。软件已成为千行百业的基石,特别是中国作为世界制造业第一大国,制造业增加值占全球比重达30%,软件对产业持续增长繁荣的重要性不言而喻。遗憾的是,在许多领域,主流的甚至可说是工程类学科必备的“基础设施”软件工具都来自欧美,我们始终未能诞生对应的、可替代的软件。而且这些软件的研发过程极其艰难,对创造者的要求很高。

然而,考虑到当前错综复杂的国际形势,一旦国内的科研人员无法使用这些软件工具,也就意味着制造业被剥离了设计、验证以及部分执行能力——先进的生产线还在,但很难开发出令全球消费者趋之若鹜的新产品。因此,“AI颠覆工业仿真软件”项目将目标设定为另辟蹊径、借助人工智能技术学习并自动复现主流科研与工程软件的功能。大体来说,研究团队将工业软件当作一个黑盒子,不去考虑其融合了多少学科的知识,不去考虑其参数与代码的复杂性,而是聚焦于从输入条件到输出结果的映射行为本身,让人工智能去学习这些行为,进而蒸馏、萃取出行为背后的规则与原理,并复现某一领域复杂软件的所有能力。也就是说,这个课题有着非常明确的“极应用”目标:用端到端的人工智能学习来消除中国工业软件客观存在的“卡脖子”风险。

这个目标很宏大,但是想要实现它,我们需要非常底层的原始创新。因为软件不是自然语言或者图像,其基本数据模态是二进制代码,以及运行时的动态内存状态;软件的输入输出空间也非常复杂,不是简单的基于文本的交互界面,需要我们具备强大的探索和枚举能力。传统的Transformer技术面对如此复杂的任务显得捉襟见肘,我们必须研发全新的模型构架和训练方法,而这正是该项目的“极基础”元素。

二是“人类保护伞”计划。新冠疫情让全人类意识到我们自身以及所依赖的社会环境的脆弱性。当一种毒性与传染力都很强的病毒突然出现,世界可能很快就停摆了。传统的应对方法是聚合资源人力,迅速研发疫苗与特效药,但无论如何,这种被动响应的方式都需要比较长的时间。保护生命,刻不容缓,因此我们正在开展一项颠覆式的“极应用”项目——如何结合人类智慧与人工智能,更深入地探究生物医学领域的知识,以更加主动的方式预测生物病毒乃至生化武器对人类的威胁,并预先研制出解决方案,从而为人类构建一把无形的保护伞。

这一思路之所以可行,是因为它建立在科学家对病毒的长期研究积淀、对人体免疫系统与细胞膜蛋白的理解、对新一代人工智能建模及预测模拟能力的信心之上。简单地说,已知自然界中鸟类和哺乳动物携带的病毒总数达167万种,其中,已确认可感染人类的病毒数只有270种(截至2022年),未知的是,还有多少种病毒具备“跨物种传播”的潜力,因而对人类存在威胁;同时,病毒的传染性很大程度源于与人体细胞表面膜蛋白的相互作用,而已知的人类膜蛋白数已达2713种(其中1753种已被科学家解析了三维结构,暂且未知、未解析的还可以通过人工智能模型来进行精准预测),所以首先可以通过分析病毒与人体细胞表面膜蛋白的结合力,从海量潜在病毒库中筛选出可能感染人类的“嫌疑病毒”;其次针对这些病毒的共性特点,开始广谱抗病毒药物和疫苗的预研;未来一旦环境中发现了一定量的感染者与病毒样本,即可迅速启动预研药物和疫苗的微调与生产,为挽救生命和时间赛跑。为了实现以上的技术路线,我们需要对现有的科学智能技术在精度、规模、效率方面进行大幅升级,而这些都需要非常耐心的“极基础”的研究才能实现。

人才始终是所有创新的起点与关键变量。想要实现人工智能的发展目标,我们需要培育更多有潜力改变世界的领军人才。我们要全力探索一条试之可行、行之有效的人工智能领军人才培养之路。这条路充满挑战,希望教育界、学术界、企业界越来越多胸怀理想、脚踏实地的志同道合者能携起手来,为培养中国人工智能领域的领军人才贡献力量。来源: 《时事报告(党委中心组学习)》2025年第3期





 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


27关注

490粉丝

4178帖子

排行榜
作者专栏

关注我们:微信订阅号

官方微信公众号

客服个人微信号

全国服务热线:

0595-22880819

公司地址:泉州秘途文化传媒有限公司

运营中心:福建省泉州市

Email:506070961#qq.com

Copyright   ©2015-2025  老秘网 责任编辑:释然Powered by©Discuz!技术支持:秘途文化  备案号   ( 闽ICP备19022590号-1 闽公网安备35050302000919号 )