张旭亮:我国人工智能创新体系面临的问题与路径

发布时间:2025-01-16 文章来源:长江产业发展研究院作者:张旭亮


1月11日,第六届长江产业发展研究院智库学术年会在南京举行,会议邀请政产学研各界专家围绕“全面深化改革与加快培育新动能新优势”进行深入研讨交流,形成部分创新成果和观点,现将部分成果摘编,本期刊发的是浙江大学区域创新发展研究所所长张旭亮研究员《我国人工智能创新体系面临的问题与路径》。


新质生产力的核心本质就是算力、算法、大模型,人工智能是算力、算法、大模型的表现载体。人工智能的概念在2004年之前和之后的概念并不一样,2004年之前人工智能概念更多是集成电路、芯片、机器人,但是2004年之后人工智能概念更多是一种多模态、算力、算法的体现,所以其实人工智能就是我们新质生产力的体现和抓手,所以对发展新质生产力很重要。我国一直很重视人工智能,高层也认识到人工智能绝对是未来创新发展的主要动力源,尤其是我们最近调研了很多人工智能企业,很多企业家告诉我们2025年是我们算力算法大爆发之年。所以今天我讲一下它的创新体系,一方面要分析一下我国发展人工智能有哪些优势,一方面也要思考一下我国发展人工智能这个生态体系还存在怎样的问题。


我们人工智能一般是对标美国,我们第一大优势是论文量大,第二是应用场景广,但是这两个优势我更理解为就只有一个优势,就是应用场景,论文量大实际上不是优势。相比美国来说,我们的技术上还是存在很多的差距,所以我们要搞清楚。目前,需要从我们人工智能的生态系统、领军企业、影响力,还有学术界是否契合来分析。总体来说,人工智能这个体系关乎到我们相关理论的一个突破,核心技术的创新,还有应用场景的落地十分重要,但是也存在一些问题:


第一,我们企业创新主体的人工智能生态系统还没有形成。具体表现在人工智能产业链上游软硬件生态、数据语料和前沿技术领域投入不足。比如国产人工智能芯片在开发工具、算子库、计算框架等发展上其实是相对美国都是滞后的。第二个问题是各个企业在硬件架构、编程语言、开发工具和软件架构上还存在自己的标准不统一。


第二,我们做人工智能、多模态人工智能,我国面临高质量语料库缺乏。我2024年11月份讨论为什么人工智能写不出来好的八股文,因为我们没有语料,很多政府的八股文好语料人工智能抓不住。


第三,通用人工智能前沿领域缺乏有效的跨机构、跨学科的合作。


第四,总体来说我们国内人工智能是诸侯格局,比较割裂的状态,不像美国已经是英伟达、微软,形成巨头链群式的生态系统。这是生态系统上的问题。



大家可以看一下上方这个图,我们人工智能生态系统这个图展示的是人工智能的系统里面的软件,软件系统。大家可以看一下第一个并行系统,并行系统是我们所说的人工智能训练系统。并行系统全是美国的,全球广为流传的全是美国的。编程框架、编译器、编译语言等等,可以看出人工智能系统里软的英伟达占得很高,软的占很高,硬的更不用说了,全球硬件最看好的就是英伟达,英伟达每周都要亮相新的产品。可以看出美国英伟达占了主流的软件和硬件。


我国人工智能就面临着问题,生态系统还是一个问题,我们用了英伟达GPU来生产芯片,产生异构芯片,这个异构芯片没有办法实现无缝对接,就是算力孤岛,训练上面浪费资源、效率低下。我们国产也有国产芯片,华为昇腾、寒武纪等等,他们相比顶尖的还是有明显的差距。它这个生态不兼容,算力孤岛,异构芯片不兼容性,左侧两个图,比如华为昇腾,它跟主流AI框架兼容性是有限的,说明生态不兼容。还有寒武纪的资源,虽然这是主流框架,但是模型训练和英伟达国际标准有明显差距。


下面框架上全球大部分用的框架是谷歌,还有Facebook,我们华为、百度,我们国内开发这些框架,其实都是自己玩玩的,别人应用的不多。



前面讲的生态系统,我们虽然有同样的GPU,同样的算力,同样的算法,但是我们为什么比不过他们?算出来效果不好?就是因为我们缺语料,大家都想把自己的文章搅合到GPT4里面,但是搅合不出来,因为没有语料。


中文互联网语料存在历史数据流失,移动数据孤岛化的现象。中文网页其实你们细细想想,90年代打开的网页,现在再把网址复制出来,网页就不存在了,就是这个原因。很多网页是丢失的,还有中文由于APP很多,去网页化很多,导致很多数据是沉积在平台企业里,很多人工智能抓不出来。


还有从语料价值来看,符合中文价值观的文化,公共科学的语料也是不足。比如文言文等等大量都没有电子化,网络化就更难实现了。还有中文科学文献,文献很多,但是很多没有成为语料,这是我们的问题。如果大家对语料不是很清楚的话,右侧图片是语料的分类。


我们创新生态系统还是没有形成,我们智能化生态系统还是比较弱。也不能说我们国内人工智能不行,现在一下子情况变得很快,现在人工智能变得超级快,现在全球公认人工智能顶尖的是谷歌,它开发了很多模型,比如VO2,这里面开发视频比你摄像还厉害,生成的视频比真的还真。第二是Gemini,可以实现实时翻译。还有量子计算芯片Willow,是普通计算机的千万亿倍。


我国也冒出来比较新的叫DeepSeek,它的算法很好,它在既有的参数下,还有语料下,通过算法快速实现智能和效果。根据我们的判断,如果它没有足够的语料支撑的话,后续还是比不过美国的人工智能。


第二个问题人工智能生态里面的领军企业还是不足。大家知道一个产业链要有领军企业,带动各个中小企业协同发展,这才是生态链。国内首先缺乏明星类的公司,有一个数据,中国AI top30估值仅是20亿美元,全球很多Top30企业估值是101亿美元,就是我们公司的体量还不行。第二人工智能投资和金额是在下滑,很多企业烧钱烧不起。2023年我们的人工智能行业融资数量也在下降,额度也在下降。第三,我们很多基础创新还是没有的,还是在应用层面。下边的表很有意思,虽然OpenAI是去年出现的,它创业年份是30年,美国高科技企业不是一夜冒出来的,说明积淀很重要。



第三个问题是开源平台行业影响力偏低,商业路径不清晰。我们开源平台行业认可度低,全球框架,人工智能框架全球基本用的是谷歌TensorFlow和Meta的Pytorch。然后是开源平台社区活跃度不高。全球最大开源社区GitHub里面也有统计,在大社区里面,这是公开公平公正的环境里,大家自己有选择喜好的人工智能,在这个选择下面,同等选择下选择百度星标少很多,这是我们开源影响力低,商业化路径不清晰,选择你的人也少。


第四,学术界科研滞后脱节,政企缺乏协调机制。我们从大模型开发看来,美国2023年人工智能模型达到61个,中国为15个。相关的专利实施率,中国只有16.9%,远低于美国50%。转化率就更低,中国高校专利产业化率低至3.9%,高校转化收入也不足美国的1/10。


政企实际上并不协同,因为搞人工智能大部分都是民营企业,其实民营企业才是科技创新的主体,但是它这个创新主体又没有发言权,在制定政策、制定标准上面根本没有发言权,所以协同就会慢。


对此,我提了一点建议,第一要促进产业链协同与成就。第二打造创业促进创新的新局面。第三加强政府与企业合作创新。第四要构筑科教人深度融合新载体。第五营造以我为主的开放大生态。


我就汇报到这儿,谢谢大家!

版权声明:转载、摘编或利用其他方式使用本研究院所有内容或观点的,应注明来源,对于不遵守本声明和其他侵权违法行为,本院保留追究其法律责任的权利。

最热文章