深度学习之开篇
为什么要开这个坑
- 因为我是人工智能专业的学生
- 在学习的过程中起到记录和反思的作用
- 单纯想开
开这个坑,打算怎么填坑
慢慢填呗,图难于其易,为大于其细。天下难事必作于易,天下大事必作于细。是以圣人终不为大,故能成其大。
这个坑的流程是什么?
- 先讲pytorch
- 基于pytorch实现一些经典网络,完成一些案例
- 看论文,介绍一些经典的论文,比如AlexNet,VGG,CNN,GoolgeNet,Unet,shuffleNet
- 开始跑yolo,更改网络模块。
注: 这里只是一个流程,在开始后会有更多的坑需要去填的。
人工智能发展前景
人工智能的技术前沿将朝着以下四个方向发展。第一个前沿方向为多模态大模型。从人类视角出发,人类智能是天然多模态的,人拥有眼、耳、鼻、舌、身、嘴(语言),从AI视角出发,视觉,听觉等也都可以建模为token②的序列,可采取与大语言模型相同的方法进行学习,并进一步与语言中的语义进行对齐,实现多模态对齐的智能能力。
第二个前沿方向为视频生成大模型。【专门列出视频方向】OpenAI于2024年2月15日发布文生视频模型SORA,将视频生成时长从几秒钟大幅提升到一分钟,且在分辨率、画面真实度、时序一致性等方面都有显著提升。SORA的最大意义是它具备了世界模型的基本特征,即人类观察世界并进一步预测世界的能力。世界模型是建立在理解世界的基本物理常识(如,水往低处流等)之上,然后观察并预测下一秒将要发生什么事件【但是目前应该还不能确定SORA只是简单的模拟,还是真的学习到了物理规律,如果是后者,那真的很可怕】。虽然SORA要成为世界模型仍然存在很多问题,但可以认为SORA学会了画面想象力和分钟级未来预测能力,这是世界模型的基础特征。
第三个前沿方向为具身智能。具身智能指有身体并支持与物理世界进行交互的智能体,如机器人、无人车等,通过多模态大模型处理多种传感数据输入,由大模型生成运动指令对智能体进行驱动,替代传统基于规则或者数学公式的运动驱动方式,实现虚拟和现实的深度融合。因此,具有具身智能的机器人,可以聚集人工智能的三大流派:以神经网络为代表的连接主义,以知识工程为代表的符号主义和控制论相关的行为主义,三大流派可以同时作用在一个智能体,这预期会带来新的技术突破。
第四个前沿方向是AI4R(AI for Research)成为科学发现与技术发明的主要范式。【目前陶哲轩等数学家已经开始积极拥抱AI,并且借助AI有了很多研究成果】当前科学发现主要依赖于实验和人脑智慧,由人类进行大胆猜想、小心求证,信息技术无论是计算和数据,都只是起到一些辅助和验证的作用。相较于人类,人工智能在记忆力、高维复杂、全视野、推理深度、猜想等方面具有较大优势,是否能以AI为主进行一些科学发现和技术发明,大幅提升人类科学发现的效率,比如主动发现物理学规律、预测蛋白质结构【比如AlphaFold】、设计高性能芯片、高效合成新药等。因为人工智能大模型具有全量数据,具备上帝视角,通过深度学习的能力,可以比人向前看更多步数,如能实现从推断(inference)到推理(reasoning)的跃升,人工智能模型就有潜力具备爱因斯坦一样的想象力和科学猜想能力,极大提升人类科学发现的效率,打破人类的认知边界。这才是真正的颠覆所在。
最后,通用人工智能③(Artificial General Intelligence,简称AGI)是一个极具挑战的话题,极具争论性。曾经有一个哲学家和一个神经科学家打赌:25年后(即2023年)科研人员是否能够揭示大脑如何实现意识?当时关于意识有两个流派,一个叫集成信息理论,一个叫全局网络工作空间理论,前者认为意识是由大脑中特定类型神经元连接形成的“结构”,后者指出意识是当信息通过互连网络传播到大脑区域时产生的。2023年,人们通过六个独立实验室进行了对抗性实验,结果与两种理论均不完全匹配,哲学家赢了,神经科学家输了。通过这一场赌约,可以看出人们总是希望人工智能能够了解人类的认知和大脑的奥秘。从物理学的视角看,物理学是对宏观世界有了透彻理解后,从量子物理起步开启了对微观世界的理解。智能世界与物理世界一样,都是具有巨大复杂度的研究对象,AI大模型仍然是通过数据驱动等研究宏观世界的方法,提高机器的智能水平,对智能宏观世界理解并不够,直接到神经系统微观世界寻找答案是困难的。人工智能自诞生以来,一直承载着人类关于智能与意识的种种梦想与幻想,也激励着人们不断探索。
中国智能计算发展困境
人工智能技术与智能计算产业处于中美科技竞争的焦点,我国在过去几年虽然取得了很大的成绩,但依然面临诸多发展困境,特别是由美国的科技打压政策带来的困难。
困境一为美国在AI核心能力上长期处于领先地位,中国处于跟踪模式。中国在AI高端人才数量、AI基础算法创新、AI底座大模型能力(大语言模型、文生图模型、文生视频模型)、底座大模型训练数据、底座大模型训练算力等,都与美国存在一定的差距,并且这种差距还将持续很长一段时间。【实事求是】
困境二为高端算力产品禁售,高端芯片工艺长期被卡。A100,H100,B200等高端智算芯片对华禁售。华为、龙芯、寒武纪、曙光、海光等企业都进入实体清单,它们芯片制造的先进工艺④受限,国内可满足规模量产的工艺节点落后国际先进水平2-3代,核心算力芯片的性能落后国际先进水平2-3代。
困境三为国内智能计算生态孱弱,AI开发框架渗透率不足。英伟达CUDA⑤(Compute Unified Device Architecture, 通用计算设备架构)生态完备,已形成了事实上的垄断。国内生态孱弱,具体表现在:一是研发人员不足,英伟达CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;二是开发工具不足,CUDA有550个SDK(Software Development Kit, 软件开发工具包),是国内相关企业的上百倍;三是资金投入不足,英伟达每年投入50亿美元,是国内相关公司的几十倍;四是AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10。更为严重的是国内企业之间山头林立,无法形成合力,从智能应用、开发框架、系统软件、智能芯片,虽然每层都有相关产品,但各层之间没有深度适配,无法形成一个有竞争力的技术体系。
中国如何发展智能计算的道路
选择人工智能发展的道路选择对我国至关重要,关系到发展的可持续性与最终的国际竞争格局。当前人工智能的使用成本十分高昂,微软Copilot套件要支付每月10美元的使用费用,ChatGPT每天消耗50万千瓦时的电力,英伟达B200芯片价格高达3万美元以上。总体来说,我国应发展用得起、安全可信的人工智能技术【未来发展就看这句话】,消除我国信息贫困人口、并造福“一带一路”国家;低门槛地赋能各行各业,让我国的优势产业保持竞争力,让相对落后的产业能够大幅地缩小差距。
选择一:统一技术体系走闭源封闭,还是开源开放的道路?支撑智能计算产业的是一个相互紧耦合的技术体系,即由一系列技术标准和知识产权将材料、器件、工艺、芯片、整机、系统软件、应用软件等密切联系在一起的技术整体。我国发展智能计算技术体系存在三条道路:
一是追赶兼容美国主导的A体系。【简单,但是用别人的就会卡脖子】我国大多数互联网企业走的是GPGPU/CUDA兼容道路,很多芯片领域的创业企业在生态构建上也是尽量与CUDA兼容,这条道路较为现实。由于在算力方面美国对我国工艺和芯片带宽的限制,在算法方面国内生态林立很难形成统一,生态成熟度严重受限,在数据方面中文高质量数据匮乏,这些因素会使得追赶者与领先者的差距很难缩小,一些时候还会进一步拉大。
二是构建专用封闭的B体系。【安全,但是没有影响力】在军事、气象、司法等专用领域构建企业封闭生态,基于国产成熟工艺生产芯片,相对于底座大模型更加关注特定领域垂直类大模型,训练大模型更多采用领域专有高质量数据等。这条道路易于形成完整可控的技术体系与生态,我国一些大型骨干企业走的是这条道路,它的缺点是封闭,无法凝聚国内大多数力量,也很难实现全球化。
三是全球共建开源开放的C体系。【全世界人民团结起来,对抗万恶的资本主义】用开源打破生态垄断,降低企业拥有核心技术的门槛,让每个企业都能低成本地做自己的芯片,形成智能芯片的汪洋大海,满足无处不在的智能需求。用开放形成统一的技术体系,我国企业与全球化力量联合起来共建基于国际标准的统一智能计算软件栈。形成企业竞争前共享机制,共享高质量数据库,共享开源通用底座大模型。对于全球开源生态,我国企业在互联网时代收益良多,我国更多的是使用者,是参与者,在智能时代我国企业在RISC-V⑥+AI开源技术体系上应更多地成为主力贡献者,成为全球化开放共享的主导力量。
选择二:拼算法模型,还是拼新型基础设施?人工智能技术要赋能各行各业,具有典型的长尾效应⑦。我国80%的中小微企业,需要的是低门槛、低价格的智能服务。因此,我国智能计算产业必须建立在新的数据空间基础设施之上,其中关键是我国应率先实现智能要素即数据、算力、算法的全面基础设施化。这项工作可比肩二十世纪初美国信息高速公路计划(即信息基础设施建设)对互联网产业的历史作用。
信息社会最核心的生产力是网络空间(Cyberspace)。网络空间的演进过程是:从机器一元连接构成的计算空间,演进到人机信息二元连接构成的信息空间,再演进到人机物数据三元连接构成的数据空间。从数据空间看,人工智能的本质是数据的百炼成钢,大模型就是对互联网全量数据进行深度加工后的产物。在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象。【写的太好了,我匮乏的语言都无法描述这一段的精妙】智能计算的一个核心特征就是用数值计算、数据分析、人工智能等算法,在算力池中加工海量数据件,得到智能模型,再嵌入到信息世界、物理世界的各个过程中。
我国政府已经前瞻性地提前布局了新型基础设施,在世界各国竞争中抢占了先机。首先,数据已成为国家战略信息资源。数据具有资源要素与价值加工两重属性,数据的资源要素属性包括生产、获取、传输、汇聚、流通、交易、权属、资产、安全等各个环节,我国应继续加大力度建设国家数据枢纽与数据流通基础设施。
其次,AI大模型就是数据空间的一类算法基础设施。以通用大模型为基座,构建大模型研发与应用的基础设施,支撑广大企业研发领域专用大模型,服务于机器人、无人驾驶、可穿戴设备、智能家居、智能安防等行业,覆盖长尾应用。
最后,全国一体化算力网建设在推动算力的基础设施化上发挥了先导作用。算力基础设施化的中国方案,应在大幅度降低算力使用成本和使用门槛的同时,为最广范围覆盖人群提供高通量、高品质的智能服务。算力基础设施的中国方案需要具备“两低一高”,即在供给侧,大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本,让广大中小企业都消费得起高品质的算力服务,有积极性开发算力网应用;在消费侧,大幅度降低广大用户的算力使用门槛,面向大众的公共服务必须做到易获取、易使用,像水电一样即开即用,像编写网页一样轻松定制算力服务,开发算力网应用。在服务效率侧,中国的算力服务要实现低熵高通量,其中高通量是指在实现高并发⑧度服务的同时,端到端服务的响应时间可满足率高;低熵是指在高并发负载中出现资源无序竞争的情况下,保障系统通量不急剧下降。保障“算得多”对中国尤其重要。
选择三:AI+着重赋能虚拟经济,还是发力实体经济?“AI+”的成效是人工智能价值的试金石。次贷危机后,美国制造业增加值占GDP的比重从1950年的28%降低为2021年的11%,美国制造业在全行业就业人数占比从1979年的35%降低为2022年的8%,可见美国更倾向于回报率更高的虚拟经济,轻视投资成本高且经济回报率低的实体经济。中国倾向于实体经济与虚拟经济同步发展,更加重视发展装备制造、新能源汽车、光伏发电、锂电池、高铁、5G等实体经济。【以后选择什么个工作知道了么?】
相应地美国AI主要应用于虚拟经济和IT基础工具,AI技术也是“脱实向虚”,自2007年以来硅谷不断炒作虚拟现实(Virtual Reality,VR)、元宇宙、区块链、Web3.0、深度学习、AI大模型等,是这个趋势的反映。我国的优势在实体经济,制造业全球产业门类最齐全,体系最完整,特点是场景多、私有数据多。我国应精选若干行业加大投入,形成可低门槛全行业推广的范式,如选择装备制造业作为延续优势代表性行业,选择医药业作为快速缩短差距的代表性行业。赋能实体经济的技术难点是AI算法与物理机理的融合。【AI+的范式仍然适用】
人工智能技术成功的关键是能否让一个行业或一个产品的成本大幅下降,从而将用户数与产业规模扩大10倍,产生类似于蒸汽机对于纺织业,智能手机对于互联网业的变革效果。我国应走出适合自己的人工智能赋能实体经济的高质量发展道路。