ad440
当前位置: 健康中国 > > 聚焦

2024全球AI芯片峰会收官:架构创新群雄混战,边端较劲大模型,两大榜单

文章来源:投资界    发布时间:2024-09-11 17:35:27    阅读量:8217    

9月6日~7日,2024全球AI芯片峰会在北京举行。本届峰会以「智算纪元 共筑芯路」为主题,全面展示AI芯片产业在算力、网络、存储、软件、系统及应用方面的前沿技术、最新成果与落地进程。

50+位产学研嘉宾全程密集输出干货,本届峰会有超过1500位观众到场参会,线上观看人次累计超过210万。

大会由智一科技旗下芯东西联合智猩猩发起主办,以「智算纪元 共筑芯路」为主题,邀请50+位嘉宾来自AI芯片、Chiplet、RISC-V、智算集群、AI Infra等领域的嘉宾与会,分享AI产业*创新、落地现状、商业化挑战与机遇。

继首日开幕式、数据中心AI芯片专场、Chiplet技术论坛火热开场后,峰会第二天演讲继续输出密集干货,并正式公布「2024年度中国智算集群解决方案企业TOP 20」、「2024年度中国AI芯片新锐企业TOP 10」AiiP AI生产力创新先锋企业榜单。

一、AI之外,近存计算斗不过存算分离

上午主会场举行的AI芯片架构创新专场期间,北京超弦存储器研究院首席科学家戴瑾进行了一场信息满载的存内计算主题演讲。在回顾芯片级、机架级存算分离与近存计算的斗争后,他抛出结论:AI之外,近存计算斗不过存算分离。

天量的AI模型参数带来无尽的带宽要求,存算分离架构的带宽、功耗、时延会严重制约系统性能,严重降低硬件的费效比。涉及HBM、3D封装等的近存计算,以及存内计算,成为必需品。

目前做存内计算的路线中,彻底借鉴人类的类脑计算进展缓慢,但戴瑾认为“笨的AI容易成功”。神经网络计算中还有数字引擎和模拟引擎两种路线。数字引擎把GPU、NPU或部分与内存集成在同一个芯片上,要求存储介质可以和逻辑工艺集成;模拟引擎用存储单元和存储阵列做计算,等效内存容量扩大16倍,但可用算法有限。

存内计算按介质划分为SRAM、NOR、DRAM成熟存储介质和MRAM、RRAM、PCRAM、FeRAM等新兴存储介质。

戴瑾称这些存储介质都不理想,各有优劣。如SRAM兼容逻辑工艺、速度快,但容量低、容易漏电;NOR Flash工艺成熟、节能,但无法使用先进工艺节点,且受擦写速度和擦除次数所限,只能用于推理;DRAM理论上可用于训练和推理,*困难不在于技术,而在于产业。

新兴存储介质中,FeRAM存储介质是铁电材料。戴瑾认为,这是新兴存储中*容量可能超过DRAM且速度、功耗性能相对好的介质,应该可以在存算一体中取代DRAM,作为一种非易失存储或存内计算介质都很有吸引力。

比新兴存储更新的是2T0C DRAM。在戴瑾看来,这是看得见的存储技术中最理想的存内计算介质。2T0C DRAM分读写两个MOS,利用读晶体管的寄生电容做存储。其*的好处是做多bit更为简单、直接,速度不逊于DRAM,能做到无限次擦写、功耗很低,但*的不确定性是IGZO材料在半导体行业尚未彻底应用。

二、突破有效算力天花板,可重构、存算一体、类脑智能是未来

随着AI PC等边缘端推理需求增长,珠海芯动力创始人兼CEO李原相信,未来可重构芯片将成为主流。他认为性价比已成为边缘计算的核心要求,但性能和TOPS并非直接挂钩,模型在Prefill和Decode阶段的计算类型不同,也对性能有不同的要求。针对这一特点,珠海芯动力推出了可重构并行处理器架构。

RPP基于数据流架构,兼容CUDA指令集,融合了GPU和NPU的优势。RPP*代产品算力可达32TOPS,DRAM带宽达59GB/s,具有性能高、面积效率高、功耗低灵活性强的特点,FOStrip先进封装工艺将芯片面积和厚度缩小至原来的1/3。测试中,其计算机视觉和信号处理性能都较同类产品有较大提升,以14nm工艺达到甚至超越了英伟达A100芯片的功耗。

亿铸科技创始人、董事长兼CEO熊大鹏认为,AI芯片架构创新将开启大算力第二增长曲线。如今摩尔定律面临挑战,以计算单元为中心的已到达天花板,将来AI芯片一定是以存储单元为中心。

要突破有效算力的天花板有两个路径:芯片内,采用存算一体、先进封装技术,减少数据搬运、传输延迟;芯片间,采用高速互连和Chiplet技术、硅光子技术以及类似于NVLink及NVSwitch的互连技术,提供高带宽和低时延。

亿铸科技于2023年首次提出存算一体超异构架构,并致力于通过基于新型存储介质,提供高性价比,高能效比的AI大算力芯片。

时识科技创始人兼CEO乔宁谈道,类脑智能被认为是可以打破硅制程限制、解决算力瓶颈的未来技术之一。从生物脑获得启发的类脑感知、类脑计算,均比传统计算方式效能更高。生物系统通过累积性变化检测并转化为脉冲,以优化带宽使用,动态相机也采用类似原理,以低功耗方式捕捉光强变化。类脑计算芯片是基于脉冲做计算的系统,脉冲就是数字传输和计算的载体。

时识科技已经形成了事件相机、类脑处理器、感算一体动态视觉智能SoC三大产品矩阵。类脑视觉目前*的关注点是手机后摄的高帧率成像应用。DVS事件相机通过模拟人类视网膜,在电路层面做出根本性改变,来突破全局快门对相机成像的帧率限制。通过对DVS事件相机数据做处理,可以达到等效高帧成像的效果。另外一个是XR领域眼动追踪,由于DVS只对光强变化作出反应,生成稀疏点云数据,具有超低功耗、高动态范围、超低延迟等优势,尤其超低功耗性能在眼动追踪领域*。

随着数据量和算力的暴增与算法的提升,计算市场对可定制化、低成本、高安全性和高隐私性的需求日益提升。对此,2023年成立的锋行致远致力于研发存算一体的边缘计算模组与解决方案,可实现大模型算力加速。据锋行致远创始人兼CEO孙唐分享,该公司已拥有面向PC、工作站、服务器和分布式集群的各类存算一体产品。

锋行致远的产品整合了存储控制器与AI推理加速能力。其SSD内置算力,降低主机负载和整体功耗,也具备高保密性,可运用于AI PC加速、大模型推理加速、训推一体加速等场景;GPU直通方案可实现对数据吞吐的加速达50%-300%,更通过共享内存降低能耗。针对AI推理加速,其端到端应用平均效率超英伟达NX平台2倍,平均功效比存算分离方案提升3.7倍,还兼容多种框架。

在PhySim资深产品工程师黄建伟看来,以先进封装技术为基础的3D IC和Chiplet技术,是后摩尔时代的必然选择。然而,SIP/2.5D/3D等先进封装复杂的制造工艺和严苛的设计要求,会导致材料、设备、涉及开发的生产成本大幅增加,同时这些先进封装仍面临散热、制造工艺、成本上升等挑战,需要专门的仿真工具。

针对多物理场仿真场景,PhySim自研了一体化解决方案,包括热仿真工具TurboT、信号完整性仿真软件ACEM、电源完整性仿真软件Physim-ET等产品,能够实现高性能GPU加速,实现数倍甚至数十倍的效率提升,帮助设计人员定位温度热点优化设计。

AI发展对芯片良率、延迟、高热问题提出更高要求,业界正在探索更有效的芯片互联技术,如分离Computing Die和IO Die、降低PCIe等传统架构延迟、推动新标准支持AI应用。

UCIe作为推动芯片之间高效通信的新标准应运而生。UCIe提供了先进封装和标准封装两种解决方案,其中先进封装因具有兼容性和增加通道数有利于高速数据传输,适用于追求更高带宽的应用,标准封装密度较低适合产能受限的情况。

乾瞻科技产品高级总监曹泽豪透露道,目前他们已经在5nm和4nm的技术节点上面向大客户形成量产,3nm已经回片,同时正在将UCIe 1.1和1.0版本向2.0版本迁移。

三、加速边缘与端侧大模型落地,AI芯片如何做出*性价比?

在下午举行的边缘/端侧AI芯片专场,后摩智能联合创始人、产品副总裁信晓旭分享说,大模型已从“上新品”进入“强应用”阶段,中国的优势在应用创新,而应用创新的机会在边缘侧。目前AI芯片的痛点已经转变为内存访问效率低,存算一体架构凭借低成本、低功耗、低延时的优势,适配了边端侧AI的需求。

后摩智能一直在探索存算一体技术,过去2年推出并量产了基于首代“天枢”架构的H30和M30边端芯片,即使在落后一代工艺节点的情况下,能效比仍具有2倍的优势,这是存算一体架构带来的收益。

该公司已提供从芯片到终端的完整解决方案,信晓旭说,后摩新一代芯片将基于“天璇”架构,计算效率将提升20%,对大语言模型/视觉语言模型、端边场景进行优化,更具易用性,明年就将问世。

随着大模型推动物理世界的智能化演进,更多的应用将在边缘侧完成。大模型使边缘AI场景面临新的算力挑战:算力需求大、带宽要求高、计算扩展性强。云天励飞副总裁、芯片业务线总经理李爱军谈道,国产工艺边缘AI芯片要应对挑战,架构创新是关键。

面向新的边缘AI计算场景,云天励飞研发国内首颗基于国产工艺Chiplet系列化边缘AI芯片,采用“算力积木”的理念,设计了D2D Chiplet/C2C Mesh大模型推理架构,从芯片设计、制程工艺、基板选择到封装测试均用国产技术,算力覆盖8TOPS~256TOPS,满足大模型落地的个性化需求,可应用于各类边缘场景,并且工具链与软件栈统一,算法的部署落地更便捷。

他预告说,云天励飞后续将发布基于国产工艺的大模型边缘推理一体机,提供更有性价比的边缘算力。

据安谋科技产品总监杨磊分享,边缘侧大模型部署的载体包括AI手机、AI PC、智能汽车、机器人等,鉴于这些设备对成本、功耗及散热的高度敏感性,100亿参数规模以下的大模型被视为边缘侧部署的理想选择。为实现边缘侧部署的最高效率,异构计算方案脱颖而出,它能够充分挖掘并利用边缘侧设备的计算能力,从而达到性价比的*化。

为了应对大模型在边缘侧部署的挑战,安谋科技自研新一代“周易”NPU通过创新的计算单元微架构设计,能够同时支持卷积神经网络和Transformer架构,在计算架构层面有效减轻了带宽需求,并增强了算力的可扩展性。此外,“周易”NPU还能够通过多核扩展,实现更强大的计算能力,进一步提升了边缘侧大模型部署的灵活性和效能。

智芯科从2019年开始研究基于SRAM的存算一体芯片,已有大量专利积累。智芯科创始人兼CEO顾渝骢认为,具身智能是其中*的落地场景之一,具身智能对低延时、低功耗都有严苛的要求,因此有必要配备高能效的存算一体AI芯片。

存算一体芯片的主流技术路径包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有读写速度快、能效比高、工艺成熟和可集成性佳的优势,可快速无限次读写,很适合Transformer的自注意力机制。

智芯科基于SRAM的模数混合存内计算芯片,精度高、量产一致性高,并能够进一步降低功耗。硬件之外,智芯科还打造了通用性、易用性较强的软件生态。据顾渝骢透露,未来智芯科将推出面向具身智能感知到大算力边缘服务器的众多产品,覆盖大模型、机器人和自动驾驶等场景。

大模型认知智能已呈现初步的智能涌现,但很多都是单点的能力。聆思科技副总裁徐燕松强调了系统集成的重要性,对设备厂商而言,为大而全的AI单点能力找到中间态是主要命题。算法取决于场景,端侧模型的算法应用会重新定义AI芯片需求,因此需要将算法算力一体化。

聆思科技致力于打造智能终端人机交互入口芯片,进行了云-端-芯算法算力一体化布局,提供自主知识产权AI芯片、高性能IoT芯片,并以模组成本*来设计芯片,能够以单芯片满足客户在性能、价格两方面的需求平衡。同时其端侧内置超100项行业*AI算法,还能直连AI云平台,与星火大模型形成联动。

极视角科技已打造AI极星和AI极光平台。AI极星平台有标准的算法部署、硬件配置的功能,支持统一算法接入标准,可以纳入符合接口规范的第三方算法,整个系统部署时间在1个小时左右;AI极光则侧重于算法的轻量化部署。

视海芯图创始人兼董事长许达文分享说,机器人需要同时运行感知、判定、决策和执行任务,对算力和能耗要求严苛,视觉语言模型更是带来了新的挑战。现在的机器人需要一款加速图像融合处理传统算法和AI算法的边缘端芯片。

机器人感知一方面作为VLM大模型的输入,另一方面为机器人SLAM建图及位姿估计。视海芯图推出了SH1210视觉芯片,整合了CPU、NPU、ISP、3DCP、特征提取模块和多传感融合模块,让应用和算法能以*化的利用率映射到硬件。

其图像融合架构实现了ISP每个处理步骤的可控,还可通过神经网络处理识别关键目标和区域,进行针对性的图像增强,实现能效提升。采用SH1210的RGB-D相机能够高效融合深度空间数据和RGB信息,完善机器人的视觉信息。

富瀚微资深市场总监冯晓光对边缘视频AI芯片进行复盘与展望。边缘视频AI芯片被设计用于摄像机、录像机等边缘设备,进行视频内容分析和处理。Transformer将视频处理带入2.0时代,也为AI芯片带来新的架构变化。区别于传统的CNN网络,Transformer大模型推理过程中的参数读取带来系统带宽需求,计算过程中的矩阵相乘则带来主动加速需求。

冯晓光认为,未来端侧AI芯片不会呈某一个架构的统一,而会呈金字塔形态。其中,0.5TOPS以下算力的低端高性价比芯片,将覆盖80%以上的应用;支持轻量化Transformer、AI ISP的中端主流AI芯片主要是NPU,算力1~8TOPS;高端的边缘AI芯片可能以GPGPU架构为主,算力超20TOPS,可运行边缘多模态大模型。

结语:AI芯片企业承压前行

随着大模型革命席卷全球,算力需求达到新高,推动云边端AI芯片迭代与进化。在数据爆炸式增长、工艺逼近物理极限、国际形势复杂多变三朵乌云下,许多AI芯片企业低调务实地承压前行,积极备战生成式AI浪潮带来的时代机遇。

从2018年3月举办国内首场AI芯片产业峰会至今,七年来,除了2021年受疫情影响外,全球AI芯片峰会基本上保持每年一届的节奏,邀请近150位大咖分享前沿进展和行业洞见,成为了解国内外AI芯片发展动态的重要窗口,也是目前国内在AI芯片领域里*影响力的行业峰会。

据智一科技联合创始人、CEO龚伦常透露,智一科技旗下硬科技知识分享社区智猩猩将联合智能产业新媒体智东西、智能汽车产业新媒体车东西,11月份在上海举行今年的第二场生成式AI大会,12月份举办中国端到端自动驾驶峰会,欢迎参会交流。

免责声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。