近年来,随着AI、5G、物联网、云计算等新兴技术和行业快速发展,数据量正在以难以计量的速度爆发。据IDC数据预测,从2015年到2025年全球总数据量将会增长近20倍,达到175ZB。
科技时代浪潮汹涌,海量数据催生庞大的算力需求, 进而带动高性能、大算力芯片成为行业发展的驱动力和新趋势。
市场对高性能芯片需求日益旺盛的同时,也进一步加速了芯片的迭代周期,刺激芯片设计企业不断提高芯片技术含量、缩短交付时间,以提升核心竞争力。而另一方面,随着产品迭代,制程工艺越来越先进,芯片设计带来的IT资源需求和不断增长的开发周期和成本,逐渐成为了挡在芯片设计企业面前的痛点和挑战。
尤其是近几年,国内中小型芯片设计公司数量不断增多。据中国半导体行业协会统计显示,中国芯片设计企业数量已经从2015年的736家增加到2023年的3451家,其中约84%是规模在100人以下的小微企业。
囿于自身规模、实力和技术积淀限制,小微企业在芯片开发设计流程中,无法完全满足自身人力、算力、软件等刚需,容易造成资源利用率低、研发成本变高、技术成果转化慢等现实痛点。
不难发现,现代的芯片设计,尤其是CPU、GPU、NPU等高端大芯片设计,其中的计算、验证、仿真工作量数倍于以往。
对于中小型芯片设计企业来说,在仿真、验证需求高峰来临时会出现资源不足的情况,这时候花费大量成本购置用于物理验证、仿真的服务器并不符合公司发展阶段的要求。
因为项目开发中不同阶段对于算力的需求是波动的。通常芯片设计周期一般超过12个月,包括产品定义、前端设计、IP验证、SoC验证、综合、布局布线等多个阶段,不同阶段对算力的需求也不相同。
在这种情况下,芯片设计企业难以精准平衡资源需求与供给,多了浪费,少了则要一直反复采购搭建维护,即使按中间取值准备,当某个时间点任务量激增时也会出现资源不匹配的情况。
就算是大型芯片设计公司,在不同项目组之间通常也存在资源的争抢,而公司资源永远是有限的,在资源分配上很难做到灵活机动,往往出现“排队”与“闲置”同时存在的错配情况。这种错配就会导致资源利用率低,影响研发进度。
可见,对广大芯片设计公司而言,算力资源规划和成本之间的平衡,是一门艺术。
另一方面,芯片设计环境复杂,企业构建难。因为芯片设计行业普遍缺乏专业人才,中小型公司没有专门的IT/CAD团队进行研发环境的部署和维护,所以要想完全搭一套本地研发设计环境,周期长又复杂,人员也跟不上,需要耗费巨大的人力成本。
对此,是否有足够的服务器资源能快速部署?猛增的算力需求如何响应?如何有效平衡公司研发成本?IT/CAD工程师短缺,芯片设计环境复杂且构建难的困局何解?
这么一来,芯片设计企业既要考虑项目算力的弹性需求,又要避免无谓的时间消耗,该怎么做?
云,天然具备弹性特征,芯片设计上云后公司可按需向云提供商进行采购和扩展,能够灵活快速地满足算力的波动性需求。算力需求峰值阶段过去之后,云上资源就可以快速释放,从而节省了相关的费用投入。
这种弹性为开发者提供了灵活性、敏捷性和扩展性,提升了资源利用率。尤其是在芯片制造工艺不断发展,芯片集成化程度越来越高的趋势下,大量的计算、验证、仿真工作都需要强大的IT资源作为支撑,单靠企业自行构建IT资源设备所投入的人力、物力会非常庞大。
简单来讲,芯片上云的本质就是用算力换时间、用算力省人力,通过云端弹性算力平衡成本投入,解放生产力。
相较于芯片设计公司过去部署本地算力的模式,云平台资源弹性使用、随用随开,可以做到随算力需求曲线平滑波动,资源利用率较高,满足各种业务突发需求。
可以预见,上云正成为芯片设计产业的一个趋势,在云端进行IC设计并通过弹性调整满足计算资源需求的时代已然到来。
早在2017年,美国Synopsys、Cadence等几家EDA厂商开始提出芯片设计上云概念,AWS、微软等云计算公司提供芯片上云解决方案。
例如,Synopsys与台积电共同部署云上设计和芯片制造平台,帮助台积电成为首家实现云设计的代工厂。Synopsys还与台积电在微软Azure平台上成功实现云上时序签核新流程,加快片上系统开发效率。
在欧美地区,芯片设计上云已是市场共识,国内外主流芯片设计厂商、Foundry、EDA企业纷纷转入云上设计/仿真。相比国外,国内芯片设计上云的开端始于2019年左右,包括阿里云、腾讯云、紫光云、华为云等多家云平台相继开始探索高性能计算场景。
在解决芯片设计的弹性算力需求的痛点外,公有云还具备丰富全面的生态合作体系,销售供应链协同,为芯片企业提供更全面的服务。
然而,具体选择怎样的上云方案,行业内并没有绝对的标准和太多可借鉴的案例。
除了上面按需付费的公有云方式之外,还有一种私有云方式,即在本地建一个芯片设计云来满足自身的芯片设计需求。因为随着一些芯片设计企业规模越来越大,芯片设计除了需要算力弹性以外,也有一些虚拟化的需求,因此搭建一个芯片设计私有云来做固定资源池的使用和仿真,也渐成趋势。
如果大公司全部买公有云,成本也会比较高,它比较倾向于在本地建一个固定的资源池,用私有云的资源来满足日常使用,然后涉及到弹性算力部分再结合公有云,形成一种混合云模式。
另外,还有些公司已经在线下部署了部分硬件设备,上云也并不意味着将本地设备全部搬到云上,也可以通过局部上云,即将本地设备、资源作为一个常备算力进行储备,再辅以云上算力资源的弹性补充,两者协同或是一个更优的性价比方案。
据了解,目前AWS、Azure、阿里云等头部云供应商主要以提供公有云为主,在芯片设计私有云的部署方面涉及较少,更多的是紫光云、速石科技、常青藤开源科技(HPC insight)等企业在布局,既做公有云,也做私有云。
值得注意的是,相较于速石科技、常青藤开源科技依托于第三方云平台和底层资源,紫光芯片云的公有云依托自身的紫光云平台,在私有云的底层资源方面跟紫光集团旗下公司一起联合做私有云场景,全方位地为芯片设计企业打造一个完整的芯片设计环境,从算力、CAD工具、集群调度和管理等关键环节出发,达到降本增效的效果。
总之,芯片设计平台上云不再是艰难的选择。公有云、私有云以及混合云都是应对高性能芯片设计挑战的有效方案,之间存在一些区别,用户可以根据自身需求选择适合的路径和模式。
能看到,芯片设计上云能够帮助企业在算力需求、效率和成本等要素上取得价值平衡。
但回到帮助企业缩短芯片设计周期这个问题,仅仅在云端提供算力支持只是基础服务。因为缺乏专职IT/CAD工程师等人才,致使一些企业即便拿到了云端算力资源,也很难快速地搭建芯片设计环境。
如文章开头所述,芯片设计环境复杂,缺乏专业人员和管理工具,缺少易用的集群管理和调度软件,这就使得芯片设计集群环境管理难、运维难。
从行业现状来看,行业用户最熟悉的是IBM的集群核心软件LSF,LSF负责计算资源的管理和批处理作业的调度,它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源,同时提供丰富的功能和可定制的策略。
在芯片设计领域,LSF调度工具通常与Azure、AWS等云供应商进行对接合作,协助LSF更高效的调度云上资源。
速石科技推出IC设计研发云平台,对企业本地及云端复杂研发环境统一协同管理。
常青藤开源科技的HPC insights对HPC集群进行监控和智能分析,帮客户全面掌控集群资源状况,优化集群资源分配。
另外,还看到一些企业在尝试搭建平台,旨在利用AI技术来帮助芯片设计企业优化IC设计,力求在最优模式下设计出性能最优的芯片。
值得关注的是,在国内芯片设计上云领域,紫光云是行业的率先实践者和推动者。
据了解,作为国内最早推动芯片设计云的行业实践者之一,早在2020年前后,紫光云就开始了围绕芯片设计云的超前建设和部署。
紫光芯片云总架构师耿加申指出,紫光芯片云的发展背景和契机主要是因为集团内部的需求,有集团下属芯片企业想采用一些公有云资源来满足弹性资源需求。
2020年8月,紫光推出芯片云1.0版,正式向外推广;时隔不到半年,紫光芯片云再次升级,发布了2.0版本。
据了解,紫光芯片云1.0更多是聚焦在算力与设计环境提供,满足与算力、设计环境相关的痛点和需求。而升级后的紫光芯片云2.0服务更加全面配套——通过提供专业的私有化芯片设计环境和弹性的公有云资源,为芯片设计企业提供完整的混合云方案。
可以理解为,紫光芯片云最初的目的主要是服务集团内部的芯片设计企业。但在这个过程中,看到了一些芯片设计企业的共性需求,尤其近几年中小芯片设计企业大量的出现,衍生出对计算资源和整个芯片设计环境搭建的大量需求。
因此,紫光芯片云业务通过服务内部企业过程中的经验和技术积累,形成了标准化的芯片解决方案,进而向业内客户进行推广使用。
发展至今,紫光芯片云平台能为芯片设计企业提供了IC设计的全栈解决方案,算力之外,还凭借本地化专业的CAD/IT团队以及丰富的芯片设计上云实践经验,帮助企业梳理业务现状、搭建芯片设计环境,以及负责后期的技术支撑和运维服务。
其中,在芯片设计环境中的两个关键产品,分别是紫芯调度软件和CAD管理平台。
紫芯调度器面向芯片设计仿真场景,能够快速地在数据中心和云端构建和管理异构的高性能计算集群,为用户提供业务所需的弹性资源和统一资源调度管理平台,提升资源利用率。
面对调度软件依赖海外产品的现状,紫芯调度器旨在解决行业卡脖子问题,实现调度软件国产化。耿加申表示,“紫芯调度器对标IBM的LSF,在对其特性进行补齐的基础上,围绕多集群调度、提交作业参数过程中的参数自动补齐和替换等新功能和特性做了进一步的开发,同时对开源调度器在大规模调度上的性能瓶颈进行了优化和提升。”
简而言之,面对行业老牌劲敌LSF的传统优势,紫芯调度器选择另辟蹊径,结合业界最新的容器调度和AI等新技术做一些改进和优化,实现差异化竞争。
有业内人士表示,过去接触过的很多客户使用的都是进口调度器,但要切换成国产工具时,原先使用的研发流程、进度适配转换很麻烦。耿加申表示,自主研发的国产紫芯调度器可以从底层兼容国际调度器,解决“卡脖子”问题的同时,保留开发者过去的使用习惯。再结合CAD能力与经验,紫光芯片云平台能有效提高上中下层整体联动效率,帮助客户实现芯片设计的降本增效并可以共同适配落地场景。
这个CAD能力指的是紫光芯片云的CAD管理平台,该平台是面向IC设计行业IT/CAD运维管理的一站式管理平台,横向支持多场景统一调度,纵向支持算力、存储、作业的运行监控和集群、任务的智能调度,可为用户提供快捷、稳定、高可靠、高效低成本的集群管理服务,打造专业芯片设计环境,提升芯片研发效率。
据悉,紫光芯片云的CAD管理平台,既可以管理自己的紫芯调度器,也可以管理LSF调度器。因为很多客户已经买了LSF软件,但LSF的管理软件更新速度较慢,基于老架构设计会存在特性缺失问题,且不会根据用户的一些需求做快速地迭代更新。
相比之下,紫光云CAD管理平台可以快速响应客户需求,进行功能更新迭代。因此,在LSF调度器市占率仍普遍较大的行业现状下,可以先通过CAD管理平台去支持LSF调度器的一些可视化管理和监控,逐步实现芯片设计环境核心软件的国产化渗透。
整体来看,紫光芯片云作为一个体系完善、开箱即用的云上芯片设计平台,为芯片设计企业提供强大、弹性且安全的计算集群和存储资源池,配备资深的IT/CAD专家团队,结合紫光集团内部芯片设计企业的最佳实践,帮芯片设计企业搭建专用的、私有云的设计环境,提供一站式的设计服务+云服务打包Turnkey方案交付。
相比其它平台,紫光芯片云具有高性能、高安全、混合部署、最佳实践和生态运营等多重优势。
对芯片行业而言,设计上云的想象空间还很大。但实现更多落地应用的前提是,云平台不仅要保证效率足够高,更要获得芯片设计公司足够的信任。
紫光芯片云在此具备优势。据耿加申介绍,紫光芯片云正是依托紫光集团从芯到云的整体战略布局推出的,在推向市场前,已在紫光集团内部芯片设计企业得到了充分验证,形成了芯片设计上云最佳实践。
在实际部署中,芯片设计企业最关心的问题是能不能把资源利用率提升起来,以及到底自身的资源利用率情况如何?只有了解这些之后才能更好的进行调整和优化。
现在很多芯片设计企业都是多地设立研发中心,紫光云芯片团队为其分散在各地的资源建立一个集中的专享云芯片资源池,然后同时部署CAD管理平台和紫芯调度器进行分析和优化,将客户CPU计算利用率从50%提升至80%,帮助用户提升了整体效率。
此外,芯片云平台中的可视化管理软件还能帮助客户进行硬件设备的选型,通过分析硬件资源配比,帮助进行服务器和内存等硬件资源的合理采购,从而实现成本的节省。
可以简单理解为,对于跨地域乃至跨国的芯片设计公司,涉及多地R&D研发效率不高、硬件资源采购不合理的问题,紫光云芯片平台可通过集群实现对云端和本地算力的统一管理,有效解决多地协同难题,提升资源利用率;同时优化客户硬件配比,减少无谓的成本浪费。
芯片设计除了庞大的算力需求和IT/CAD设计环境,还有EDA工具、IP、PDK等是芯片设计企业成本最高、投入最大的部分。而对于绝大多数小微型芯片设计企业没有太多的议价能力,借助紫光芯片云平台已有的生态合作伙伴,这些可以得到更好的支撑。
耿加申表示,紫光芯片云已联合了多家EDA和IP合作伙伴提供设计工具和IP服务。通过同芯片行业上下游产业链与工具厂商深度合作,共同构建全栈服务,实现多赢。
“通过芯片云平台,赋能中小芯片设计企业,为芯片设计提速赋能”——这样一张产业宏图和发展愿景,正在紫光芯片云的全面布局下,向着助力中国芯片产业发展的方向,缓缓打开。
有业内人士吐槽,“在大公司做芯片设计,不需要操心IT的事情,你只需要抱怨IT就行了;而到了小公司,你才会发现IT上面全是问题——算力、存储、成本、工具、安全、环境等等,都需要考虑周全。”
而“芯片设计上云”的目的,就是把芯片设计企业从这些事情中解放出来,全身心投入到核心业务中去。
纵观行业格局,AWS、Azure、阿里云等公有云领域高手云集,速石科技、常青藤开源科技等围绕私有云业务跃跃欲试,IBM携LSF在集群核心软件领域独步天下。
而凭借紫光集团芯云能力输出,既做公有云又能部署私有云的行业多面手——紫光芯片云,致力于通过紫光云+芯片专用管理平台(CAD管理平台+紫芯调度器)的支持,助力芯片企业搭建专业设计环境,并应对算力需求的挑战,极大地实现资源共享、技术共享、平台共享,加速中国半导体事业新升级。
台积电美国工厂4年未生产一颗芯片,该工厂累计投资650亿美元,是遇到什么问题了?