有需要英伟达H800的吗?

近日,英伟达在GTC发布了特供版的H800,这是其旗舰芯片H100的替代版,那么通过“阉割”掉部分性能,这款H800可以合法出口到中国。打开网易新闻 查看更多图片
美国以国家安全问题为由,禁止英伟达向中国客户出售其两款最先进的芯片,即A100和更先进的H100,其背后的目的是减缓中国在半导体和人工智能等关键技术领域的发展。随后,英伟达发布了A800,同样也是一款阉割芯片,那么目前国内主要使用的就是A800,他与A100的主要差距就是在互联速度上,相差了200GB。在对大量数据进行人工智能模型训练时,传输速度是相当重要的指标,因此美国要求必须将芯片的传输速率控制在600GB以内。那么新款H800也是一样的处理方式,将芯片到芯片的数据传输速率降低到旗舰H100速率的一半,而较慢的传输速率也意味着,使用这款芯片就需要花费更多的训练时间。目前,H800正在被阿里巴巴、百度、腾讯等国内大厂的云计算部门使用。对此,英伟达CEO黄仁勋也表示:“许多年轻的初创公司正在构建大型语言模型,许多公司正投身于生成式人工智能革命,他们可以期待阿里巴巴、腾讯和百度借助英伟达人工智能而拥有出色的云计算能力。”打开网易新闻 查看更多图片
这句话也算是给了我们一颗定心丸,意味着英伟达的GPU还可以继续向中国供货,能够满足一定的发展需求,虽然是阉割版,但总比没有强。当然,面对这样的局面,还需要国产GPU能够早日起来,达到先进水平,完成更好的替代。那么在众多的国产GPU企业里,有一个叫寒武纪,在去年12月底,它也被美国列入实体清单。通过这个举动,其实我们可以看到,这家企业的实力还是非常强的,否则也不会遭到美国的针对。当然,也有一些敏感因素,这里不方便展开,大家应该能懂。寒武纪的思元系列支持transformer模型,采用自研AI指令集,已经有了一定的规划化应用。其中,思元270为16nm,思元290与370是7nm,是国内比较稀缺的AI训练与推理卡。通过与英伟达同类产品对比,我们可以看到,寒武纪370-X8已经具备了非常不错的算力,但是在显存带宽和互联速度上还有较大的差距。在整体性能方面,只能达到A100三分之一,A800二分之一左右的性能,当然已经可以满足一定的算力需求了。打开网易新闻 查看更多图片
那么在这一轮的实体清单中,有36家中国企业,其中包含了21家人工智能芯片企业,他们被列入“外国直接产品规则”名单,限制禁止进口非美国公司包含美国技术的产品。这意味着,无论直接还是间接,都将无法再从美国获得半导体相关的先进产品和技术。可见,美国针对我国的人工智能行业的封锁和限制,正在愈演愈烈。那么问题来了,如果国产GPU厂商,跟寒武纪一样,被列入制裁清单,该怎么办?其实这种情况跟华为差不多,例如华为海思的麒麟芯片,已经无法找到代工厂生产。通过华为的遭遇,实际上我们可以想到几个所谓的应对方法,例如:1、申请许可这种途径能够成功的可能性几乎为零,此前华为在美国也有大量的合作伙伴,通信设备渗透的也很广,甚至可以说,美国的部分通信网络依靠华为设备,但即便是这种情况下,都未能获得许可。所以,按照以往的经验,通过申请许可的方式解除限制,基本是不可能的。2、大量备货在禁令生效之前,有一定的缓冲期,可以由代工厂开足马力生产,大量备货,华为就是这么干的,起到了很好的缓解作用,用有限的芯片,无限期的延续华为手机的生命,赢得更多宝贵的时间。但是华为家大业大,有实力大量备货,而且是消费端芯片,根本不愁卖,甚至是物以稀为贵,越少卖的越好。而寒武纪的情况就不同了,是AI芯片,而且在性能上,又不及最先进的英伟达,所以如果大量囤货,会严重影响现金流,导致巨大的压力。所以如果完全效仿华为,是不太现实的。3、卖给第三方这其实是一个可行的方案,由另一家公司购买相关的技术,做一些升级优化后,在由代工厂生产,这样可以绕过美国的限制。但问题是,谁能买,并且芯片的研发、流片、生产都是需要一个过程,还要继续投入,所以如果不能保证订单量,又如何能迈出这一步呢?最后一个是等待纯国产的产线。寒武纪370系列是7nm,以目前的情况来看,国产半导体产业链只能做到28nm左右,14nm需要使用DUV光刻机,其中包含了美国技术和设备,所以即便是中芯国际可以做到7nm工艺,也无法给寒武纪这样处于实体清单的中国企业生产芯片。那么最近两年备受大家关注的国产DUV光刻机到底如何,虽然现在没有明确的消息,但应该是快了,今年或者明年估计会有好消息,只不过到底什么时候,谁也说不准,但既然已经处于限制了,那就等吧,也是没有办法的办法。当然,不能干坐着等,还是需要继续研发的,就像海思那样。头一段时间网传的麒麟KC10芯片,其性能已经达到主流,只要能代工生产,立马可以上市。所以综合的来看,如果遇到无法代工的问题,其实可先考虑根据自身情况和市场需求,尽量多备一点货,保持一定的运转,让企业先活下去,然后持续研发,然后等待国产半导体产业链的突破。当然了,想要达到5nm工艺,还需要很长的时间,不是一两年就能搞得定的,但是14nm、7nm应该就快了,再坚持坚持。不过还需要注意到是,芯片最终完成生产,可不仅仅是代工厂一个环节,其中还包括芯片IP、EDA工具、晶圆、相关电子元器件以及封测服务等等都需要向供应商采购,如果这些环节中涉及到了美国产品或者美国技术,也是不行的。可见,短期内想要找到完成的替代方案,还是比较难的。不过我相信,寒武纪也好,其他实体清单上的企业也罢,应该都能料到会有这么一天,所以也一定会有对应的方案,虽然很被动,但也会积极的面对。另外,除了寒武纪,在国产GPU领域,还有众多优秀的GPU企业,已经推出了多款优秀的GPU芯片,能够满足深度学习、计算机视觉等AI计算需求和数据中心、边缘计算、自动驾驶等各个领域的需求,所以大家也不用担心。稍后,我会单独出视频,给大家讲讲国产GPU的话题,欢迎到时候来听听。特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
2023年07月13日 03:31--浏览 ·
--喜欢 ·
--评论关键词:AIGC;NLP;ChatGLM;AGI;LLAMA;BERT;GLM;LLVM;LSAT;ChatGPT;深度学习;高性能计算;大语言模型;大型语言模型;CPU;GPU;HPC;液冷服务器;GPU服务器;GPU工作站;风虎云龙科研服务器;人工智能;液冷散热;A100;V100;A800;H100;H800;AI;水冷工作站日前,随着深度学习、高性能计算、大模型训练等技术的保驾护航,通用人工智能时代即将到来。各个厂商也都在紧锣密鼓的布局,如AMD MI300X 其内存远超120GB的英伟达GPU芯片H100,高达192GB。最新10卡H100服务器6月22日,英特尔(Intel)宣布,美国能源部阿贡国家实验室已完成新一代超级计算机"Aurora"的安装工作。这台超级计算机基于英特尔的CPU和GPU,预计在今年晚些时候上线,将提供超过2 exaflops的FP64浮点性能,超越美国能源部橡树岭国家实验室的"Frontier",有望成为全球第一台理论峰值性能超过2 exaflops的超级计算机。Aurora超级计算机是英特尔、惠普(HPE)和美国能源部(DOE)的合作项目,旨在充分发挥高性能计算(HPC)在模拟、数据分析和人工智能(AI)领域的潜力。该系统由10624个刀片服务器组成,每个刀片由两个英特尔Xeon Max系列CPU(至强Max 9480)和六个英特尔Max系列GPU组成。英伟达前段时间发布GH 200包含 36 个 NVLink 开关,将 256 个 GH200 Grace Hopper 芯片和 144TB 的共享内存连接成一个单元。除此之外,英伟达A100、A800、H100、V100、H800也在大模型训练中更是广受欢迎。那么英伟达A100、A800、H100、V100、H800等卡为何广受欢迎,国内厂商又是如何布局的呢?下面让我们一起来看下。一、英伟达大模型训练GPU全系列介绍自OpenAI发布ChatGPT以来,生成式人工智能技术一直是备受关注的热门趋势。这项技术需要强大的算力来生成文本、图像、视频等内容。在这个背景下,算力成为人工智能领域的必备条件,而英伟达作为芯片巨头所生产的人工智能芯片在其中扮演着至关重要的角色。英伟达先后推出V100、A100和H100等多款用于AI训练的芯片,并为了符合美国标准,推出了A800和H800这两款带宽缩减版产品,在中国大陆市场销售。V100是英伟达公司推出的高性能计算和人工智能加速器,属于Volta架构系列。它采用16nm FinFET工艺,拥有5120个CUDA核心和16GB到32GB的HBM2显存。V100还配备Tensor Cores加速器,可提供高达120倍的深度学习性能提升。此外,V100支持NVLink技术,实现高速的GPU到GPU通信,加速大规模模型的训练速度。V100被广泛应用于各种大规模AI训练和推理场景,包括自然语言处理、计算机视觉和语音识别等领域。A100是英伟达推出的一款强大的数据中心GPU,采用全新的Ampere架构。它拥有高达6,912个CUDA核心和40GB的高速HBM2显存。A100还包括第二代NVLink技术,实现快速的GPU到GPU通信,提升大型模型的训练速度。此外,A100还支持英伟达自主研发的Tensor Cores加速器,可提供高达20倍的深度学习性能提升。A100广泛应用于各种大规模AI训练和推理场景,包括自然语言处理、计算机视觉和语音识别等领域。在大模型训练中,V100和A100都是非常强大的GPU。以下是它们的主要区别和优势:1、架构V100和A100在架构上有所不同。V100采用Volta架构,而A100则采用全新的Ampere架构。Ampere架构相对于Volta架构进行一些改进,包括更好的能源效率和全新的Tensor Core加速器设计等,这使得A100在某些场景下可能表现出更出色的性能。2、计算能力A100配备高达6,912个CUDA核心,比V100的5120个CUDA核心更多。这意味着A100可以提供更高的每秒浮点运算数(FLOPS)和更大的吞吐量,从而在处理大型模型和数据集时提供更快的训练速度。3、存储带宽V100的内存带宽约为900 GB/s,而A100的内存带宽达到了更高的1555 GB/s。高速内存带宽可以降低数据传输瓶颈,提高训练效率,因此A100在处理大型数据集时可能表现更出色。4、存储容量V100最高可拥有32GB的HBM2显存,而A100最高可拥有80GB的HBM2显存。由于大模型通常需要更多内存来存储参数和梯度,A100的更大内存容量可以提供更好的性能。5、通信性能A100支持第三代NVLink技术,实现高速的GPU到GPU通信,加快大模型训练的速度。此外,A100还引入Multi-Instance GPU (MIG)功能,可以将单个GPU划分为多个相互独立的实例,进一步提高资源利用率和性能。总的来说,A100在处理大型模型和数据集时可能比V100表现更优秀,但是在实际应用中,需要结合具体场景和需求来选择合适的GPU。二、中国各大厂商如何实现战略式布局全球范围内,英伟达GPU的竞争非常激烈。然而,海外巨头在GPU采购方面比较早,并且采购量更大,近年来的投资也相对连续。中国的大型公司对于GPU的需求和投资动作比海外巨头更为急迫。以百度为例,今年向英伟达下单的GPU订单数量高达上万块。尽管百度的规模要小得多,去年的营收仅为1236亿元人民币,相当于Google的6%。然而,这显示出中国大公司在GPU领域的迅速发展和巨大需求。据了解,字节、腾讯、阿里和百度是中国投入最多的AI和云计算科技公司。在过去,它们累计拥有上万块A100 GPU。其中,字节拥有的A100数量最多。不计算今年的新增订单,字节拥有接近10万块A100和前代产品V100。成长期的公司商汤也宣称,其“AI大装置”计算集群中已经部署了2.7万块GPU,其中包括1万块A100。即使是看似与AI无关的量化投资公司幻方,也购买1万块A100。从总数来看,这些GPU似乎足够供各公司训练大型模型使用。根据英伟达官方网站的案例,OpenAI在训练具有1750亿参数的GPT-3时使用了1万块V100,但训练时间未公开。根据英伟达的估算,如果使用A100来训练GPT-3,需要1024块A100进行一个月的训练,而A100相比V100性能提升4.3倍。中国的大型公司过去采购的大量GPU主要用于支撑现有业务或在云计算平台上销售,不能自由地用于开发大模型或满足客户对大模型的需求。这也解释了中国AI从业者对计算资源估算存在巨大差异。清华智能产业研究院院长张亚勤在4月底参加清华论坛时表示:“如果将中国的算力加起来,相当于50万块A100,可以轻松训练五个模型。”AI公司旷视科技的CEO印奇在接受《财新》采访时表示,中国目前可用于大型模型训练的A100总数只有约4万块。这反映了中国和外国大型公司在计算资源方面的数量级差距,包括芯片、服务器和数据中心等固定资产投资。最早开始测试ChatGPT类产品的百度,在过去几年的年度资本开支在8亿到20亿美元之间,阿里在60亿到80亿美元之间,腾讯在70亿到110亿美元之间。与此同时,亚马逊、Meta、Google和微软这四家美国科技公司的自建数据中心的年度资本开支最低也超过150亿美元。在过去三年的疫情期间,海外公司的资本开支持续增长。亚马逊去年的资本开支已达到580亿美元,Meta和Google分别为314亿美元,微软接近240亿美元。而中国公司的投资在2021年后开始收缩。腾讯和百度去年的资本开支同比下降超过25%。中国公司若想长期投入大模型并赚取更多利润,需要持续增加GPU资源。就像OpenAI一样,他们面临着GPU不足的挑战。OpenAI的CEO Sam Altman在与开发者交流时表示,由于GPU不够,他们的API服务不够稳定,速度也不够快。在获得更多GPU之前,GPT-4的多模态能力无法满足每个用户的需求。同样,微软也面临类似的问题。微软与OpenAI合作密切,他们的新版Bing回答速度变慢,原因是GPU供应跟不上用户增长的速度。微软Office 365 Copilot嵌入了大型模型的能力,目前还没有大规模开放,只有600多家企业在试用。考虑到全球近3亿的Office 365用户数量,中国大公司如果想利用大型模型创造更多服务,并支持其他客户在云上进行更多大型模型的训练,就需要提前储备更多的GPU资源。三、大模型训练解决方案高性能大模型训练平台支持多种硬件加速器,包括CPU、GPU、FPGA和AI等,能够满足大规模数据处理和复杂计算任务的需求。采用分布式计算架构,高效地处理大规模数据和复杂计算任务,为深度学习、高性能计算、大模型训练、大型语言模型(LLM)算法的研究和开发提供强大的算力支持。具有高度的灵活性和可扩展性,能够根据不同的应用场景和需求进行定制化配置。可以快速部署和管理各种计算任务,提高了计算资源的利用率和效率。1、为什么需要大模型?1)模型效果更优大模型在各场景上的效果均优于普通模型2)创造能力更强大模型能够进行内容生成(AIGC),助力内容规模化生产3)灵活定制场景通过举例子的方式,定制大模型海量的应用场景4)标注数据更少通过学习少量行业数据,大模型就能够应对特定业务场景的需求2、产品特点1)异构计算资源调度一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括CPU、GPU等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。2)稳定可靠的数据存储支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。3)高性能分布式网络提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。4)全方位安全保障在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。3、常用产品配置1)A800工作站常用配置CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2内存:DDR4 3200 64G *32数据盘:960G 2.5 SATA 6Gb R SSD *2硬盘:3.84T 2.5-E4x4R SSD *2网络:双口10G光纤网卡(含模块)*1双口25G SFP28无模块光纤网卡(MCX512A-ADAT )*1GPU:HV HGX A800 8-GPU 8OGB *1电源:3500W电源模块*4其他:25G SFP28多模光模块 *2单端口200G HDR HCA卡(型号:MCX653105A-HDAT) *42GB SAS 12Gb 8口 RAID卡 *116A电源线缆国标1.8m *4托轨 *1主板预留PCIE4.0x16接口 *4支持2个M.2 *1原厂质保3年 *12)A100工作站常用配置CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2RAM:64GB DDR4 RDIMM服务器内存 *16SSD1:480GB 2.5英寸SATA固态硬盘 *1SSD2:3.84TB 2.5英寸NVMe固态硬盘 *2GPU:NVIDIA TESLA A100 80G SXM *8网卡1:100G 双口网卡IB 迈络思 *2网卡2:25G CX5双口网卡 *13)H100工作站常用配置CPU:英特尔至强Platinum 8468 48C 96T 3.80GHz 105MB 350W *2内存:动态随机存取存储器64GB DDR5 4800兆赫 *24存储:固态硬盘3.2TB U.2 PCIe第4代 *4GPU :Nvidia Vulcan PCIe H100 80GB *8平台 :HD210 *1散热 :CPU+GPU液冷一体散热系统 *1网络 :英伟达IB 400Gb/s单端口适配器 *8电源:2000W(2+2)冗余高效电源 *14)H800工作站常用配置CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2内存 :64GB 3200MHz RECC DDR4 DIMM *32系统硬盘: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4GPU: NVIDIA Tesla H800 -80GB HBM2 *8GPU网络: NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8存储网络 :双端口 200GbE IB *1网卡 :25G网络接口卡 双端口 *1

我要回帖

更多关于 英伟达 t600 的文章

 

随机推荐