揭秘NvidiaHopper架构和H100GPU
Hopper架构一直是业界的热点。
在NVIDIAAGTC2022大会上,NVIDIA正式推出了面向HPC和AI的新一代架构“Hopper”及其核心号“GH100”。
以及基于新型人工智能计算机系统“DGXH100”的“H100”。
Hopper架构的核心是H100GPU,采用TSMC4nm工艺,代表定制版本,CoWoS2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,被认为是目前最先进的芯片。
世界。
性能方面,H100的处理能力是A100的三倍,而FP8的处理能力是A100的六倍。
H100GPU采用HBM3显存,带宽为3TB/s,是老款A100的1.5倍。
据介绍,完整版有8组GPC、72组TPC和144组SM,每组SM有128个FP32CUDA核心,总共1843个。
显存支持6个HBM3或HBM2e,控制器由12组512位组成,总位宽为6144位。
TensorTensor核心已经是第四代,共有576MB和60MB二级缓存。
高级连接支持PCIe5.0和第4代NVLink。
后者的带宽提升至900GB/s,是PCIe5.0的7倍,是A100TB/s的一半。
H100GPU可为任何工作负载提供性能、可扩展性和安全性。
NVIDIANVLinkSwitch系统允许连接多达256个H100以加速百亿亿次工作负载,并且专用的Transformer引擎可用于处理具有数万亿个参数的语言模型。
H100全面的技术创新可以使大型语言模型比上一代加速30倍,并提供业界领先的对话式AI。
此外,H100GPU提供高达9倍的AI训练速度,适用于多专家模型。
结合第四代NVlink、NVLINKSwitch系统、PCIe5.0和NVIDIAMagnumIO软件,提供从小型企业到大型统一GPU集群的高效可扩展性。
H100GPU还具备实时深度学习推理能力,其众多先进技术可将推理速度提升30倍并实现超低延迟。
第四代TensorCore对所有精度进行加速,Transformer引擎可以结合FP8和FP16精度,以减少内存需求并提高性能。
H100GPU还适用于百亿亿次高性能计算。
他们的全新突破性人工智能能力进一步增强了HPC+AI的力量,并加速了科学家和研究人员的探索,使他们能够着手解决世界面临的重大挑战。
H100计算卡有两种形式:PCIe5.0和SXM。
后者的功耗高达700W,比A100高出300W。
仅使用五个视频存储器。
最新一代HBM3容量为80GB,位宽为5120位,带宽高达3TB/s,比A100多一半。
DGXH100系统集成了8颗H100芯片和2颗PCIe5.0CPU处理器,总计6400亿个晶体管、640GBHBM3显存和24TB/s显存带宽。
性能方面,AI计算能力为32PFlops,浮点计算能力为FP64480TFlops、FP161.6PFlops和FP83.2PFlops,分别是上一代DGXA100的3倍、3倍和6倍。
它还支持网络内计算并具有性能3.6TFlops。
它还配备了ConnectTX-7网络连接芯片,7nm台积电工艺,800亿个晶体管,400GGPU直接吞吐量,400G加密加速,信息速率4.05亿/秒。
NVIDIAH100CNX融合加速器将HopperTensorCoreGPU的强大功能与ConnectTX-7SmartNIC的高级网络功能相结合,创建了一个独特的平台,可为GPU驱动的输入/输出(IO)密集型工作负载提供出色的性能。
DGXH100是最小的计算单元。
为了扩展,NVIDIA还开发了新的NVLinkSwitch连接系统,最多可以连接32个节点,即256个H100芯片。
GraceCPU+HopperGPU架构专为TB级加速计算而设计,为大规模AI和HPC提供10倍性能。
NVIDIAGraceCPU利用Arm架构的灵活性,创建与GraceCPU相结合的CPU和服务器架构,利用NVIDIA的超快芯片到芯片互连技术提供900GB/s的带宽。
NVIDIAGraceHopper超级芯片结合了Grace和Hopper架构,并利用NVIDIANVLink-C2C技术提供CPU+GPU一致的内存模型,以加速AI和HPC应用程序。
NVIDIAGraceCPU超级芯片通过NVLink-C2C技术提供144个Armv9内核和1TB/s内存带宽。
第四代NVIDIANVLink-C2C互连技术在NVIDIAGraceCPU和NVIDIAGPU之间提供900GB/s的双向带宽。
这种连接可以提供统一的、高速缓存一致的内存地址空间,将系统和HBMGPU内存相结合,以简化可编程性。
NVIDIAGraceCPU是首款使用LPDDR5x内存的服务器CPU,具有服务器级可靠性,通过纠错码(ECC)等机制满足数据中心需求。
它们的内存带宽是当今传统服务器内存的两倍,能源效率高达10倍。
NVIDIAGraceCPU集成了新一代Armv9内核,以省电高效的设计提供高性能,让科学家和研究人员能够更轻松地完成终生工作。
比黄金更贵的显卡,疯狂H100
华尔街和硅谷联手震撼业界:一家初创公司筹集了23亿美元债务融资,抵押品是全球最好的H100显卡。
主角是CoreWeave,其主营业务是AI私有云服务。
它通过建设GPU计算数据中心为AI初创公司和大型商业客户提供基础设施。
CoreWeave已累计融资5.8亿美元,目前估值为20亿美元。
CoreWeave由三位华尔街大宗商品交易员于2016年创立。
最初的活动是挖矿,采购大量GPU搭建矿机中心,尤其是在币圈低谷时期囤积显卡,并与Nvidia建立了稳固的合作关系。
随着业务转型,CoreWeave于2019年将矿机改造为企业数据中心,提供AI云服务,业务逐渐繁荣。
然而CoreWeave的融资金额与GPU的账面价值并不匹配,那么它为何能借到23亿美元呢?答案可能在于Nvidia的供应承诺,包括优先分销H100显卡。
与NVIDIA的密切关系在硅谷是公开的秘密。
CoreWeave对NVIDIA的忠诚和支持在供应链中占有特殊的地位。
Nvidia在电话会议中对CoreWeave大加赞赏,称赞其在GPU云服务领域的出色表现。
在获得23亿美元资金之前,CoreWeave宣布将投资16亿美元在德克萨斯州建设数据中心。
它可以通过与英伟达的关系及其优先分销权从银行获得资金。
这种模式类似于房地产开发商拿到土地后立即向银行贷款。
H100显卡的稀有性令人震惊:得益于集群计算,其推理速度和训练速度性能分别提升了3.5倍和2.3倍,训练速度可提升9倍。
与A100相比,单张H100卡的价格约为1.5-2倍,但训练效率提升200%,性价比更高。
结合Nvidia最新的高速连接系统,每美元的GPU性能可提升4-5倍,因此受到客户的热烈追捧。
H100的市场需求巨大,包括微软Azure、谷歌GCP、亚马逊AWS等云计算巨头,以及CoreWeave、Lambda、RunPod等独立云GPU服务商,显示出大家对H100的浓厚兴趣。
H100。
此外,还有Anthropic、Inflection、Midjourney、Apple、Tesla、Meta等大大小小的公司。
他们也在积极购买,目的是自己训练或构建大型模型。
目前,H100的需求估计在43.2万张左右,其中OpenAI需要5万张,Inflection需要2.2万张,Meta需要2.5万张(有的说10万张),四大云提供商至少需要3万张,即私有云。
行业需要10万块,其他小模型厂家需要10万块。
NVIDIA出货量2023年预计发卡量在50万张左右,缓解年底找卡难。
长期来看,H100供需缺口将继续拉大,预计2024年出货量将达到15-20万片,较今年的50万片增长3-4倍。
美国投资银行PiperSandler预计NVIDIA数据中心业务收入将超过600亿美元,相应的A+H卡出货量将在300万张左右。
某H100服务器代工厂预测,2024年出货量将在450万到500万台之间,这对于英伟达来说是“巨大的财富”。
H100的硬件成本主要包括逻辑芯片、HBM存储芯片和CoWoS封装。
逻辑芯片由台积电生产,成本约200美元;HBM芯片由SKHynix提供,成本约为1,500美元;CoWoS包装成本约为723美元。
材料总成本不超过3,000美元。
H100售价35,000美元,毛利率超过90%。
NVIDIA的高毛利率得益于其强大的软件生态系统,特别是CUDA编程模型,使得GPU能够广泛应用于通用计算。
此外,NVIDIA的研发支出在过去十年持续增长,其在CUDA上的研发投入已超过100亿美元。
这使得Nvidia不仅是一家硬件公司,也是一家以软件为中心的公司。
英伟达的竞争对手包括英特尔和苹果。
英特尔试图在个人电脑领域与英伟达竞争,但最终失败了。
苹果推出了OpenCL,但未能与CUDA竞争。
人工智能时代,英特尔将GPU集成到自家的系统芯片中,但市场格局发生了变化。
目前,英伟达在GPU领域几乎没有竞争对手,其差距难以撼动。
对比H100与4090:两者谁才是更好的GPU算力选择?
在选择GPU计算能力时,H100和4090各有优缺点。
在深度学习和人工智能训练任务中,H100拥有312TflopsTensorFP16计算能力、80GB显存和900GB/s高速通信带宽,是处理大数据集和复杂模型的理想选择,但价格较高,适合适合预算许多用户。
相比之下,4090虽然性能略低,但330TflopsTensorFP16和24GB内存使其在游戏和消费市场具有不错的性价比,尤其是推理任务,拥有24GB内存和1TB/s内存。
带宽能够满足要求,64GB/s的通信带宽使其能够很好地应对非高性能计算任务。
从性价比来看,4090显卡,尤其是UCloud4090云服务器,因其价格合理、性能强劲、售后服务良好,对于一般用户和中小企业来说更具性价比。
尤其是在租赁市场,UCloud的4090云服务器特别优惠9.9元/天,非常划算。
用户在选择时应根据模型大小、预算、任务类型等实际需求,参考官方规格书和性能测试数据,以及服务提供商的成本效益比较来做出明智的决定。
综上所述,如果您主要专注于推理任务且预算有限,4090可能是更好的选择,而对于训练任务性能需求较高的用户,H100可能更适合。
不过4090UCloud云服务器以其高性价比提供了更灵活的使用方式,值得考虑。