ChatGPT带火的HBM是什么?

    “ChatGPT是人工智能领域的iPhone时刻,也是计算领域有史以来最伟大的技术之一。” 英伟达创始人兼CEO黄仁勋此前这样盛赞ChatGPT。

    ChatGPT突然爆火,对大算力芯片提出了更高更多的要求。近日,据韩国经济日报报道,受惠于ChatGPT,三星、SK海力士HBM(high bandwidth memory,高带宽内存)接单量大增。

HBM是什么?

     HBM(High Bandwidth Memory)即高带宽存储器,是基于硅通孔(TSV)和微凸点(Microbump)技术将多个DRAMdie和Logicdie堆叠而成的具有三维结构的存储产品。

    GPU的主流存储方案目前有GDDR和HBM两种。在冯·诺依曼计算机体系结构中,存在着“内存墙”和“功耗墙”问题,由于传统显存GDDR5面临着带宽低、功耗高等瓶颈,HBM则能通过3D封装工艺实现DRAMdie的垂直方向堆叠封装,可以极大程度节约存储芯片占据的面积,实现更高的集成度和更大存储容量。

     在传输速率方面,基于TSV工艺可以在存储芯片上制造多个内存通道、且更高集成度使得HBM和处理器之间物理距离得以缩短,因此HBM在位宽、带宽等关键性能上均明显优于GDDR。根据SAMSUNG,3DTSV工艺较传统POP封装形式节省了35%的封装尺寸,降低了50%的功耗,并且对比带来了8倍的带宽提升,有效解决了内存墙问题和功耗墙问题,成为当前满足AI需求的最佳方案,被所有主流AI芯片采用。

为什么需要HBM?

    主要是因为随着GPU 的功能越来越强大,需要更快地从内存中访问数据,以缩短应用处理时间。例如,AI和视觉,具有巨大内存和计算和带宽要求。

    为了减小“内存墙”的影响,提升内存带宽一直是存储芯片聚焦的关键问题。

    半导体的先进封装为克服阻碍高性能计算应用程序的内存访问障碍提供了机会,内存的延迟和密度都是可以在封装级别解决的挑战。基于对先进技术和解决方案开展的研究,内存行业在新领域进行了更深入的探索。

    为了克服这些挑战,半导体封装设计人员采用了异构集成路线,以在更靠近处理器的位置包含更多内存。而HBM就为现代处理器和嵌入式系统当前面临的内存障碍问题提供了解决方案。这些存储器为系统设计人员提供了两个优势:一是减少组件占用空间和外部存储器要求;二是更快的内存访问时间和速率。

    叠起来之后,直接结果就是接口变得更宽,其下方互联的触点数量远远多于DDR内存连接到CPU的线路数量。因此,与传统内存技术相比,HBM具有更高带宽、更多I/O数量、更低功耗、更小尺寸。

    目前,HBM产品以HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序开发,最新的HBM3E是HBM3的扩展版本。

     当然,存储器的容量也在不断加大:HBM2E的最大容量为16GB,目前,三星正在利用其第四代基于EUV光刻机的10nm制程(14nm)节点来制造24GB容量的HBM3芯片,此外8层、12层堆叠可在HBM3E上实现36GB(业界最大)的容量,比HBM3高出50%。

    此前SK海力士、美光均已宣布推出HBM3E芯片,皆可实现超过1TB/s的带宽。

    同时,三星也宣布HBM4内存将采用更先进的芯片制造和封装技术,虽然HBM4的规格尚未确定,但有消息称业界正寻求使用2048位内存接口,并使用FinFET晶体管架构来降低功耗。三星希望升级晶圆级键合技术,从有凸块的方式转为无凸块直接键合。因此,HBM4的成本可能会更高。

HBM的未来应用前景

    随着AI大模型、智能驾驶等新技术的崛起,人们对高带宽的内存的需求越来越多。

    首先,AI服务器的需求会在近两年爆增,如今在市场上已经出现了快速的增长。AI服务器可以在短时间内处理大量数据,GPU可以让数据处理量和传输速率的大幅提升,让AI服务器对带宽提出了更高的要求,而HBM基本是AI服务器的标配。

    除了AI服务器,汽车也是HBM值得关注的应用领域。汽车中的摄像头数量,所有这些摄像头的数据速率和处理所有信息的速度都是天文数字,想要在车辆周围快速传输大量数据,HBM具有很大的带宽优势。

     另外,AR和VR也是HBM未来将发力的领域。因为VR和AR系统需要高分辨率的显示器,这些显示器需要更多的带宽来在 GPU 和内存之间传输数据。而且,VR和AR也需要实时处理大量数据,这都需要HBM的超强带宽来助力。

    此外,智能手机、平板电脑、游戏机和可穿戴设备的需求也在不断增长,这些设备需要更先进的内存解决方案来支持其不断增长的计算需求,HBM也有望在这些领域得到增长。并且,5G 和物联网 (IoT) 等新技术的出现也进一步推动了对 HBM 的需求。

    并且,AI的浪潮还在愈演愈烈,HBM今后的存在感或许会越来越强。据semiconductor-digest预测,到2031年,全球高带宽存储器市场预计将从2022年的2.93亿美元增长到34.34亿美元,在2023-2031年的预测期内复合年增长率为31.3%。

HBM需要克服的问题

1:HBM需要较高的工艺从而导致大幅度提升了成本。

针对更大数据集、训练工作负载所需的更高内存密度要求,存储厂商开始着手研究扩展Die堆叠层数和物理堆叠高度,以及增加核心Die密度以优化堆叠密度。

但就像处理器芯片摩尔定律发展一样,当技术发展到一个阶段,想要提升更大的性能,那么成本反而会大幅提升,导致创新放缓。

2:产生大量的热,如何散热是GPU极大的挑战。

行业厂商需要在不扩大现有物理尺寸的情况下增加存储单元数量和功能,从而实现整体性能的飞跃。但更多存储单元的数量让GPU的功耗大幅提升。新型的内存需要尽量减轻内存和处理器之间搬运数据的负担。

最后总结

随着人工智能、机器学习、高性能计算、数据中心等应用市场的兴起,内存产品设计的复杂性正在快速上升,并对带宽提出了更高的要求,不断上升的宽带需求持续驱动HBM发展。相信未来,存储巨头们将会持续发力、上下游厂商相继入局,让HBM得到更快的发展和更多的关注。

参考资料

[01] 《An Overview of the Development of a GPU with integrated HB Mon Silicon Interposer》,IEEE

[02] https://www.eepw.com.cn/article/202312/454189.htm

[03] https://www.eet-china.com/news/202302168387.html

[04] 李川,郑浩,王彦辉.硅转接层高带宽存储互连通道信号完整性设计及仿真
 [J]. 计算机工程与科学. 2022 (02)

[05] 吴铁彬,过锋,王谛.
面向E级计算的高性能处理器核心运算架构研究进展[J]. 计算机工程与科学. 2023 (05)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2812064.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

ZYNQ:串口-CAN协议转换

前言 目前已经实现zynq的PS-CAN和PL-CAN功能。串口-CAN协议转换是实现以太网-CAN功能的过渡,通过这个流程能够减少后期以太网工程出现问题的频率。阶段性功能目标如下: 实现数据在CAN调试助手和串口调试助手之间的来回转换,从而了解中断机制…

CMU15445实验总结(Spring 2023)

CMU15445实验总结(Spring 2023) 背景 菜鸟博主是2024届毕业生,学历背景太差,导致23年秋招无果,准备奋战春招。此前有读过LevelDB源码的经历,对数据库的了解也仅限于LevelDB。奔着”有对比才能学的深“的理念,以及缓解…

MySQL基础(二)

文章目录 MySQL基础(二)1. 数据库操作-DQL1.1 介绍1.2 语法1.3 基本查询1.4 条件查询1.5 聚合函数1.6 分组查询1.7 排序查询1.8 分页查询1.9 案例1.9.1 案例一1.9.2 案例二 2. 多表设计2.1 一对多2.1.1 表设计2.1.2 外键约束 2.2 一对一2.3 多对多2.4 案…

AI算法核心概念与方法汇总

一、AI模块简介(45个) 以下是提升AI大模型能力时涉及的核心概念与方法: 1. **迁移学习(Transfer Learning)**: - 利用在源领域预先训练好的模型,在目标领域上进行微调,从而利用已有…

【深度学习】Pytorch教程(十三):PyTorch数据结构:5、张量的梯度计算:变量(Variable)、自动微分、计算图及其可视化

文章目录 一、前言二、实验环境三、PyTorch数据结构1、Tensor(张量)1. 维度(Dimensions)2. 数据类型(Data Types)3. GPU加速(GPU Acceleration) 2、张量的数学运算1. 向量运算2. 矩阵…

七大查找算法详解并附代码实现

基本查找 也叫做顺序查找 说明:顺序查找适合于存储结构为数组或者链表。 基本思想:顺序查找也称为线形查找,属于无序查找算法。从数据结构线的一端开始,顺序扫描,依次将遍历到的结点与要查找的值相比较,…

景联文科技:引领战场数据标注服务,赋能态势感知升级

自21世纪初,信息化战争使战场环境变得更为复杂和难以预测,持续涌入的海量、多样化、多来源和高维度数据,加大了指挥员的认知负担,使其需要具备更强的数据处理能力。 同时,计算机技术和人工智能技术的飞速发展&#xff…

计算机操作系统(慕课版)第一章学习笔记

第一章学习笔记 1.1 操作系统的概念 操作系统是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩充,其主要作用是管理硬件设备,提高他们的利用率和系统吞吐量,并为用户和应用程序提供一个简单的接口,以便用户和应…

SocketError | Socket错误码一览表(每一种错误码的故障排查建议)

Socket错误码一览表 文章目录 Socket错误码一览表前言错误码表 前言 在软件开发和网络通信编程中,SocketError算是一个绕不开的坎。它可能因为各种原因而来,比如网络问题、用户搞错了、应用程序出错等等。本文整理一张SocketError排查建议表格就是为了帮…

Superhuman 邮箱的替代方案是什么?

Superhuman是一个极好的人工智能工具在电子邮件助理领域。根据SimilarWeb的最新统计,它在全球网站排名中排名第21980位,月访问量为1751798。然而市场上还有许多其他优秀的选择。为了帮助您找到最适合您需求的解决方案,我们为您精心挑选了10种…

计算机操作系统(慕课版)第三章学习笔记

第三章 处理机调度与死锁 1.1 调度的层次 高级调度、低级调度和中级调度。 中级调度:在内存和外存对换区之间按照给定的原则和策略选择进程对换。 目的: 提高主存利用率,调节系统负荷进行程序的调试、检查和改正;当系统出现故障或…

vue + koa + 阿里云部署 + 宝塔:宝塔前后端部署

接上篇,我们已经完成了宝塔的基本配置,下面我们来看如何在宝塔中部署前后端 一、上传前后端代码文件 在www > wwwroot目录下创建了一个demo文件,用来存放前后端代码 进入demo中,点击上传 这里前端我用的打完包的 dist文件&am…

08_第八章 微头条项目开发(PostMan测试工具)

文章目录 第八章 微头条项目开发一 项目简介1.1 微头条业务简介1.2 技术栈介绍1.3 功能展示 二 前端项目环境搭建三 后端项目环境搭建3.1 数据库准备3.2 MVC项目架构模式3.3 搭建项目3.3.1 创建WEB项目3.3.2 导入依赖3.3.3 准备包结构 3.5 准备工具类3.5.1 异步响应规范格式类3…

Jquery中的事件与动画

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 本章目标 使用常用简单事件制作网页特效使用鼠标事件制作主导航特效使用hover()方法制作下拉菜单特效使用鼠标事件及动画制作页面特效 一.Jquery事件概述 二.基础事件 鼠标事件 演示案例&…

.NET高级面试指南专题十一【 设计模式介绍,为什么要用设计模式】

设计模式是软件工程中常用的解决特定问题的通用设计方法。它们提供了经过验证的解决方案,可用于解决在软件开发过程中经常遇到的一些常见问题。设计模式不是一种具体的编程语言特性或语法,而是一种通用的设计思想或模板,可以帮助开发人员设计…

如何在项目中考虑非功能需求

软件的非功能需求指的是除了软件的功能需求以外,软件需要满足的一些其他需求。常见的非功能需求包括: 性能需求:软件需要在特定的时间内完成特定的任务,例如响应时间、吞吐量等。可靠性需求:软件需要在各种环境下都能…

pclpy VoxelGrid 滤波器 (降体素化)

[TOC](pclpy VoxelGrid 滤波器 (降体素化)) 一、算法原理 使用体素化网格方法对点云数据集进行下采样(即减少点数)。VoxelGrid类。在输入点云数据上创建一个3D 体素网格(将体素网格视为空间中的一组微小的 3D 框)。然后在每个体…

RK3568平台开发系列讲解(基础篇)如何快速学习一套 Linux开发板源码

🚀返回专栏总目录 文章目录 一、基础代码二、驱动代码沉淀、分享、成长,让自己和他人都能有所收获!😄 拿到一份源码和一块评估板,如何快速找到与这块板相关的源码,是很多研发人员都曾遇到过的问题。如果对内核源码结构有大概了解,要完成这些事情也不难,通常可按照基础…

AVL树简介及其四种旋转

AVL树由二叉搜索树进化而来。在二叉搜索树中如果出现特殊情况:所有插入的数据均为有序,根据二叉搜索树的插入原理,其会退化为单枝斜向下的而二叉树,此时插入,查找,删除的效率也就退化成了O(n),效…

CUDA编程 - 用向量化访存优化 elementwise 核函数 - 学习记录

Cuda elementwise 一、简介1.1、ElementWise1.2、 float4 - 向量化访存 二、实践2.1、如何使用向量化访存2.2、Cuda elementwise - Add2.3、Cuda elementwise - Sigmoid2.3.1、简单的 Sigmoid 函数2.3.2、ElementWise Sigmoid float4(向量化访存) 2.4、C…