并行计算
并行计算 (Parallel Computing) 是一种 计算方法 。它指的是将一个巨大的任务拆分成许多小块,然后让多个处理器(CPU 或 GPU)同时运行这些小块任务。
核心概念
HPC
HPC 是 High-Performance Computing 的缩写,中文意为“ 高性能计算 ”,是指利用处理能力极强的计算系统来解决极其复杂的计算任务。它的核心价值在于速度和 规模 。
- 本质: 它是一种利用多台计算机协同工作,以极高的速度处理海量数据并进行复杂计算的能力。
- 相对性: 课件中提到“一切都是相对的”,这意味着今天的 HPC 性能在未来可能只是普通水平。
- 现实比喻: 如果个人电脑是一台笔记本,那么 HPC 就是成千上万台电脑组成的“超级电脑”。
高性能计算(HPC)与并行计算几乎是互为表里的关系。 在绝大多数情况下,如果没有并行技术,就无法实现真正的高性能计算。物理上,单个处理核心(CPU)的运算速度是有瓶颈的。为了突破瓶颈,HPC 通过将数千个甚至数百万个核心(包括 CPU 和 GPU)连接在一起。有让这些核心同时(并行) 处理任务的不同部分,才能实现“高性能”。
Cluster
集群是实现 HPC 的具体物理方式。集群是高性能计算的物理形态。它通过网络将大量普通的计算机连接起来,协同工作。
- 构成: 它是由许多 连接在一起的计算机 (称为“节点”)组成的集合。
- 整体性: 虽然有很多台电脑,但通过专门的软件进行管理和任务调度,它们在外界看来就像是一个单一的系统。
- 架构:
- 节点 (Node): 集群中的每一台独立计算机。每个节点通常包含自己的 CPU 、GPU 和本地存储。
- 共享存储 (Storage/File System): 所有节点通过网络连接到一个中心化的存储系统,实现数据共享。
理解 HPC 的关键在于分清硬件的层级关系:
- 节点 (Node) :指系统中的 单台计算机 。
- 核心 (Core) :节点内部包含许多计算单元,称为核心。
- 异构计算单元 :
- CPU 核心 :处理通用逻辑运算。
- GPU 核心 :处理大规模并行数学运算(如图中绿色的阵列)。
CPU/GPU
在现代集群中,我们通常采用 异构计算 ,即 CPU 负责统筹和逻辑,GPU 负责大规模的数值计算(如 AI 训练)。
- CPU 擅长处理复杂的逻辑判断(比如:如果 A 发生,就做 B)。
- GPU 拥有成千上万个小核心,非常擅长处理大规模、重复性的数学计算(比如:给 100 万个像素点同时上色)。