Skip to content

并行计算

并行计算 (Parallel Computing) 是一种 计算方法 。它指的是将一个巨大的任务拆分成许多小块,然后让多个处理器(CPU 或 GPU)同时运行这些小块任务。

核心概念

HPC

HPCHigh-Performance Computing 的缩写,中文意为“ 高性能计算 ”,是指利用处理能力极强的计算系统来解决极其复杂的计算任务。它的核心价值在于速度规模

  • 本质: 它是一种利用多台计算机协同工作,以极高的速度处理海量数据并进行复杂计算的能力。
  • 相对性: 课件中提到“一切都是相对的”,这意味着今天的 HPC 性能在未来可能只是普通水平。
  • 现实比喻: 如果个人电脑是一台笔记本,那么 HPC 就是成千上万台电脑组成的“超级电脑”。

高性能计算(HPC)与并行计算几乎是互为表里的关系。 在绝大多数情况下,如果没有并行技术,就无法实现真正的高性能计算。物理上,单个处理核心(CPU)的运算速度是有瓶颈的。为了突破瓶颈,HPC 通过将数千个甚至数百万个核心(包括 CPU 和 GPU)连接在一起。有让这些核心同时(并行) 处理任务的不同部分,才能实现“高性能”。

Cluster

集群是实现 HPC 的具体物理方式。集群是高性能计算的物理形态。它通过网络将大量普通的计算机连接起来,协同工作。

  • 构成: 它是由许多 连接在一起的计算机 (称为“节点”)组成的集合。
  • 整体性: 虽然有很多台电脑,但通过专门的软件进行管理和任务调度,它们在外界看来就像是一个单一的系统。
  • 架构:
    • 节点 (Node): 集群中的每一台独立计算机。每个节点通常包含自己的 CPUGPU 和本地存储。
    • 共享存储 (Storage/File System): 所有节点通过网络连接到一个中心化的存储系统,实现数据共享。

理解 HPC 的关键在于分清硬件的层级关系:

  • 节点 (Node) :指系统中的 单台计算机
  • 核心 (Core) :节点内部包含许多计算单元,称为核心。
  • 异构计算单元
  • CPU 核心 :处理通用逻辑运算。
  • GPU 核心 :处理大规模并行数学运算(如图中绿色的阵列)。

CPU/GPU

在现代集群中,我们通常采用 异构计算 ,即 CPU 负责统筹和逻辑,GPU 负责大规模的数值计算(如 AI 训练)。

  • CPU 擅长处理复杂的逻辑判断(比如:如果 A 发生,就做 B)。
  • GPU 拥有成千上万个小核心,非常擅长处理大规模、重复性的数学计算(比如:给 100 万个像素点同时上色)。

评论 #