并行计算

并行计算 (Parallel Computing) 是一种 计算方法 。它指的是将一个巨大的任务拆分成许多小块，然后让多个处理器（CPU 或 GPU）同时运行这些小块任务。

核心概念

HPC

HPC 是 High-Performance Computing 的缩写，中文意为“ 高性能计算 ”，是指利用处理能力极强的计算系统来解决极其复杂的计算任务。它的核心价值在于速度和规模。

本质： 它是一种利用多台计算机协同工作，以极高的速度处理海量数据并进行复杂计算的能力。
相对性： 课件中提到“一切都是相对的”，这意味着今天的 HPC 性能在未来可能只是普通水平。
现实比喻： 如果个人电脑是一台笔记本，那么 HPC 就是成千上万台电脑组成的“超级电脑”。

高性能计算（HPC）与并行计算几乎是互为表里的关系。 在绝大多数情况下，如果没有并行技术，就无法实现真正的高性能计算。物理上，单个处理核心（CPU）的运算速度是有瓶颈的。为了突破瓶颈，HPC 通过将数千个甚至数百万个核心（包括 CPU 和 GPU）连接在一起。有让这些核心同时（并行） 处理任务的不同部分，才能实现“高性能”。

Cluster

集群是实现 HPC 的具体物理方式。集群是高性能计算的物理形态。它通过网络将大量普通的计算机连接起来，协同工作。

构成： 它是由许多 连接在一起的计算机 （称为“节点”）组成的集合。
整体性： 虽然有很多台电脑，但通过专门的软件进行管理和任务调度，它们在外界看来就像是一个单一的系统。
架构：
- 节点 (Node)： 集群中的每一台独立计算机。每个节点通常包含自己的 CPU 、GPU 和本地存储。
- 共享存储 (Storage/File System)： 所有节点通过网络连接到一个中心化的存储系统，实现数据共享。

理解 HPC 的关键在于分清硬件的层级关系：

节点 (Node) ：指系统中的 单台计算机 。
核心 (Core) ：节点内部包含许多计算单元，称为核心。
异构计算单元 ：
CPU 核心 ：处理通用逻辑运算。
GPU 核心 ：处理大规模并行数学运算（如图中绿色的阵列）。

CPU/GPU

在现代集群中，我们通常采用 异构计算 ，即 CPU 负责统筹和逻辑，GPU 负责大规模的数值计算（如 AI 训练）。

CPU 擅长处理复杂的逻辑判断（比如：如果 A 发生，就做 B）。
GPU 拥有成千上万个小核心，非常擅长处理大规模、重复性的数学计算（比如：给 100 万个像素点同时上色）。

并行计算

核心概念

HPC

Cluster

CPU/GPU

评论 #