性能优化PPT1

发表于 2025/03/28 更新于 2025/03/28

作者

4 分钟阅读

性能优化PPT1

🧠 课程笔记：Session 1 - Performance Optimisation Overview

📌 示例：

  
for (int i = 0; i < N; i++) {
    a[i] = a[i] + b[i];
}

用户视角：只做 N 次加法处理器视角：需要执行 6N 条汇编指令（加载、加法、存储、跳转）

衡量指标：带宽（bandwidth），单位为 bytes/s 加法循环中每次迭代涉及：读取 a[i]（8B）读取 b[i]（8B）写回 a[i]（8B）合计：24 字节/次

两类瓶颈：指令瓶颈：执行速度跟不上（低 IPC）数据瓶颈：带宽不足工具方法：用测量工具（如 likwid）获取性能数据对照性能模型（如 roofline）判断限制因素

核心思想：一条指令处理多个数据加法示例向量化前后： scalar：1 条 ADD = 1 次加法 SIMD：1 条 AVX ADD = 8 次加法（8 个 float）

📌 SIMD 对单核性能至关重要！

流水线（Pipelining）：将指令分阶段执行（取/译/执行/写）超标量（Superscalar）：多条无依赖指令可同时执行乱序执行（Out-of-Order）：按数据可用性而不是顺序执行

行号	使用的指令集	每条指令处理的数据量	指令数量说明
1️⃣	Scalar（标量）	每条指令处理 1 个元素	最慢，需要最多指令
2️⃣	SSE（Streaming SIMD Extensions）	每条指令处理 2 个元素	比标量快一倍
3️⃣	AVX（Advanced Vector Extensions）	每条指令处理 4 个元素	比 SSE 快一倍
4️⃣	AVX512	每条指令处理 8 个元素（或更多）	最快，性能最佳（图中是例子，有的平台可到 16）

本文由作者按照 CC BY 4.0 进行授权