*最小推荐内存基于相应精度计算,包含工作内存和系统预留 **最小推荐内存(FP32)基于全量参数计算,包含工作内存和系统预留
*最小推荐显存基于相应精度计算,包含CUDA开销和工作内存 **最小推荐显存(FP32)基于全量参数计算,包含CUDA开销和工作内存
最小推荐内存 = (模型基础内存 + 工作内存 + 系统预留) × 1.2
其中:
- 工作内存 = KV Cache + 激活值 + 临时计算空间
- KV Cache ≈ 2 × num_layers × batch_size × seq_length × hidden_size × bytes_per_element
- 激活值 ≈ num_layers × batch_size × seq_length × hidden_size × bytes_per_element
- bytes_per_element = 4 (FP32) 或 2 (FP16)
- 系统预留 ≈ 基础内存的50%
最小推荐显存 = (模型基础内存 + CUDA开销 + 工作内存) × 1.2
其中:
- CUDA开销 ≈ 基础内存的15%
- 工作内存 = KV Cache + 激活值 + CUDA缓存
- bytes_per_element = 4 (FP32) 或 2 (FP16)
注意事项:
优先考虑INT8量化:
资源极其受限时使用INT4:
有充足资源时使用FP16: