2024年5月20日10:35:04 author : binghong Pan, 开发计算大语言模型中显存计算工具 1. 大模型参数计算公式 n-layer 模型层数 d-model 模型残差输出维度大小 d-ff 前馈神经网络输出维度大小 d-attn 注意力网络输出维度大小 n-heads 每一层的多头注意力的数量 n-ctx 输入的上下文长度大小