question about attention mask

关于第九章这一部分：
为了简化数据处理，这里我们并没有将 [CLS]、[SEP]、[PAD] 等特殊 token 对应的标签设为 -100，而是维持原始的 0 值，然后在计算损失时借助 Attention Mask 来排除填充位置。

attention mask对于cls的位置是1。“active_loss = attention_mask.view(-1) == 1”会包括cls。是否需要mask掉？