Skip to content

engram训练loss更低但是评测差的问题 #20

@fate08301017

Description

@fate08301017

最近尝试用1.3b的llama2 dense模型,在总22层的第2层和第10层增加engram模块,engram词表每层设置32000,这样用1t的RedPajama数据集按gbs2048训练了30000步,发现loss曲线会优于未加engram模块的1.3b模型,但是用opencompass尝试评测了piqa,siqa,ARC_e,hellaswag数据集发现评测效果不如1.3b的基线模型,
一个猜想是因为前期训练量太小导致engram的词表没学好反而起了负作用吗,会不会在训练后期变好呢;
还有个猜想是engram词表空间大小设置不够大导致?
或者是engram模块就不适合用于纯dense模型?
此外还有个问题,对于padid,在开源的推理代码中,engram模块中的padid固定设置了2,是和原始tokennizer的保持了一致吗;如果没有保持一致,会对训练和推理产生明显影响吗;

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions