Skip to content

在预训练生成特定格式的文件(tfrecords) 时内存不足问题 #173

@TITONIChen

Description

@TITONIChen

大佬们在预训练生成特定格式的文件时,如果输入文件很大时(如news_zh_1.txt,我自己是600M左右),运行create_pretrain_data.sh需要跑很久(>4小时)并且96G内存使用率达100%后killed掉,各位大佬们是怎么处理这种情况的呀?只能拆分文件分步无监督学习么

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions