Skip to content

关于一系列环境问题与训练速度问题(Chapter 1) #34

@screenpandar

Description

@screenpandar

1.transformer版本

  • 当前transformer已更新到5.30版本,本教程中部分代码已不被兼容,建议安装transformer==4.30.2(亲测可用)

2.torch版本选择

  • 首先要弄清楚你的CUDA版本,
nvidia -smi

查看你的显卡信息和所支持的最高CUDA版本,然后去https://developer.nvidia.com/cuda-toolkit-archive 下载并安装合适的CUDA

3.包管理工具

  • AI发展得太快了,很多依赖都层层嵌套,而且需要特定版本,基本得每个项目一个环境,这时候就需要一个方便的包管理工具。我试过uv,实际使用起来还是不太方便,在我尝试安装4.30.2版本的transformer时就出现了严重的bug,耽误了我很多时间。
  • 我建议使用miniforge, 相当于轻量化的conda,使用方式也和conda一样, 你可以activate虚拟环境之后直接用pip,我觉得比uv方便一点

4.我自己的环境配置

conda create -n llm python=3.10
conda activate llm
conda install transformer==4.30.2
conda install -r requirements.txt       #这里面的torch是没用的,反正你都得按自己的CUDA版本重装
pip install torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu130
#我的显卡是5070Ti Laptop, 安装的是13.0版本的CUDA,反正具体的torch版本你得自己去官网上查

5.训练速度问题

  • 默认参数我训练起来非常卡, 进度条半天不动, 建议main.py中的max_length参数默认值从512改为128, 实际上128完全够用了, 文本长度完全到不了512, 更改max_length为128后我训练时长也就一分多钟

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions