AI 模型强化训练方法整理

类别: AI技术分享来源：www.nanyuetong.com

摘要：AI 模型强化训练方法整理 1. 环境搭建操作系统: Windows 10/11 需安装 WSL (Windows Subsystem for Linux) 以运行 Linux 子系统。显卡驱动: 安装 NVIDIA 驱动和 CUDA (cuDNN) 以利用 GPU 加速。 Miniconda 安装: wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linu...

AI 模型强化训练方法整理

1. 环境搭建

操作系统: Windows 10/11 需安装 WSL (Windows Subsystem for Linux) 以运行 Linux 子系统。
显卡驱动: 安装 NVIDIA 驱动和 CUDA (cuDNN) 以利用 GPU 加速。

Miniconda 安装:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

创建 Conda 虚拟环境:

conda create -n vllm python=3.12
conda activate vllm

2. 安装 VLLM

安装 VLLM 及依赖:

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

启动 VLLM 服务器:

vllm serve /home/ctq/Huggingface/Qwen2.5-1.5B-Instruct

运行 VLLM 推理命令:

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "/home/ctq/Huggingface/Qwen2.5-1.5B-Instruct",
        "prompt": "San Francisco is a",
        "max_tokens": 7,
        "temperature": 0
    }'

另一种方式运行 VLLM 推理:

vllm serve /home/ctq/Huggingface/Qwen2.5-1.5B-Instruct

3. 安装 LlamaFactory

克隆 LlamaFactory 仓库:

git clone https://github.com/hiyouga/LLaMA-Factory.git

进入目录并安装依赖:

cd LLaMA-Factory
pip install -r requirements.txt

激活 LlamaFactory 运行训练:

conda activate llamafactory
bash qw15.sh

查看显卡状态:
```
watch -n 2 nvidia-smi
```

4. Hugging Face 依赖安装 & 下载模型

安装 Hugging Face CLI 工具:
```
pip install huggingface_hub
```
登录 Hugging Face 以便下载私有模型（可选）:
```
huggingface-cli login
```

下载 Hugging Face 模型:

huggingface-cli download Qwen/Qwen2.5-3B-Instruct --local-dir Qwen2.5-3B-Instruct

5. ModelScope (国内) 依赖安装 & 下载模型

安装 ModelScope CLI 工具:
```
pip install modelscope
```

使用 ModelScope 下载模型:

modelscope download Qwen/Qwen2.5-3B-Instruct --local_dir Qwen2.5-3B-Instruct

6. LoRA 模型合并

合并 LoRA 适配器:

python src/export_model_lora.py \
    --model_name_or_path /home/ctq/Huggingface/Qwen2.5-1.5B-Instruct \
    --adapter_name_or_path /home/ctq/Pyproject/LLaMA-Factory/outmoxi/Qwen2.5-1.5B-1 \
    --template qwen \
    --export_dir ./outmoxi/Qwen2.5-1.5B-lora

LoRA 合并参数说明:
- --model_name_or_path：原始训练模型路径
- --adapter_name_or_path：LoRA 训练后模型路径
- --export_dir：合并后模型存放路径

7. 代理 & 其他命令

设置代理上网:

export http_proxy=192.168.2.218:2023
export https_proxy=192.168.2.218:2023

Linux 下安装 CUDA 并配置环境变量: 参考教程
CUDA & cuDNN 下载:
- cuDNN 9.7.1
- CUDA Toolkit 12.8

【收藏本页】【返回顶部】【关闭窗口】

AI 模型强化训练方法整理

AI 模型强化训练方法整理

1. 环境搭建

2. 安装 VLLM

3. 安装 LlamaFactory

4. Hugging Face 依赖安装 & 下载模型

5. ModelScope (国内) 依赖安装 & 下载模型

6. LoRA 模型合并

7. 代理 & 其他命令

Links友情链接