llama-7b模型大小大约27G,本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。

1、模型和数据准备

使用的大模型:https://huggingface.co/decapoda-research/llama-7b-hf,已经是float16的模型。

微调数据集:https://github.com/LC1332/Chinese-alpaca-lora/blob/main/data/trans_chinese_alpaca_data.json

微调的代码已上传到github:https://github.com/jiangxinyang227/LLM-tuning/tree/master/llama_tuning

2、微调技巧

1)lora微调。float16的模型刚刚好存放在16G的GPU上,没有太多显存用于存放梯度、优化器等参数,因此在这里使用lora微调部分参数。

2)混合精度训练,因为llama-7b有27g,想在单张V100上加载就需要转换成float16才行,而lora参数用的是float32,需要使用混合精度训练。同时混合精度训练也会有所加速。

3)梯度累积,单张gpu在存放完模型参数,lora参数、梯度、优化器等参数之后只剩下很少的显存给到输入输出等中间变量,经测试单张V100的极限大致是batch size=1,sequence length=200,只能使用梯度累积实现mini-batch训练。

4)当有多张卡时,可以使用数据并行、模型并行等方法微调,数据并行只是将模型复制到每张GPU上,因此单张GPU的batch size仍然只能是1,模型并行会将模型均分到每个GPU上,可以增大每张GPU上的batch size,在2张V100上测试了ddp(数据并行)和 基于zero-3 + cpu offload(数据并行+模型并行+CPU)。

3、要注意的代码讲解

3.1  data_helper.py

  data_helper.py中主要注意下tokenizer()函数,一是padding是在左边padding,和我们通常的右边padding不太一样;二是labels中的pad_id=-100,因为pytorch中label=-100时不参与loss的计算。

def tokenize(self, prompt, add_eos_token=True):# there's probably a way to do this with the tokenizer settings# but again, gotta move fastresult = self.tokenizer(prompt,truncation=True,max_length=self.sequence_len,padding=False,return_tensors=None)input_ids, attention_mask, labels = [], [], []if (result["input_ids"][-1] != self.eos_token_idand len(result["input_ids"]) < self.sequence_lenand add_eos_token):result["input_ids"].append(self.eos_token_id)result["attention_mask"].append(1)pad_len = self.sequence_len - len(result["input_ids"])if pad_len <= 0:input_ids = result["input_ids"][:self.sequence_len]attention_mask = result["attention_mask"][:self.sequence_len]labels = input_ids.copy()else:input_ids = [self.pad_token_id] * pad_len + result["input_ids"]attention_mask = [0] * pad_len + result["attention_mask"]labels = [self.label_pad_token_id] * pad_len + result["input_ids"]return input_ids, attention_mask, labels

3.2 metric.py

  在指标计算中只实现了准确率,在这里要注意的是生成任务是前n-1个token生成第n个token,因此这里的预测结果和label要做一次不同的移位,即

  pred_y = pred_y[:-1]

  true_y = true_y[1:]

  只要注意这里就好了,剩下的你需要计算什么指标都可以。

def accuracy(pred_ys, true_ys, masks):total = 0corr = 0for pred_y, true_y, mask in zip(pred_ys, true_ys, masks):# 做一层转换,让生成的结果对应上预测的结果,即前n-1个token预测第n个tokenpred_y = pred_y[:-1]true_y = true_y[1:]mask = mask[:-1]for p, t, m in zip(pred_y, true_y, mask):if m == 1:total += 1if p == t:corr += 1return corr / total if total > 0 else 0

4、训练方式

4.1 单GPU训练

  单GPU训练很好理解,训练的时候只要注意下面的一段代码即可,混合精度训练+梯度累积

          with autocast(): loss, predictions = self.model(input_ids, attention_mask, labels)# 梯度累积训练loss /= self.accu_steps# loss.backward()# 放大loss,并求梯度scaled_loss = self.scaler.scale(loss)scaled_loss.backward()if current_step % self.accu_steps == 0:# 先将梯度缩放回去,再执行梯度裁剪self.scaler.unscale_(self.optimizer)clip_grad_norm_(self.model.parameters(), 1.0)self.scaler.step(self.optimizer)self.scheduler.step()self.scaler.update()self.optimizer.zero_grad()

4.2 多GPU + DDP训练

  DDP训练也是大家最常用的方法,尤其是在模型没那么大的情况下,DDP训练就是主流,就不多赘述,在这里值得注意的是,每个GPU会分担一部分数据,在验证的时候如果需要拿到全部数据的验证结果并输出时,需要通过dist.all_gather 或者 dist.gather的方法将验证集的结果聚合到一块。详细代码见https://github.com/jiangxinyang227/LLM-tuning/blob/master/llama_tuning/lora_ddp/trainer.py

def eval(self):self.model.eval()with torch.no_grad():eval_losses = []eval_word_preds = []eval_word_labels = []eval_masks = []for batch_data in self.valid_data_loader:input_ids = batch_data[0].cuda()attention_mask = batch_data[1].cuda()labels = batch_data[2].cuda()with autocast():loss, predictions = self.model(input_ids, attention_mask, labels)# 获取所有gpu上输出的数据avg_loss_multi_gpu = reduce_value(loss, average=True)gather_preds = [torch.zeros_like(predictions, dtype=predictions.dtype) for _ in range(Config.world_size)]gather_labels = [torch.zeros_like(labels, dtype=labels.dtype) for _ in range(Config.world_size)]gather_masks = [torch.zeros_like(attention_mask, dtype=attention_mask.dtype) for _ in range(Config.world_size)]gather_value(predictions, gather_preds)gather_value(labels, gather_labels)gather_value(attention_mask, gather_masks)eval_losses.append(float(avg_loss_multi_gpu))for pred, label, mask in zip(gather_preds, gather_labels, gather_masks):eval_word_preds.extend(pred.tolist())eval_word_labels.extend(label.tolist())eval_masks.extend(mask.tolist())if is_main_process():acc = accuracy(pred_ys=eval_word_preds, true_ys=eval_word_labels, masks=eval_masks)logger.info("\n")logger.info("eval: num: {},  loss: {}, acc: {}".format(len(eval_word_preds), mean(eval_losses), acc))logger.info("\n")

4.3 deepspeed的zero-3 + cpu offload

  在这里使用的是hugging face的accelerate库中的deepspeed方法,zero-3会将模型、梯度、优化器参数都分割到不同的GPU,并且使用cpu offload将一些中间变量放到cpu上,经实测使用两张GPU时,每张GPU的使用大概5个G多一点,单张卡的batch size可以设置到8,但是在实际训练过程中速度比DDP还要慢一点,这里的原因还是因为模型并行、CPU offload等带来了大量的通信工作,所以单张gpu能存放一整个模型时还是首推DDP。

  使用accelerate中的deepspeed时,首先要通过accelerate config这个命令互动式配置训练参数,以下是我在配置时选择的参数

  在使用deepspeed时可以通过json文件去配置其他参数,accelerate config只配置一些通用参数。zero-3 + cpu offload的json文件如下,配置的时候有几个参数(如allgather_bucket_size 和 reduce_bucket_size)要设小一点,不然显存会爆掉,默认的值会比较大,主要是V100太小了。

{"fp16": {"enabled": true,"loss_scale": 0,"loss_scale_window": 1000,"initial_scale_power": 16,"hysteresis": 2,"min_loss_scale": 1},"optimizer": {"type": "AdamW","params": {"lr": 3e-4,"weight_decay": 0.0}},"scheduler": {"type": "WarmupDecayLR","params": {"warmup_min_lr": "auto","warmup_max_lr": "auto","warmup_num_steps": "auto","total_num_steps": "auto"}},"zero_optimization": {"stage": 3,"offload_optimizer": {"device": "cpu","pin_memory": true},"offload_param": {"device": "cpu","pin_memory": true},"overlap_comm": true,"contiguous_gradients": true,"allgather_bucket_size": 1e6,  # 参数要小,不然容易内存爆掉"reduce_bucket_size": 1e6,  # 参数要小,不然容易内存爆掉"stage3_prefetch_bucket_size": 1e6,  # 参数要小,不然容易内存爆掉"stage3_param_persistence_threshold": 1e6,  # 参数要小,不然容易内存爆掉"sub_group_size": 1e9,"stage3_max_live_parameters": 1e9,"stage3_max_reuse_distance": 1e9,"stage3_gather_16bit_weights_on_model_save": true},"gradient_accumulation_steps": 1,"gradient_clipping": 1.0,"steps_per_print": 2000,"train_batch_size": "auto","train_micro_batch_size_per_gpu": "auto","wall_clock_breakdown": false
}

  在使用的时候有一个问题一直没有解决,保存模型时,保存完之后会出现GPU1掉线的情况,所以在这里将保存模型放在整个训练结束后保存,这个问题还没找到解决的办法,有知道怎么解的还麻烦指导下。

  如果在运行时报这样的错误的话:

Traceback (most recent call last):File "/mnt/workspace/project/llm/local_proj/chatglm_tune/lora_deepspeed/trainer.py", line 271, in <module>main()File "/mnt/workspace/project/llm/local_proj/chatglm_tune/lora_deepspeed/trainer.py", line 265, in maintrainer = Trainer()File "/mnt/workspace/project/llm/local_proj/chatglm_tune/lora_deepspeed/trainer.py", line 93, in __init__self.model, self.optimizer, self.train_data_loader, self.valid_data_loader, self.scheduler = self.accelerator.prepare(File "/home/pai/lib/python3.9/site-packages/accelerate/accelerator.py", line 1118, in prepareresult = self._prepare_deepspeed(*args)File "/home/pai/lib/python3.9/site-packages/accelerate/accelerator.py", line 1415, in _prepare_deepspeedengine, optimizer, _, lr_scheduler = deepspeed.initialize(**kwargs)File "/home/pai/lib/python3.9/site-packages/deepspeed/__init__.py", line 165, in initializeengine = DeepSpeedEngine(args=args,File "/home/pai/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 308, in __init__self._configure_optimizer(optimizer, model_parameters)File "/home/pai/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 1173, in _configure_optimizerself.optimizer = self._configure_zero_optimizer(basic_optimizer)File "/home/pai/lib/python3.9/site-packages/deepspeed/runtime/engine.py", line 1463, in _configure_zero_optimizeroptimizer = DeepSpeedZeroOptimizer_Stage3(File "/home/pai/lib/python3.9/site-packages/deepspeed/runtime/zero/stage3.py", line 298, in __init__largest_partitioned_param_numel = max([File "/home/pai/lib/python3.9/site-packages/deepspeed/runtime/zero/stage3.py", line 299, in <listcomp>max([max(tensor.numel(), tensor.ds_numel) for tensor in fp16_partitioned_group])
ValueError: max() arg is an empty sequence

  具体原因不知道为什么会导致这样,可以进入到/home/pai/lib/python3.9/site-packages/deepspeed/runtime/zero/stage3.py(具体的路径看报错的日志)文件中,将

largest_partitioned_param_numel = max([max([max(tensor.numel(), tensor.ds_numel) for tensor in fp16_partitioned_group])for fp16_partitioned_group in self.fp16_partitioned_groups])

  改成

largest_partitioned_param_numel = max([max([max(tensor.numel(), tensor.ds_numel) for tensor in fp16_partitioned_group])for fp16_partitioned_group in self.fp16_partitioned_groups if len (fp16_partitioned_group) > 0])

  即可运行。

大模型入门(四)—— 基于peft 微调 LLaMa模型相关推荐

  1. matlab 模型参数估计值,基于MATLAB的AR模型参数估计

    第 4 卷 第 11 期 中 国 水 运 Vol.4 No.11 2006 年 11 月 China Water Transport Novembdr 2006 收稿日期:2006-9-16 作者简介 ...

  2. ar模型matlab fpe,基于Matlab的AR模型参数估计.pdf

    基于Matlab的AR模型参数估计.pdf 维普资讯 2OO5年第39卷No4 39 基于Matlab的AR模型参数估计* 陈国强 赵俊伟 黄俊杰 刘万里 河南理工大学 摘 要:基于Matlab用时间 ...

  3. AI上推荐 之 SDM模型(建模用户长短期兴趣的Match模型)

    1. 写在前面 今天整理的是SDM模型(Sequential Deep Matching Model),依然是阿里团队在2019年CIKM上的一篇paper.和MIND模型一样,是一种序列召回模型,研 ...

  4. 不等距双杆模型_搜索中的深度匹配模型(下)

    由于知乎字数限制,单篇文章字数限制不超过5万字,这篇文章主要为上一篇的延续 前文链接: 搜索中的深度匹配模型 4.3 match function模型总结 5.搜索中query和doc的相关性匹配模型 ...

  5. 大模型入门(一)—— LLaMa/Alpaca/Vicuna

    LLaMa模型是Meta开源的大模型,模型参数从7B到65B不等,LLaMa-7B在大多数基准测试上超过了GPT3-173B,而LLaMa-65B和Chinchilla-70B.PaLM-540B相比 ...

  6. OpenAI-ChatGPT最新官方接口《微调ChatGPT模型》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(四)(附源码)

    微调ChatGPT模型 前言 Introduction 导言 What models can be fine-tuned? 哪些模型可以微调? Installation 安装 Prepare trai ...

  7. 百度智能云“千帆大模型平台”最新升级:接入Llama 2等33个模型!

    今年3月,百度智能云推出"千帆大模型平台".作为全球首个一站式的企业级大模型平台,千帆不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链,能 ...

  8. 大模型开发(四):OpenAI API调用方法

    全文共8500余字,预计阅读时间约17~30分钟 | 满满干货(附代码示例),建议收藏! 代码下载点这里 一.获取OpenAI的API keys 前提:拥有OpenAI账户,并可以魔法上网 如果涉及账 ...

  9. word2vec 中的数学原理具体解释(四)基于 Hierarchical Softmax 的模型

    word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了非常多人的关注.因为 word2vec 的作者 Tomas Mik ...

最新文章

  1. [Node] 重要外部模块
  2. 非常方便的node内置的调试方法
  3. 中职计算机说课稿三篇,2020精选中职计算机说课稿3篇(15页)-原创力文档
  4. Oracle12c异常关闭后启动PDBORCL(ORA-01033)
  5. Git迁移 从SVN到Git
  6. MVC中根据后台绝对路径读取图片并显示在IMG中
  7. mulitp request
  8. NumPy 基础知识·翻译完成
  9. mysql where true_在MySQL中选择查询,检查字符串或在where子句中检查是否为true?
  10. Linux操作系统分区格式Ext2,Ext3,Ext4的区别
  11. hp laserjet 1213 linux驱动下载,惠普HP LaserJet Pro M1213nf 一体机驱动
  12. 读《C专家编程》笔记-关于内存泄漏
  13. 硬盘保护系统破解器下载、crdisk硬盘保护克星下载
  14. video.js的简单用法
  15. [UE4]在UI中获取玩家角色实例
  16. 选择导入过滤器endnote_EndNote 知网的 Import Filter (滤件制作实例) | 科研动力
  17. 相对路径和绝对路径(简单易懂)
  18. 质因数分解,(结果简化版)
  19. JS实现倒计时精确到天数,时,分,秒或者精确到时、分、秒(小时数累加)
  20. 真正的软件测试实习一

热门文章

  1. ESP8266 SPI通信
  2. 阿里云的各种产品的用途?
  3. Git与远程仓库的连接操作
  4. 外贸开发信群发邮件打开率PK进垃圾箱?
  5. Yolov5训练时报错:UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the ind
  6. Python 实现功能 --- 微信机器人
  7. 解决com.alibaba.dubbo.rpc.RpcException: Fail to start server(url: dubbo://192.168.194.1:20880/...报错方案
  8. 最右 算法工程师 校招 一面面经
  9. 港科夜闻|广州市委常委、南沙区委书记卢一先到香港科技大学(广州)指导开学筹备工作...
  10. 【Centos】centos挂载硬盘方法 及挂载卸载过程出现错误