LLMs Finetune 的几种方法

LLMs Finetune 的几种方法大语言模型发展到现在,Pretrain + Finetune 已经成为当前普遍通用的做法,Pretrain 预训练就是在海量文本数据集上进行,人

大家好,欢迎来到IT知识分享网。

大语言模型发展到现在,Pretrain + Finetune 已经成为当前普遍通用的做法,Pretrain 预训练就是在海量文本数据集上进行,人类有海量的文本预料拿来把任意一段话、一句话做截断,前面部分就是x,后面部分就是y,天然可以作为文本生成的训练数据。这样在语料库中自己构建标记数据的方法,叫自监督学习(Self-Supervised Learning)

而Finetune 阶段,依据被微调的模型是否固定部分参数,或者全量参数的微调;作者将其分为参数高效的 LLM Parameter-Efficient Finetune, 和全量参数的微调方法。

一、LLM PEFT(Parameter-Efficient Finetune)

1.Prefix-Tuning

《Prefix-tuning- Optimizing continuous prompts for generation》

《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》

2.Prompt tuning

《The Power of Scale for Parameter-Efficient Prompt Tuning》

3.P-Tuning

《P-tuning-GPT Understands, Too》

4.LoRa

《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》

《AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning》

《QLoRA: QLoRA: Efficient Finetuning of Quantized LLMs》

LLMs Finetune 的几种方法

几种微调方法发展历程

二、全量参数微调方法(强化学习算法)

1.RLHF

《Reinforcement Learning from Human Feedback》

《Training language models to follow instructions with human feedback》

这里主要有以ChatGPT 为代表的RLHF

2.RAFT

《RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment》

3.RAFT + RLHF

Reject Sample + RLHF Llama2 将RAFT(Reject Sample) + RLHF 相结合对模型的微调。

4.ReST

《Reinforced Self-Training (ReST) for Language Modeling》 这篇由Deepmind 提出的paper 用于机器翻译上的对齐,但是号称可以用在所有需要对齐的生成任务上,而且将人类反馈这一选项移除。

本篇文章简单对FineTune 方法进行分类,后面的几篇文章将会分系列对这些方法进行原理详解,进一步讨论这些算法的区别,并将会基于HuggingFace 中PEFT 给出对应实现,然后介绍一下DeepSpeed-Chat 在RLHF 上实现,喜欢我的分享,请大家转发点赞,关注,谢谢大家!

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/51018.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信