大家好,欢迎来到IT知识分享网。
大语言模型发展到现在,Pretrain + Finetune 已经成为当前普遍通用的做法,Pretrain 预训练就是在海量文本数据集上进行,人类有海量的文本预料拿来把任意一段话、一句话做截断,前面部分就是x,后面部分就是y,天然可以作为文本生成的训练数据。这样在语料库中自己构建标记数据的方法,叫自监督学习(Self-Supervised Learning)
而Finetune 阶段,依据被微调的模型是否固定部分参数,或者全量参数的微调;作者将其分为参数高效的 LLM Parameter-Efficient Finetune, 和全量参数的微调方法。
一、LLM PEFT(Parameter-Efficient Finetune)
1.Prefix-Tuning
《Prefix-tuning- Optimizing continuous prompts for generation》
《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》
2.Prompt tuning
《The Power of Scale for Parameter-Efficient Prompt Tuning》
3.P-Tuning
《P-tuning-GPT Understands, Too》
4.LoRa
《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》
《AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning》
《QLoRA: QLoRA: Efficient Finetuning of Quantized LLMs》
二、全量参数微调方法(强化学习算法)
1.RLHF
《Reinforcement Learning from Human Feedback》
《Training language models to follow instructions with human feedback》
这里主要有以ChatGPT 为代表的RLHF
2.RAFT
《RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment》
3.RAFT + RLHF
Reject Sample + RLHF Llama2 将RAFT(Reject Sample) + RLHF 相结合对模型的微调。
4.ReST
《Reinforced Self-Training (ReST) for Language Modeling》 这篇由Deepmind 提出的paper 用于机器翻译上的对齐,但是号称可以用在所有需要对齐的生成任务上,而且将人类反馈这一选项移除。
本篇文章简单对FineTune 方法进行分类,后面的几篇文章将会分系列对这些方法进行原理详解,进一步讨论这些算法的区别,并将会基于HuggingFace 中PEFT 给出对应实现,然后介绍一下DeepSpeed-Chat 在RLHF 上实现,喜欢我的分享,请大家转发点赞,关注,谢谢大家!
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/51018.html