HQY

GPT-2&GPT-3&BART论文阅读笔记

hqy 发表于2025-02-28 14:25:20 浏览19 评论0百度已收录

抢沙发发表评论

《language models are unsupervised multitask learners》 2019，GPT-2GPT、BERT需要采用监督微调的方法来适应特定的下游任务，GPT-2希望可以通过更大的模型，通过无监督训练之后，可以zero-shot完成多种下游任务。《Language Models are Few-Shot Learners》 2020，GPT-3

1750亿参数的超大规模，在如此规模的模型下，Few-Shot能力很突出，甚至One-Shot和Zero-Shot能力也不错。

最大token序列从GPT的512、GPT-2的1024提升到了2048。

《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》 2019， BART基于Tranformer的编码器和解码器架构，双向编码和自回归解码结合。由于同时用到了Transformer的编码器和解码器，所以解码器里也当然包括Transformer中的cross-attension。

预训练：

破坏原始输入（Token Masking、Token Deletion、Text Infilling、Sentence Permutation、Document Rotation）后使用双向模型进行编码，然后使用自回归解码器尝试还原原始输入，loss即解码器输入和原始输入的交叉熵损失。

BART的token长度限制为1024，tokenization方式是BPE。

微调：

BART 的微调方法根据不同的任务采用了不同的策略：

（1）序列分类任务：通过解码器最后一个 token 的隐藏状态进行分类（类似BERT的[CLS]标记输出）。

（2）标记分类任务：通过解码器每个 token 的隐藏状态进行分类。

（3）序列生成任务：通过自回归解码器生成序列，生成任务如文本摘要和问答。

（4）机器翻译任务：使用整个编码器-解码器模型，并通过微调新增源语言编码器来优化翻译能力。

（注：GPT系列、BERT、BART模型没有使用原始Transformer中固定的正弦-余弦位置编码，而是使用可训练的绝对位置编码，即每个位置都被映射为一个固定长度的向量，该向量可以通过训练来学习。）

少长咸集

« 2025年8月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

控制面板

您好，欢迎到访网站！
查看权限

网站分类

最近发表

最新留言

文章归档

标签列表

友情链接

蓝队云提供免费虚拟主机