×

GPT-2&GPT-3&BART论文阅读笔记

hqy hqy 发表于2025-02-28 14:25:20 浏览13 评论0百度已收录

抢沙发发表评论

《language models are unsupervised multitask learners》 2019,GPT-2GPT、BERT需要采用监督微调的方法来适应特定的下游任务,GPT-2希望可以通过更大的模型,通过无监督训练之后,可以zero-shot完成多种下游任务。《Language Models are Few-Shot Learners》 2020,GPT-3

1750亿参数的超大规模,在如此规模的模型下,Few-Shot能力很突出,甚至One-Shot和Zero-Shot能力也不错。

最大token序列从GPT的512、GPT-2的1024提升到了2048。

 《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》 2019, BART基于Tranformer的编码器和解码器架构,双向编码和自回归解码结合。由于同时用到了Transformer的编码器和解码器,所以解码器里也当然包括Transformer中的cross-attension。

预训练:

破坏原始输入(Token Masking、Token Deletion、Text Infilling、Sentence Permutation、Document Rotation)后使用双向模型进行编码,然后使用自回归解码器尝试还原原始输入,loss即解码器输入和原始输入的交叉熵损失。

BART的token长度限制为1024,tokenization方式是BPE。

微调:

BART 的微调方法根据不同的任务采用了不同的策略:

(1)序列分类任务:通过解码器最后一个 token 的隐藏状态进行分类(类似BERT的[CLS]标记输出)。

(2)标记分类任务:通过解码器每个 token 的隐藏状态进行分类。

(3)序列生成任务:通过自回归解码器生成序列,生成任务如文本摘要和问答。

(4)机器翻译任务:使用整个编码器-解码器模型,并通过微调新增源语言编码器来优化翻译能力。

(注:GPT系列、BERT、BART模型没有使用原始Transformer中固定的正弦-余弦位置编码,而是使用可训练的绝对位置编码,即每个位置都被映射为一个固定长度的向量,该向量可以通过训练来学习。)