原作者 Chase Curtis @realchasecurtis
放在这里,方便查看。
超参数(Hyperparameter)是可调整的设置,用于确定语言模型在训练和推理期间的行为。
更改这些超参数会影响模型输出的质量和多样性,并且对于针对特定任务或应用程序微调模型很有用。
以下超参数在 GPT-3、GPT-3.5 和 GPT-4 中是可调整的:
→ 温度 [默认值:0.7]
把它想象成你希望你的 AI 朋友在谈话时表现得多么“狂野”或“温顺”。
较高的温度使 AI 更具随机性和创造性,而较低的温度使其更加专注和明智。
示例提示:“晴天我应该做什么?”
温度:2.0(高)
假设回应:“骑着巨大的冰淇淋甜筒去月球,和外星人一起野餐!”
说明:由于高温,AI 想出了一个非常随机和有创意的想法。
温度:0.5(低)
假设回答:“你可以出去和你的朋友一起玩,骑自行车,或者在公园野餐。”
说明:由于温度低,AI 给出了更专注和更明智的答案。
可接受的值:0.0001 到无穷大
→ 前 K [默认值:40]
想象一下,您的 AI 朋友有一个可以用来回复的单词列表。 Top K 告诉它可以从该列表的顶部选择多少个单词。
较小的 Top K 使 AI 更加专注,而较大的 Top K 则让它更加随机。
示例提示:“你最喜欢的动物是什么?”
前 K:5(低)
假设性回答:“我最喜欢的动物是狗。”
解释:人工智能从一组较小的单词中进行选择,因此答案更加集中和常见。
前 K:50(高)
假设性回答:“我最喜欢的动物是侏儒狨猴。”
解释:AI 从更大的单词集中进行选择,使答案更加多样化且不常见。
可接受的值:0 到无穷大
→ 顶部 P [默认值:0.9]
Top P 就像是你的 AI 朋友的话的过滤器。它只选择被选择的组合机会小于或等于 Top P 值的单词。
较高的 Top P 允许更多变化,而较低的 Top P 使 AI 更专注。
示例提示:“你最喜欢在公园做什么?”
最高P:0.95(高)
假设回应:“我喜欢喂鸭子,探索隐藏的路径,并在岩石下寻找不寻常的昆虫!”
解释:由于 Top P 值较高,AI 的答案更加多样化。
最高 P:0.5(低)
假设回答:“我喜欢荡秋千。”
解释:由于 Top P 值较低,AI 给出了更集中和普遍的答案。
可接受的值:0 到 1
→ 重复惩罚 [默认值:1.0]
想象一下,您的 AI 朋友说了很多话,但您不希望它一遍又一遍地说同样的话。重复惩罚可以帮助你。
较高的惩罚使 AI 避免重复单词,而较低的惩罚让 AI 更频繁地重复单词。
示例提示:“给我讲一个关于猫的故事。”
重复罚分:1.0(低)
假设回答:“有一只猫。猫毛茸茸的。猫喜欢追尾巴。猫很开心。”
解释:由于重复惩罚较低,AI 经常重复“猫”这个词。
重复罚分:2.0(高)
假设回答:“从前,一只毛茸茸的猫科动物住在一间舒适的小房子里。这只毛茸茸的动物喜欢追逐自己的尾巴,过着快乐的生活。”
解释:由于重复惩罚高,AI 避免重复“猫”这个词并使用不同的词来描述它。
可接受的值:-无穷大到无穷大
→ 长度惩罚 [默认值:1.0]
Length Penalty 就像一个指南,可以帮助您的 AI 朋友让它的答案变长或变短。
更高的惩罚使 AI 给出更短的答案,而更低的惩罚让它给出更长的答案。
示例提示:“你喜欢夏天的什么?”
长度惩罚:2.0(高)
假设性回应:“阳光。”
解释:由于高长度惩罚,AI 给出了一个简短的答案。
长度惩罚:0.5(低)
假设回答:“我喜欢夏天,因为温暖的阳光、漫长的白天、游泳和与朋友玩耍等户外活动,以及美味的冰淇淋!”
解释:由于长度惩罚较低,AI 给出了更长、更详细的答案。
可接受的值:0 到无穷大
→ Num 返回序列 [默认值:1]
想象一下,您希望您的 AI 朋友就同一件事给您不同的想法。
Num Return Sequences 告诉您的 AI 朋友要给您多少个不同的答案。
示例提示:“下雨天我可以做什么?”
返回序列数:1(低)
假设性回应:“你可以呆在里面读一本好书。”
解释:AI 只给出一个答案,因为你只问了一个。
返回序列数:3(高)
假设的回应:
a) “你可以呆在里面读一本好书。”
b) “你可以看电影或玩电子游戏。”
c) “你可以尝试烘烤一些饼干或制作工艺品。”
解释:AI 给出了三个不同的答案,因为你要求更多的想法。
可接受的值:1 到 10
→ 提前停止 [默认值:FALSE]
想象一下,您的 AI 朋友正在给您讲一个故事,但您不希望它一直讲下去。 Early Stopping 就像一个信号,告诉你的 AI 朋友什么时候停止说话。
如果您设置提前停止条件,AI 将在到达该点后停止。
示例提示:“给我讲一个关于龙的故事。”
提前停止:真;生成“结束”一词时停止。
假设回应:“从前有一条龙,住在山洞里。龙喜欢在天上飞翔,喜欢和其他动物交朋友。有一天,龙遇到了一只独角兽,他们成了最好的朋友。结束。”
解释:一旦“结束”这个词产生,人工智能就会停止故事。
注意:Early Stopping是一个停止条件,不是一个有高低权重的参数。
可接受的值:False // True; [插入指定条件]
→ 无重复 Ngram 大小 [默认值:0]
想象一下,您的 AI 朋友有时会一遍又一遍地说同一组单词。
No Repeat Ngram Size 告诉你的 AI 朋友不要在一定大小(单词数量)内多次使用同一组单词。
示例提示:“告诉我你最喜欢的运动。”
无重复 Ngram 大小:2(低)
假设回答:“我喜欢踢足球。足球是一项有趣的运动,包括跑步、踢球和进球。全世界都在踢足球。”
解释:AI 重复单词“soccer”是因为 No Repeat Ngram Size 很低 (2),所以它只会避免重复两个单词组。
无重复 Ngram 大小:4(高)
假设回答:“我最喜欢的运动是足球。这是一项激动人心的运动,包括跑步、踢球和进球。全世界的人都喜欢这项运动。”
解释:人工智能避免以四个词为一组重复“足球”一词,因此它使用不同的词来描述这项运动。
可接受的值:0 到无穷大
以下示例使用具有不同超参数条件的不同提示 [复制/粘贴以供您自己研究]:
→ 例子一
迅速的:
有哪些适合初学者阅读的好书?
超参数:
温度:0.5
最高P:0.5
前 K:30
重复罚分:1.0
长度惩罚:1.0
返回序列数:1
提前停止:真;当生成短语“Better start reading”时停止。
无重复 N-gram 大小:4
→ 例子二
迅速的:
有哪些简单的晚餐食谱?
超参数:
温度:0.7
最高P:0.8
前 K:50
重复罚分:1.5
长度惩罚:1.2
返回序列数:1
提前停止:真;当生成短语“Enjoy your meal”时停止。
无重复 N-gram 大小:3
→ 例三
迅速的:
提高生产力的有效方法有哪些?
超参数:
温度:0.5
最高P:0.9
前 K:30
重复罚分:1.0
长度惩罚:1.0
返回序列数:1
提前停止:真;当生成短语“Hope this helps”时停止。
无重复 N-gram 大小:2
→ 例四
迅速的:
周末有什么好玩的活动?
超参数:
温度:0.9
最高P:0.7
前 K:20
重复罚分:1.2
长度惩罚:1.3
返回序列数:1
提前停止:真;当生成短语“周末愉快”时停止。
无重复 N-gram 大小:4
→ 例子五
迅速的:
保持动力的一些技巧是什么?
超参数:
温度:0.5
最高P:0.8
前 K:40
重复罚分:1.0
长度惩罚:1.0
返回序列数:1
提前停止:真;当生成短语“This is Sparta”时停止。
无重复 N-gram 大小:2