×

ChatGPT超参数设置技巧

hqy hqy 发表于2025-04-12 23:54:43 浏览5 评论0百度已收录

抢沙发发表评论

原作者 Chase Curtis @realchasecurtis

放在这里,方便查看。

超参数(Hyperparameter)是可调整的设置,用于确定语言模型在训练和推理期间的行为。

更改这些超参数会影响模型输出的质量和多样性,并且对于针对特定任务或应用程序微调模型很有用。

以下超参数在 GPT-3、GPT-3.5 和 GPT-4 中是可调整的:

→ 温度 [默认值:0.7]

把它想象成你希望你的 AI 朋友在谈话时表现得多么“狂野”或“温顺”。

较高的温度使 AI 更具随机性和创造性,而较低的温度使其更加专注和明智。

示例提示:“晴天我应该做什么?”

温度:2.0(高)

假设回应:“骑着巨大的冰淇淋甜筒去月球,和外星人一起野餐!”

说明:由于高温,AI 想出了一个非常随机和有创意的想法。

温度:0.5(低)

假设回答:“你可以出去和你的朋友一起玩,骑自行车,或者在公园野餐。”

说明:由于温度低,AI 给出了更专注和更明智的答案。

可接受的值:0.0001 到无穷大

→ 前 K [默认值:40]

想象一下,您的 AI 朋友有一个可以用来回复的单词列表。 Top K 告诉它可以从该列表的顶部选择多少个单词。

较小的 Top K 使 AI 更加专注,而较大的 Top K 则让它更加随机。

示例提示:“你最喜欢的动物是什么?”

前 K:5(低)

假设性回答:“我最喜欢的动物是狗。”

解释:人工智能从一组较小的单词中进行选择,因此答案更加集中和常见。

前 K:50(高)

假设性回答:“我最喜欢的动物是侏儒狨猴。”

解释:AI 从更大的单词集中进行选择,使答案更加多样化且不常见。

可接受的值:0 到无穷大

→ 顶部 P [默认值:0.9]

Top P 就像是你的 AI 朋友的话的过滤器。它只选择被选择的组合机会小于或等于 Top P 值的单词。

较高的 Top P 允许更多变化,而较低的 Top P 使 AI 更专注。

示例提示:“你最喜欢在公园做什么?”

最高P:0.95(高)

假设回应:“我喜欢喂鸭子,探索隐藏的路径,并在岩石下寻找不寻常的昆虫!”

解释:由于 Top P 值较高,AI 的答案更加多样化。

最高 P:0.5(低)

假设回答:“我喜欢荡秋千。”

解释:由于 Top P 值较低,AI 给出了更集中和普遍的答案。

可接受的值:0 到 1

→ 重复惩罚 [默认值:1.0]

想象一下,您的 AI 朋友说了很多话,但您不希望它一遍又一遍地说同样的话。重复惩罚可以帮助你。

较高的惩罚使 AI 避免重复单词,而较低的惩罚让 AI 更频繁地重复单词。

示例提示:“给我讲一个关于猫的故事。”

重复罚分:1.0(低)

假设回答:“有一只猫。猫毛茸茸的。猫喜欢追尾巴。猫很开心。”

解释:由于重复惩罚较低,AI 经常重复“猫”这个词。

重复罚分:2.0(高)

假设回答:“从前,一只毛茸茸的猫科动物住在一间舒适的小房子里。这只毛茸茸的动物喜欢追逐自己的尾巴,过着快乐的生活。”

解释:由于重复惩罚高,AI 避免重复“猫”这个词并使用不同的词来描述它。

可接受的值:-无穷大到无穷大

→ 长度惩罚 [默认值:1.0]

Length Penalty 就像一个指南,可以帮助您的 AI 朋友让它的答案变长或变短。

更高的惩罚使 AI 给出更短的答案,而更低的惩罚让它给出更长的答案。

示例提示:“你喜欢夏天的什么?”

长度惩罚:2.0(高)

假设性回应:“阳光。”

解释:由于高长度惩罚,AI 给出了一个简短的答案。

长度惩罚:0.5(低)

假设回答:“我喜欢夏天,因为温暖的阳光、漫长的白天、游泳和与朋友玩耍等户外活动,以及美味的冰淇淋!”

解释:由于长度惩罚较低,AI 给出了更长、更详细的答案。

可接受的值:0 到无穷大

→ Num 返回序列 [默认值:1]

想象一下,您希望您的 AI 朋友就同一件事给您不同的想法。

Num Return Sequences 告诉您的 AI 朋友要给您多少个不同的答案。

示例提示:“下雨天我可以做什么?”

返回序列数:1(低)

假设性回应:“你可以呆在里面读一本好书。”

解释:AI 只给出一个答案,因为你只问了一个。

返回序列数:3(高)

假设的回应:

a) “你可以呆在里面读一本好书。”

b) “你可以看电影或玩电子游戏。”

c) “你可以尝试烘烤一些饼干或制作工艺品。”

解释:AI 给出了三个不同的答案,因为你要求更多的想法。

可接受的值:1 到 10

→ 提前停止 [默认值:FALSE]

想象一下,您的 AI 朋友正在给您讲一个故事,但您不希望它一直讲下去。 Early Stopping 就像一个信号,告诉你的 AI 朋友什么时候停止说话。

如果您设置提前停止条件,AI 将在到达该点后停止。

示例提示:“给我讲一个关于龙的故事。”

提前停止:真;生成“结束”一词时停止。

假设回应:“从前有一条龙,住在山洞里。龙喜欢在天上飞翔,喜欢和其他动物交朋友。有一天,龙遇到了一只独角兽,他们成了最好的朋友。结束。”

解释:一旦“结束”这个词产生,人工智能就会停止故事。

注意:Early Stopping是一个停止条件,不是一个有高低权重的参数。

可接受的值:False // True; [插入指定条件]

→ 无重复 Ngram 大小 [默认值:0]

想象一下,您的 AI 朋友有时会一遍又一遍地说同一组单词。

No Repeat Ngram Size 告诉你的 AI 朋友不要在一定大小(单词数量)内多次使用同一组单词。

示例提示:“告诉我你最喜欢的运动。”

无重复 Ngram 大小:2(低)

假设回答:“我喜欢踢足球。足球是一项有趣的运动,包括跑步、踢球和进球。全世界都在踢足球。”

解释:AI 重复单词“soccer”是因为 No Repeat Ngram Size 很低 (2),所以它只会避免重复两个单词组。

无重复 Ngram 大小:4(高)

假设回答:“我最喜欢的运动是足球。这是一项激动人心的运动,包括跑步、踢球和进球。全世界的人都喜欢这项运动。”

解释:人工智能避免以四个词为一组重复“足球”一词,因此它使用不同的词来描述这项运动。

可接受的值:0 到无穷大

以下示例使用具有不同超参数条件的不同提示 [复制/粘贴以供您自己研究]:

→ 例子一

迅速的:

有哪些适合初学者阅读的好书?

超参数:

温度:0.5

最高P:0.5

前 K:30

重复罚分:1.0

长度惩罚:1.0

返回序列数:1

提前停止:真;当生成短语“Better start reading”时停止。

无重复 N-gram 大小:4

→ 例子二

迅速的:

有哪些简单的晚餐食谱?

超参数:

温度:0.7

最高P:0.8

前 K:50

重复罚分:1.5

长度惩罚:1.2

返回序列数:1

提前停止:真;当生成短语“Enjoy your meal”时停止。

无重复 N-gram 大小:3

→ 例三

迅速的:

提高生产力的有效方法有哪些?

超参数:

温度:0.5

最高P:0.9

前 K:30

重复罚分:1.0

长度惩罚:1.0

返回序列数:1

提前停止:真;当生成短语“Hope this helps”时停止。

无重复 N-gram 大小:2

→ 例四

迅速的:

周末有什么好玩的活动?

超参数:

温度:0.9

最高P:0.7

前 K:20

重复罚分:1.2

长度惩罚:1.3

返回序列数:1

提前停止:真;当生成短语“周末愉快”时停止。

无重复 N-gram 大小:4

→ 例子五

迅速的:

保持动力的一些技巧是什么?

超参数:

温度:0.5

最高P:0.8

前 K:40

重复罚分:1.0

长度惩罚:1.0

返回序列数:1

提前停止:真;当生成短语“This is Sparta”时停止。

无重复 N-gram 大小:2