人工智能评估量表：教育评估中生成式人工智能伦理嵌入的一种框架。

随着人工智能的不断更新与快速应用，尤其在教育领域的应用，其伦理问题得到越来越多的担忧和重视，因此，社会各界和学界都在持续关心这一问题，有学者聚焦高等教育，提出了人工智能评估量表，作为教育评估中应用生成式人工智能伦理嵌入的一种框架，值得我们参考。该框架从五个等级区分了人工智能应用教育的水平，并强调了伦理问题。

第一级是无人工智能级别。在这一级别，学生不允许以任何形式使用基因人工智能。这适用于评估任务中更可取或必要的是学生完全依靠自己的理解、知识或技能，或者使用基因人工智能不切实际或不可能的情况。尽管这个阶段可能包括提供无技术考试，但它不一定要求考试条件。

例如：无技术的讨论、辩论或其他口头形式的评估；课堂上的无技术创意、个人或小组工作；临时或计划好的口试、问答环节或学生与教育者之间的形成性讨论。建议任何一级活动应在监督下进行，或用于低风险的形成性评估。由于在“无人工智能”条件下允许课外作业存在潜在的公平性问题，因为以英语为母语、具备更高数字素养或能够使用更好（通常更昂贵）生成式人工智能工具的学生，可能会以潜在无法察觉的方式使用生成式人工智能。

第二级是人工智能辅助创意生成和结构搭建。在这个规模级别，学生可以使用生成式人工智能进行头脑风暴、获取反馈和构建想法；然而，最终提交的内容不应包含任何由人工智能直接生成的内容。此级别适用于学生可能在发展想法或改进作品方面需要额外支持的任务，但最终产品必须完全由人类创作。在这个级别使用生成式人工智能工具可能对学生有益，因为这能让他们探索更广泛的想法，并提高作品的深度或最终质量。

二级活动的示例包括：（1）协同头脑风暴：学生可以利用人工智能生成问题的想法或解决方案。然后，这些想法可以在协作环境中由学生讨论、筛选和完善。（2）结构大纲：学生可以使用人工智能创建其作品的结构大纲。（3）研究辅助：人工智能可用于建议主题、兴趣领域或来源（使用联网模型），这些可能对学生的研究有用。

第三级是人工智能辅助编辑。在第三级水平，学生可以使用生成式人工智能来完善、编辑和增强其原创作品的语言或内容。这对非英语母语者或那些语言流利度有问题的人来说可能特别有益。在多模态评估方法中，基因组学工具可能被允许用于支持图像或视频的编辑，但不能用于创作全新的作品。

例如：（1）语法、标点和拼写：学生可以使用人工智能来识别并纠正其作品中的语法、标点、拼写和句法错误。（2）词语选择：人工智能可以建议合适的或同义的术语来替换较为简单的词汇和短语，以帮助理清写作内容。（3）结构编辑：对于那些可能在构建清晰连贯的句子方面有困难的学生，人工智能可以协助改写句子以使其清晰明了，同时不改变原意。（4）视觉编辑：图像生成工具可用于编辑原始图像，例如通过生成式填充和生成式扩展（也称为修复和扩展）等技术。

在这个层面上，要求学生提交他们的原创作品，并将其与人工智能辅助内容一起提交以作比较，从而确保他们贡献内容的真实性。将人工智能等级设定为3级可以使传统的评估任务适用于包含人工智能的评估环境，但这更多的是一种过渡性方法，可以在评估任务能够更全面地调整以适应生成式人工智能工具使用之前使用。因此，我们建议在高等院校整合生成式人工智能工具的过程中，将此等级作为一个过渡点来使用。

第四级是人工智能任务完成人类评估。在这个级别，要求或期望学生使用生成式人工智能来完成任务的特定部分，但重点仍然是对人工智能生成内容的人类评估和解读。学生必须批判性地参与并评估他们所创建的人工智能输出内容，并评估其相关性、准确性和适当性。这个级别鼓励更深入地理解生成式人工智能工具的能力和局限性，超越基本的文本生成或编辑。例如：

（1）直接人工智能生成：学生可能被要求使用GenAl针对特定主题、话题或提示生成内容。这可能包括生成数据集、社交媒体帖子或创作叙述性内容。学生将以此为基础创作一件原创作品，在该作品中他们可能会提交生成的内容和自己的作品。

（2）比较分析：在人工智能生成内容之后，学生可能被要求将其与同一主题下人类创作的内容进行比较，识别差异、相似之处和分歧之处。这包括与人类生成内容的比较。

（3）批判性评估：学生生成内容的目的是专门批判输出内容，并对其选择、偏见和潜在的不准确性提出质疑。

（4）整合：学生可能被要求将人工智能生成的内容整合到一个更大的项目中，以确保连贯性并与更广泛的目标保持一致。这可能是某个行业项目的一部分，也可能是某个真实评估任务的一部分。

第四级引入了人工智能与学生输入之间更为复杂的相互作用。在这里，期望学生对人工智能的输出进行批判性参与。这一级别对于人工智能和人类智能相互作用的顺序不做规定；它允许学生在分析后可能可以使用生成式人工智能来辅助重写过程，也可能不可以，但任何生成式人工智能的内容都必须适当引用，以确保透明度。这种灵活性是有意为之的，因为学术工作的创造性和迭代过程往往不遵循线性路径。例如，他们可能会进行自己的分析，然后使用生成式人工智能工具对输出进行完善或重制。深入参与和评估任何生成式人工智能创建的内容是定义人工智能学术能力标准第四级的一个重要元素。

第五级是完全人工智能。在最后一个级别，学生可以根据自己的判断或教师的建议在整个任务中使用人工智能。这一级别的评估可能会指定或推荐使用的生成式人工智能工具，或者允许学生自行选择。

第五级可能用于需要将生成式人工智能工具作为实现学习成果的一部分的任务，或者当所评估的技能和知识可以不受人工智能使用的影响进行测试时。这一级别还旨在允许将生成式人工智能作为一种协作和创造性工具进行探索，并反映了这些技术在教育之外的新闻和营销等领域中的使用方式。人工智能生成的内容使用日益增多，但仍需要人工编辑监督。

示例任务包括：（1）共同创作：给学生提供宽泛的主题或参数范围来完成任务，然后他们利用各种不同的工具和模式对生成式人工智能（GenAI）的内容进行积极迭代。GenAI探索：学生使用各种GenAI工具探索广泛的思想、风格或解决方案，探究技术在特定领域中的伦理和实际影响。（2）实时反馈循环：当学生进行某项任务时，可以持续使用GenAI调整自己的工作，从而塑造最终成果。（3）GenAI产品：学生在整个过程中使用GenAI创建成品或作品，例如完成的软件或完整的艺术作品。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

HQY

要和谐，要有爱~

人工智能评估量表：教育评估中生成式人工智能伦理嵌入的一种框架。

hqy 发表于2025-02-27 03:52:13 浏览13 评论0百度已收录

少长咸集