AI时代评分难题：教师应如何评估学生功课质量｜教研并进

更新时间：12:00 2025-08-02 HKT
发布时间：12:00 2025-08-02 HKT

近年，生成式人工智能（以下简称GenAI）在大学生中得到广泛使用。根据国际平台数字教育委员会（Digital Education Council）2024年针对全球3839名大学生的问卷调查，约86%的学生承认经常使用GenAI工具辅助完成功课，包括起草文稿、语文润色、内容改编和总结等等，并相信这类工具有效帮助他们提升功课质量。随着GenAI进一步受到热捧，其引发的学术诚信争议也日益凸显。然而，现时缺乏精准检测GenAI生成内容的技术，不少学者提出应顺应数码时代人才培养需求，避免采取「一刀切」的方式。许多院校也逐步调整政策，从明言禁止转向引导学生正确使用GenAI，并要求学生在提交功课时明确声明其使用情况。然而，目前相关讨论多聚焦于学生的学术诚信问题，却忽略了教师面临的现实挑战远比单纯判断学生是否作弊复杂得多。

功课以外4大价值准则

教师面对的难题尤其体现在评分实践中。例如，在无GenAI协助下完成功课的学生是否应获得更高的分数？教师应如何区分学生功课中哪部分是由GenAI生成，哪部分是学生的个人见解？又应如何恰当衡量当中的比重？若学生声明在功课中曾使用GenAI，是否意味着他们缺乏独立完成课业的能力？这些问题如今或已成为每位大专教师在评核学生功课质量时必须面对的难题，却鲜少有实证研究去探究教师在当下困境中，是如何评核学生功课的质量，以及在评分中如何考量GenAI的使用。

因此，笔者及其研究团队对33名来自港澳及内地不同院校的教师进行情境访谈。受访者阅读3则与GenAI使用相关的争议性评分情境，并分享其评分决策及评分过程中优先考量的因素。

延伸阅读：整合或融合？从文化平衡看少数族裔移民适应新社会模式｜教研并进

结果显示，教师将4个超越「功课本身」的价值标准纳入到功课评审中，其中包括学生品德、学生能力、师生关系、评分后果。教师之间的评核标准差异显著，甚至多有矛盾。以情境一为例（如甲乙两名同学均交出A水平的功课，惟甲声明完全未使用GenAI辅助，乙则声明并详细解释在不同维度利用GenAI辅助功课），部分教师认为完全不使用任何GenAI工具完成功课的学生更加勤奋独立，因此应给予更高分数；另一部分教师则将诚实纳入评分考量，主张诚实汇报GenAI使用的学生应获同等高分；亦有教师指出，善用GenAI的同学展现出更高数码素养，理应给予更高评价。

此外，部分教师将师生关系放入评分考量，坦言在难以核实学生使用GenAI的情况时，会更倾向平日接触更多的学生，基于其品德表现给予更高分数。

研究结果揭示当下教师评分实践，对评分结果有效性（validity）构成威胁。从评分的有效性而言，分数本应反映学生是否，以及在何种程度，展现功课要求的能力（例如问题解决能力、学术写作能力等），但当前许多教师将诚信、勤奋、师生关系等诸多和功课本身无关的因素掺杂在评分标准中，导致评分结果「失真」。例如，教师认为学生在功课中使用GenAI表明他们不够勤奋，而将其作业评分降低，这会影响评估的有效性（除非勤奋是所评估的能力之一）。

研究发现，许多教师亦并未意识到这些非学术价值标准对其评分决策的影响，在评分标准中也鲜少明确标明，若学生在合理范围内使用GenAI辅助功课将如何影响其得分。

延伸阅读：照顾学习多样性设计融合教育观课记录表｜教研并进

制订评估目标及厘清GenAI作用

基于研究结果，笔者建议教师在人工智能时代评核学生的功课时，应更多反思评分决策能否反映评分的有效性。要确保有效性，就需要制订特定功课的评估目标，并确保实际评估内容与目标一致，而非受无关因素影响。如果评分成绩旨在衡量学生的批判思考能力，教师须要求学生表明他们是在没有GenAI协助的情况下，展现的批判思考，还是在GenAI帮助下所达到的批判思考能力。GenAI在实现预期学习成果方面的作用必须明确界定——是否允许使用、在多大程度上可以使用，以及它与预期学习成果的契合度。教师应向学生明确说明对功课中使用GenAI的态度，以及这可能对评分产生的影响。

GenAI已成为大趋势，在学习评估上，教师应厘清GenAI在实现预期学习成果中的作用，确保评分的准确性及一致性，从而达致公平，避免引发评分过程的信任危机。

本栏欢迎院校学者投稿，分享个人学术见解及研究成果，1400字为限，查询及投稿请电邮︰[email protected]。

文：香港教育大学教育政策与领导学系助理教授骆嘉惠、研究助理尹晓琳

延伸阅读：ShinyTAM数据分析平台助教师善用评估促进教学｜教研并进

↓立即下载星岛头条App↓