AI時代評分難題:教師應如何評估學生功課質量|教研並進

更新時間:12:00 2025-08-02 HKT
發佈時間:12:00 2025-08-02 HKT

近年,生成式人工智能(以下簡稱GenAI)在大學生中得到廣泛使用。根據國際平台數字教育委員會(Digital Education Council)2024年針對全球3839名大學生的問卷調查,約86%的學生承認經常使用GenAI工具輔助完成功課,包括起草文稿、語文潤色、內容改編和總結等等,並相信這類工具有效幫助他們提升功課質量。隨着GenAI進一步受到熱捧,其引發的學術誠信爭議也日益凸顯。然而,現時缺乏精準檢測GenAI生成內容的技術,不少學者提出應順應數碼時代人才培養需求,避免採取「一刀切」的方式。許多院校也逐步調整政策,從明言禁止轉向引導學生正確使用GenAI,並要求學生在提交功課時明確聲明其使用情況。然而,目前相關討論多聚焦於學生的學術誠信問題,卻忽略了教師面臨的現實挑戰遠比單純判斷學生是否作弊複雜得多。

功課以外4大價值準則

教師面對的難題尤其體現在評分實踐中。例如,在無GenAI協助下完成功課的學生是否應獲得更高的分數?教師應如何區分學生功課中哪部分是由GenAI生成,哪部分是學生的個人見解?又應如何恰當衡量當中的比重?若學生聲明在功課中曾使用GenAI,是否意味着他們缺乏獨立完成課業的能力?這些問題如今或已成為每位大專教師在評核學生功課質量時必須面對的難題,卻鮮少有實證研究去探究教師在當下困境中,是如何評核學生功課的質量,以及在評分中如何考量GenAI的使用。

因此,筆者及其研究團隊對33名來自港澳及內地不同院校的教師進行情境訪談。受訪者閱讀3則與GenAI使用相關的爭議性評分情境,並分享其評分決策及評分過程中優先考量的因素。

延伸閱讀:整合或融合?從文化平衡看少數族裔移民適應新社會模式|教研並進

結果顯示,教師將4個超越「功課本身」的價值標準納入到功課評審中,其中包括學生品德、學生能力、師生關係、評分後果。教師之間的評核標準差異顯著,甚至多有矛盾。以情境一為例(如甲乙兩名同學均交出A水平的功課,惟甲聲明完全未使用GenAI輔助,乙則聲明並詳細解釋在不同維度利用GenAI輔助功課),部分教師認為完全不使用任何GenAI工具完成功課的學生更加勤奮獨立,因此應給予更高分數;另一部分教師則將誠實納入評分考量,主張誠實匯報GenAI使用的學生應獲同等高分;亦有教師指出,善用GenAI的同學展現出更高數碼素養,理應給予更高評價。

此外,部分教師將師生關係放入評分考量,坦言在難以核實學生使用GenAI的情況時,會更傾向平日接觸更多的學生,基於其品德表現給予更高分數。

研究結果揭示當下教師評分實踐,對評分結果有效性(validity)構成威脅。從評分的有效性而言,分數本應反映學生是否,以及在何種程度,展現功課要求的能力(例如問題解決能力、學術寫作能力等),但當前許多教師將誠信、勤奮、師生關係等諸多和功課本身無關的因素摻雜在評分標準中,導致評分結果「失真」。例如,教師認為學生在功課中使用GenAI表明他們不夠勤奮,而將其作業評分降低,這會影響評估的有效性(除非勤奮是所評估的能力之一)。

研究發現,許多教師亦並未意識到這些非學術價值標準對其評分決策的影響,在評分標準中也鮮少明確標明,若學生在合理範圍內使用GenAI輔助功課將如何影響其得分。

延伸閱讀:照顧學習多樣性 設計融合教育觀課記錄表|教研並進

制訂評估目標及釐清GenAI作用

基於研究結果,筆者建議教師在人工智能時代評核學生的功課時,應更多反思評分決策能否反映評分的有效性。要確保有效性,就需要制訂特定功課的評估目標,並確保實際評估內容與目標一致,而非受無關因素影響。如果評分成績旨在衡量學生的批判思考能力,教師須要求學生表明他們是在沒有GenAI協助的情況下,展現的批判思考,還是在GenAI幫助下所達到的批判思考能力。GenAI在實現預期學習成果方面的作用必須明確界定——是否允許使用、在多大程度上可以使用,以及它與預期學習成果的契合度。教師應向學生明確說明對功課中使用GenAI的態度,以及這可能對評分產生的影響。

GenAI已成為大趨勢,在學習評估上,教師應釐清GenAI在實現預期學習成果中的作用,確保評分的準確性及一致性,從而達致公平,避免引發評分過程的信任危機。

本欄歡迎院校學者投稿,分享個人學術見解及研究成果,1400字為限,查詢及投稿請電郵︰[email protected]

文:香港教育大學教育政策與領導學系助理教授駱嘉惠、研究助理尹曉琳

延伸閱讀:ShinyTAM數據分析平台 助教師善用評估促進教學|教研並進