新一代数字技术何以赋能教育评价改革？

发布部门: 智慧教学

发布时间: 2023-11-29

浏览次数: 25

中共中央、国务院印发的《深化新时代教育评价改革总体方案》明确指出，“创新评价工具，利用人工智能、大数据等现代信息技术，探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价”。近年来，随着人工智能、大数据、区块链等新一代数字技术的教育应用，在实践探索中形成了无感式数据采集、多模态数据融合处理、智能化诊断分析、即时性精准反馈等新样态，为破解教育评价难题提供了新的可能。在教育数字化转型的背景下，如何发挥新一代数字技术优势，推动教育评价理念与方式的“迭代升级”，切实扭转不科学的教育评价导向，为教育高质量发展保驾护航，是一个必须答好的时代课题。

一、数字技术是新时代教育评价的变革因子

回顾历史，教育评价经历了漫长的发展过程。早在西周时期，我国就建立了较为完整的考试制度。《学记》中记载的“比年入学，中年考校”，就是每隔一年要依据相应标准对学生的学业和品行进行考查。隋朝创立了分科取士的科举制，对社会发展产生了长远而深刻的影响。随着现代教育制度的建立，美国教育家泰勒提出了目标评价模式，将教育目标转化为可测量的行为目标，依据行为目标编制课程教案、组织教学活动、评估教学成效，由此引发了标准化考试在全球教育领域的广泛盛行。标准化考试操作性强、便于大规模实施，而且能够有效克服主观偏差，直到今天仍然是教育评价的首选方式，试卷、测验等评价工具依旧发挥着重要作用，几乎给所有学生都留下了难以忘却的复杂印象。

随着新一代数字技术的迅猛发展，人们可以利用大数据技术，采集过程性学习数据，全面展现学生的知识结构、能力表现和内在潜能，为每个学生提供精细的“数字画像”；利用人工智能技术，创设模拟仿真测验、虚拟任务场景、协作学习环境等，在真实任务情境中考查学生的问题解决能力，破除唯分数的顽瘴痼疾；利用区块链技术，建立分布式学习档案，认证学生的多样化学习成果，有效防止数据被篡改，助力解决学生综合素质评价存在的信任问题；利用可穿戴智能设备，实时采集运动与健康数据，及时发现学生在体质健康、运动技能等方面存在的问题，提供个性化的改进方案，实现伴随成长全过程的诊断反馈。可以说，数字技术正在触发一场教育评价的深刻变革，从根本上改变传统评价过于强调甄别与选拔的现状，使评价重点从“容易测量的技能”扩展到“难以测量的素养”，更加关注“软素养”、高级认知技能和非认知学习成果，促进学生全面发展[1]。

二、教育评价数字化面临的主要矛盾

目前，人们越来越重视数字技术对教育评价改革的重要作用，推进教育评价数字化转型，在实践探索中形成了自适应测验、电子档案袋、多模态学习分析、学生数字画像、基于大数据的课堂观察等新型评价方式，很大程度上改变了传统评价面貌。但是，教育评价数字化大多停留于浅层次应用，尚未真正突破教育评价的痛点难点问题，尤其是新技术与新理念尚未有效衔接、评价内容过度关注知识获得、评价功能存在错位等，制约着教育评价改革的全面深化和整体转型。

第一，“新技术”与“旧标准”之间的矛盾。评价标准具有重要的导向作用。如果用“新技术”来评“旧标准”，数字技术可能无法成为教育评价改革的利器，反倒还会强化传统教育评价的弊端。遗憾的是，一些学校引入数字技术后，并未对评价标准进行相应调整，仍然以知识性考查为主，把过去的纸笔测试变成现在的“自动化测试”，用技术更加高效地开展考试排名，很可能进一步助长唯分数、唯升学的不良倾向。所以，教育评价数字化转型的关键不是技术的“数字化”，而是标准的“转型”，改变以知识为中心的评价导向，合理减少知识习得类指标，增加能力素养类指标，突出强调学生整合运用知识创造性解决复杂问题的能力，着力发展学生的高阶思维和创新能力，让数字技术真正成为构建新型教育评价体系的“催化剂”。

第二，“单向度”与“多模态”之间的矛盾。传统教育评价存在“分数至上”“考试第一”等单向度风险，这主要是受到社会功利化、教育短视化的影响，但也与评价手段不先进、评价方法不完善有着密切关系。目前，我们还缺乏有效的评价方法和手段，准确衡量学生综合素质发展情况，特别是如何评价学生的品格、心理和个性，一直是公认的难点。现在，人工智能领域的深度学习算法提供了新思路。斯坦福大学实践证明，只需要采集用户的227个点赞行为，就能大致判断出用户的性格特征。这表明，通过网络痕迹可以对学生的人格、兴趣、心理健康等进行预估，为全方位评价学生提供了借鉴。所以，教育评价要善于利用技术优势，在教育教学活动中采集多模态数据，既可以是总结性测试的考试分数，也可以是记录学习过程的文字、图片、音频、视频等学习档案，还可以是反映学生能力的调查报告、手工作品、活动总结等学习成果，甚至可以是学生网络行为数据、参访场馆数据等，全面展现思想道德、身心发展、学业水平、审美情操、劳动技能等方面情况，促进学生德智体美劳全面发展。

第三，“高赋能”与“高负担”之间的矛盾。教育评价数字化的核心是技术赋能，利用数字技术优化评价流程，减轻师生负担，提高评价效能。但在实践中却可能会不同程度增加教师负担，把新技术异化成随时随地下任务、发指令、填表格、报数据的工具，导致许多教师望而却步，不愿再开展教育评价数字化的探索。所以，教育评价数字化一定要平衡好“赋能”与“负担”之间的关系，评价指标设计尽量精简，追求用最少的指标实现最大的效能，能够根据不同评价场景共享使用和自动调用数据，为教师减轻各种机械性、重复性、事务性工作负担。

第四，“技术性”与“伦理性”之间的矛盾。教育评价数字化不是为了技术而用技术，也不是技术用得越多越好，更不能把技术变成“一举一动皆量化打分”的师生监控器。有媒体调查发现，一款覆盖3000万学生的教育类App记录着学生在校的几乎全部行为表现，并通过加减分给学生排名——不午睡，扣分；坐姿不正确，扣分；周一不穿礼仪服，扣分……甚至有学校将App上的评分排名与加入少先队、评选三好学生等评优评先挂钩。由于智能设备和视频监控的滥用，学校可能成为“超级全景数据监狱”，对评价对象进行全方位监视，其身份特征、课堂表现、学习兴趣和偏好等个人信息变得无“私”可“隐”，进一步加大了算法偏见和信息茧房的风险。随着“量化一切”思想的盛行，评价对象不断“被注视、被观察、被详细描述、被一种不间断的书写逐日跟踪”，人的生命价值被禁锢在数据枷锁之中，逐渐矮化为数据驯顺的肉身[2]。所以，教育评价数字化一定要坚守科技伦理底线，正确处理人机关系，充分尊重和保护师生隐私权和信息知情权，增强评价算法的透明度，构建可信的人工智能教育体系，保障师生拥有充分自主决策权。

三、数字技术赋能教育评价的路径选择

教育评价改革是一项世界性、历史性、实践性难题，数字技术为全面深化评价改革提供了重要机遇。我们要牢牢把握机遇，积极应对挑战，厘清发展路径，推进教育评价数字化转型，提高教育治理能力和水平，支撑教育强国建设。

第一，构建动态更新的教育评价模型。教育评价数字化要从简单叠加的指标思维转向系统完整的模型思维，建立数据变量与理论指标的映射关系，将“冷冰冰”的数据转变成能够反映“活生生”人的综合表现。首先，跳出教育看教育，整合教育学、心理学、计算机科学等专业力量，聚焦思想品德、学业水平、身心健康、艺术素养、社会实践等维度，形成一套具有广泛共识度、覆盖度的评价指标理论体系。然后，瞄准未来人才培养目标，依据评价指标理论体系，细化形成数据观测点和采集点，利用数字技术将专家的理论知识与数据的量化表征关联起来，构建可解释、可操作的教育评价初始模型。最后，依托人工神经网络、人类反馈强化学习、关联规则学习、生成对抗网络等算法模型，从大量数据分析中提取有效的评价规则，开展智能精准的指标筛选和权重计算，推动评价模型从预设框架迈向动态体系，形成开放式、动态化、自适应的教育评价模型。这种动态模型不是封闭的，而是在使用过程中不断改进、优化、迭代升级，呈现出“越用越精准、越用越智能”的特征，能够适应各类复杂的教育教学场景，将千人一面的标准化考试转变为千人千面的个性化诊断。比如，在数字化学习过程中，采用智能技术采集学生的学习时间、学习习惯、学习风格、学习方式等个人信息，根据学生一段时间的学习表现，制订个性化评价方案和可视化反馈报告，从而为学生规划出最优化学习路径并提供适应性学习服务。

第二，实施全场景、多模态的教育数据采集。教育评价数字化将从散点式的成绩记录转向全景式的数据采集，通过学生学习、教师教学、社会生活等方面的大数据，实现对学生成长的横纵向追踪和全过程动态分析。一方面，充分发挥智能终端、可穿戴设备、智慧教育平台等技术优势，在真实情境下开展伴随式数据采集，除采集文字信息的单一模态数据之外，还能采集音频、视频、心理指标、生理信号等多模态数据，全方位呈现学生成长过程中的关键时刻和典型行为。比如，有学者创建了一个计算机三人协作编程任务来考查受测者的协作问题解决能力。为了全面捕获可反映受测者任务表现的相关信息，他们采用视频记录法和平台自动记录法，综合采集了受测者的面部表情数据、语音讨论数据和计算机编程界面变化数据[3]。另一方面，将学生视为“社会生活人”，而非“学校教育人”，把固定的教育场景变成泛在的社会场景，着力加强跨部门数据汇聚，从全社会各领域获取学生成长相关数据，把全社会都变成教育评价的数据源，以家校社协同的方式采集学生睡眠时间、运动频率、课外劳动时长、社会实践次数等数据，共同推动德智体美劳全面培养的学生综合素质评价有效落地。

第三，打造灵活弹性、人机协同的教育评价格局。教育评价数字化是一项复杂的系统工程，更加需要学校、家庭、社会的协同参与，每个参与者既是评价主体，也是评价对象。同时，数字技术发展使人机协同评价成为现实。为此，要充分激发多元评价主体的参与积极性，探索人机协同的有效模式，共同构建灵活弹性的教育评价体系。首先，坚持一数一源、一源多用的原则，建立统一的数据标准，加强不同平台系统之间的衔接，保障数据内外部使用和调用交换的一致性，避免出现重复收集数据和“数据孤岛”现象。然后，加强数据自动化采集分析，利用文本识别、图像识别、语音识别等技术读取传统媒介信息，让传统媒介成为评价数据的重要来源，同步提供自动化诊断反馈和评价建议，有效减轻教师负担。最后，探索实施数字认证，创建微证书、数字徽章、电子文凭等，推动校际课程互选、标准互通、学分互认、评价互信，结合校内外数据进行关联分析和多重校准，撬动优质教育资源共享，凝聚家校社协同育人合力，构建泛在终身学习体系。

本文系中国教育科学研究院基本科研业务费“面向教育数字化转型的学习评价创新研究”（课题编号：GYI2023015）的研究成果

注释：

[1] 曹培杰. 人工智能教育变革的三重境界[J]. 教育研究，2020（2）：143-150.

[2] 鹿星南，高雪薇. 人工智能赋能教育评价改革：发展态势、风险检视与消解对策[J]. 中国教育学刊，2023（2）：48-54.

[3] 郑勤华，陈丽，柴唤友等. 基于信息技术的表现性评价：内涵、作用点与发展路向[J]. 中国电化教育，2023（3）：55-61.

（作者曹培杰系中国教育科学研究院数字教育研究所副所长，王阿习系北京联合大学师范学院讲师、博士）

《人民教育》2023年第20期

作者：曹培杰王阿习

（摘自中国教育新闻网）

快速链接