人工智能赋能学生综合素质评价的理论重构与实践路径
发布部门: 智慧教学   发布时间: 2025-11-26   浏览次数: 1059

摘 要:为应对传统学生综合素质评价中长期存在的理论双轨并行、诊断精度不足、结果可信度偏低等问题,依据2025全球智慧教育大会平行会议的最新成果,系统提出人工智能(AI)技术赋能下的学生综合素质评价中国方案。以“三位一体”理论框架为核心,整合注重育人全过程的过程性评价、强调问题诊断的水平性评价以及服务于人才选拔的识别性评价,形成多维度协同的评价体系。在技术路径上,依托人工智能开展表现性评价,实现从传统经验判断向数据驱动的循证范式转型。通过分析不同地区的多元实践模式,进一步总结因地制宜推进评价改革的路径,并展望其未来发展方向,构建“指标—数据—系统”深度融合机制,强化评价的发展性与增值功能,同时在伦理规范约束下实现可持续创新。

关键词:学生综合素质评价;人工智能;表现性评价;教育评价改革

作者简介:吴瑶,北京师范大学远程教育研究中心博士研究生(北京100875);李鲁越,通讯作者,北京师范大学远程教育研究中心博士研究生(北京100875);郑勤华,北京师范大学远程教育研究中心博士生导师,博士(北京100875)

一、引言

  深化教育评价改革是加快建设教育强国的战略任务之一,对教育发展方向起着事关全局的决定性作用。近年来,《深化新时代教育评价改革总体方案》《教育强国建设规划纲要(2024—2035年)》等国家顶层设计文件相继出台,明确要求“创新评价工具,利用人工智能(AI)、大数据等现代信息技术”,“建立基于大数据和人工智能支持的教育评价和科学决策制度”。这些政策导向表明,教育数字化已被置于国家战略的核心地位,以AI为代表的数字技术已成为破解教育评价顽瘴痼疾的核心驱动力,推动教育评价从传统的经验主导范式向数据驱动的循证范式发生深刻跃迁。

  正是在这一战略需求与现实挑战交织的背景下,2022年11月,《教育部办公厅关于开展信息技术支撑学生综合素质评价试点工作的通知》发布,遴选28个省、自治区、直辖市及38个区域开展试点工作。历经近三年的实践探索,试点工作在评价路径、机制创新、实践模式等方面取得显著成效,积累了丰富而宝贵的经验,为构建以信息技术为支撑、以学生发展为核心的综合素质评价体系奠定坚实基础。2025年8月19日,作为2025全球智慧教育大会的重要组成部分,“人工智能赋能学生综合素质评价实践与创新”平行会议在北京成功举办。本次会议既是对前期试点工作的阶段性总结与成果交流,也是对未来路径的系统擘画。会议由北京师范大学基础教育大数据应用研究院等单位承办,汇聚来自教育部相关司局的政策制定者、国家重大科研项目的首席专家,以及全国44个试点区域的教育行政管理者和一线实践者,旨在系统展示中国在该领域的最新理论成果与实践经验,共同擘画智能时代学生综合素质评价的未来图景。

  本次会议深刻回应了深化教育评价改革的战略需求。教育部科学技术与信息化司副司长舒华在致辞中强调,AI赋能教育评价改革具有重大战略意义,能够从强国建设、学生发展和技术赋能三个维度驱动系统性变革:一是作为教育综合改革的“关键抓手”,精准识别需求、优化资源配置,推动人才培养模式变革;二是推动从“重智”向“五育”融合转变,关注创新思维和实践能力,促进全面发展;三是实现从经验评价到循证评价的跃迁,利用多模态数据和算法进行精准诊断与反馈。

  会议聚焦中国学生综合素质评价改革二十余年探索所面临的深层次困境。北京师范大学陈丽教授在主题报告中指出,传统评价实践亟待破解三大核心挑战:一是理论底座的“双轨制”问题,导致育人导向与评价实践脱节;二是诊断精准性不足,过程数据不能简单代替结果水平数据;三是评价结果客观性存疑,主观评判易失真。这些挑战亟需构建“三位一体”评价体系,以支撑基础教育高质量发展。

  为系统梳理并提炼会议的智慧成果,本文将从理论重构、技术突破、实践路径与未来展望四个层面,阐述AI赋能学生综合素质评价的创新探索,以期为深化中国教育评价改革、构建高质量教育体系提供有益的参考与启示。

二、理论重构:构建“三位一体”的学生综合素质评价新体系

  长期以来,中国学生综合素质评价在实践中承载育人、诊断、选拔等多重功能,然而,将这些不同导向的目标糅合于单一的评价方案中,导致功能定位模糊与实践效能降低。《深化新时代教育评价改革总体方案》明确要求“改进结果评价,强化过程评价,探索增值评价,健全综合评价”,这预示着教育评价体系必须走向功能分化与协同统一。经过三年的大规模探索,试点在理论层面取得关键突破,提出构建包含育人导向的过程性评价、诊断导向的水平性评价和选拔导向的识别性评价的“三位一体”学生综合素质评价新体系。

  (一)从功能混同到功能分化:破解过程替代结果的科学性难题

  传统综合素质评价,特别是2014年以后,普遍强调其育人导向,形成以记录学生日常活动与表现为核心的过程性评价模式。这一模式有助于校准基础教育的价值导向与教学实践,并在促进学生全面发展方面发挥一定的积极作用。然而,其内在局限性也逐渐显现。该模式的最大问题在于功能混同,即将过程性记录直接等同于学生发展水平,进而导致一系列负面效应,评价科学性不足。陈丽在主题报告中指出:“过程能反映努力及努力的方向,但用过程直接表征结果,其科学性存疑。如许多学生特别努力,但成绩并不理想。过程可以代表方向和努力程度,但不能简单替代结果。”在实践中,当旨在记录成长、鼓励尝试的过程性记录被赋予过高的诊断乃至选拔权重时,评价的育人功能极易异化为“唯分数”导向。学生和家长可能出于功利性动机而“刷数据”或“美化档案”,从而使评价流于形式,增加师生不必要的负担;同时,由于缺乏统一标尺,跨学校、跨区域的过程性记录可比性不足,难以作为循证评价的科学依据,反而可能加剧选拔不公。

  因此,对评价功能进行科学划分,构筑集育人、诊断及选拔“三位一体”的理论框架,是破解这一困境的必然路径。陈丽在主题报告中指出:“要想构建支撑基础教育高质量发展的学生综合素质评价体系,必须具备三个方面的功能……这三种功能虽可融合为一个体系,但研发思路各异,不能简单混同。”育人导向的过程性评价负责校准方向、引导价值;诊断导向的水平性评价致力于科学、客观地“看见素质”,回答“学生的综合素质发展到了何种水平”的问题,其核心在于结果的“可比性”;选拔导向的识别性评价则服务于因材施教的根本前提,旨在精准回答“材是什么材”的问题,为个性化培养和人才选拔提供依据。这三种评价各司其职,又互为补充,共同构成新评价体系的完整逻辑。

  (二)从理论双轨到理论融合:构建衔接五育与核心素养的新模型

  新评价体系的构建不仅在于功能分化,更在于底层理论的统一与融合。过去,综合素质评价面临的一大挑战是理论基座的双轨制——以“德智体美劳”五育为框架的评价体系,与以文化基础、自主发展、社会参与为维度的核心素养课程体系,在话语逻辑上难以对齐,造成评价与教学脱节现象。

  为破解此难题,试点工作在理论层面取得重大突破。试点项目团队在林崇德、董奇等资深专家的指导下,首先对“综合素质”进行了学理界定,将其明确为“学生在受教育过程中形成的跨越学科的价值观、必备品格和关键能力”,并以此为基础构建全新的理论模型。该模型以核心素养三个方面、十个指标、三十六个观测要点为基座,并与“德智体美劳”五个维度形成对应映射关系。从而在话语基座上与基础教育课程大纲保持一致,同时数据结果能够有效表征区域学生的德智体美劳发展水平。

  这一理论融合模型从根本上解决了双轨制带来的实践难题,既贯彻了党和国家的教育方针,也实现了与新课程改革目标的无缝衔接。正如舒华指出的,该模型为“三位一体”评价体系提供了坚实的理论基石,确保了其导向性、科学性与系统性。北京师范大学郑勤华教授强调,在明确五育与核心素养内涵对应关系的基础上,未来可在数据层面进一步探索维度间的换算与整合,从而增强评价结果的综合解释力与应用价值。

三、技术突破:人工智能破解评价客观性与科学性难题

  如果说“三位一体”的理论体系重构了评价的“骨架”,那么AI技术的突破则为其注入了“血液”与“神经”,从而激活其运动能力。AI技术正驱动教育评价从“经验判断”向“数据驱动”的范式发生深刻跃迁。舒华明确指出,AI正推动教育评价从“经验主导迈向数据驱动”。这一观点在区域的实践中得到呼应。黑龙江省教育厅基础教育处处长陆维超从理论层面阐述了AI如何提升评价的科学性和客观性,如通过多模态数据实现评价维度立体化、成长诊断个性化及素养评估清晰化;北京市朝阳区教育委员会副主任沈欣忆则从本区域的实践探索出发,介绍了朝阳区通过AI赋能学生评价,从而提升评价准确性,实现从结果导向到多维度、过程性评价的转型。AI赋能教育评价不仅体现为技术工具的创新,更源于深刻的理论支撑。陈丽在报告中系统阐释了“三位一体”评价体系的理论框架,强调必须将过程性评价、水平性评价与识别性评价有机结合,而AI正是实现这三种评价功能科学融合的关键引擎。她指出,传统评价往往因主观性强、数据维度单一而难以客观反映学生综合素质,而AI通过多模态数据采集、算法建模与智能分析,能够实现对复杂素养的精准刻画与可比诊断。这种理论与实践的高度共识,正是理论与技术双向驱动的学生综合素养评价新范式的集中体现,其核心是基于智能化的评价模型构建、数据采集、智能分析、评价应用等环节的迭代优化,将评价从经验判断推向科学循证,最终实现以评促育、以评促建。

  (一)以表现性评价为核心,实现复杂素养的科学测量

  破解综合素质评价难题的关键在于科学测量学生高阶素养的机制,为此,以表现性评价为核心、依托大数据技术的智能化评价工具提供了可行路径。陈丽将表现性评价界定为“基于学生在特定复杂任务完成的过程中的行为数据来表征学生某方面素质的方法”。通过创设真实情境任务(如模拟“探月任务”),该评价可有效评估学生的创新思维、协作能力等传统纸笔测试难以测量的核心素养。

  以平行会议展示的“探月任务”为例,学生需要在虚拟仿真环境中,以小组为单位合作设计月球探测器、规划探测路线并应对突发状况。在此过程中,AI系统能够实时捕捉并分析多模态数据,例如,借助自然语言处理技术分析团队沟通质量,通过操作序列追踪迭代优化过程,依托决策路径还原问题解决与批判思维。这些过程性数据,经由复杂的算法模型处理,最终转化为对学生相应素养水平的客观、量化的评价结果,体现出表现性评价在技术赋能下的智能性和客观性。此外,试点项目研发的智能跳绳系统通过多模态计算方法,自动测评学生在参与跳绳活动时表现出的耐力、平衡力、协调力等素质项水平,体现了从“体力测量”到“素养评价”的转变。长沙市教育局基础教育处处长周小青指出,将此类前沿工具融入本土评价体系已成为各试点区域深化评价改革的重要方向,以此突破纸笔测试局限,提升评价的真实性与精准度。

  (二)以数据库与常模库为基础,赋能精准诊断与科学决策

  技术突破的另一项重大成果是构建大规模、连续追踪数据库及常模库,为精准诊断提供支撑。舒华特别强调,该数据库覆盖全国超百万学生,且为连续追踪,为量化分析学生发展动态规律提供了高信效度的数据支撑。其价值不仅体现于数据规模,更在于推动教育治理从经验判断走向科学决策。科学的教育建模是支撑高质量教育体系的关键。陈丽在会上分享的一个案例生动地说明了这一点:一位校长自信其学校科技创新能力突出,但数据报告揭示培养模式仅聚焦少数竞赛班级,整体不均衡,鉴于此下决心推动学校教学资源重新配置。这印证了数据驱动评价对教育实践的反哺与改进功能,通过数据“看见”经验盲区,推动决策从主观向循证转型。

  这些技术突破被集成于学生综合素质评价与发展平台(简称SEED平台),形成一套系统化解决方案。该平台作为联结国家试点与区域实践的枢纽,提供统一技术框架,支持各地因地制宜进行创新探索。

四、实践路径:试点区域因地制宜的创新探索

  理论的生命力在于实践。本次会议的显著贡献在于,来自全国各地的试点区域分享了将“三位一体”理论框架及SEED平台融入本地教育实践的经验,形成多元创新实践路径。这些实践并非简单复制顶层设计,而是基于区域实际,对多元发展与特色创新进行的积极探索。会议展示的区域实践表明,技术赋能的学生综合素质评价已从初步探索阶段,进入区域化、特色化发展的“深水区”。

  (一)应用模式的多元化:从服务核心战略到赋能教学改进

  区域教育部门的实践案例展示了综合素质评价在不同场景中的多维应用价值,从政策设计到课堂实施实现全方位赋能。

  在服务区域核心战略层面,评价数据成为精准施策的“导航仪”。桂林市教育局副局长蒙亮介绍,依托SEED平台的全域测评实践显示,桂林市将“问题解决与创新”等高阶思维维度数据与科技竞赛表现关联分析,科技素养优异学生的获奖率达85%以上。这种路径通过超越传统单一识别模式,为科技拔尖人才的早期识别与培养提供立体化证据,实现了“三位一体”评价体系的落地。同样,北京市朝阳区教委副主任沈欣忆分享了其区域AI赋能拔尖创新人才培养的探索,通过SEED平台数据与拔尖创新学院的“数学节”“科学节”等活动联动,弥补了传统结果导向的局限,实现过程性评价支撑人才挖掘。

  在理论模型融合层面,各区域积极探索测评理论框架与本地特色的整合。周小青分享了其区域构建横向沟通、纵向衔接评价体系的实践,通过融合“五育”与核心素养框架,完善25个二级指标,并以学校个性化三级指标设计,强化行政驱动与科研引领,形成协同机制。

  在深化技术与数据融合层面,各区域正从平台的使用者转变为生态的共建者。苏州工业园区教育局副局长徐晓燕详述了在全国率先实现SEED平台本地化部署的经验。通过“指标映射、数据融通、应用融合”机制,该区在保障区域数据的安全与自主的同时,整合SEED平台与本体资源,形成一体化评价新生态,标志着改革从单一平台依赖,转向开放互联的数据治理新格局。陆维超则强调了数据驱动决策的作用,指出黑龙江省基于64.7万学生动态数据揭示群体规律差异,并通过省级与SEED平台融合,推动评价从经验驱动向数据驱动转型。

  在赋能日常教学改进层面,评价正回归育人性的根本功能。西安市现代教育信息技术中心副书记胡群鸽展示了区域依托SEED平台,推动各校形成“一校一特色”评价生态的实践路径。该市将SEED平台中编程等趣味化的测评活动深度融入日常教学环节,使评价激发学生兴趣,促进教、学、评融合。上述模式共同表明,国家平台作为赋能基础设施,能激发地方智慧,支持区域特色发展。

  (二)实践探索面临的挑战:从理念异化到数据壁垒

  尽管实践探索成果斐然,但技术赋能的学生综合素质评价仍面临理念异化与数据壁垒等多重结构性挑战。其一,评价理念异化问题突出,表现为技术应用可能脱离育人本质。舒华指出,AI赋能不仅是技术数字化,更是评价理念的转型,必须锚定为党育人、为国育才的价值引领,确保技术服务人的全面发展,避免理念脱离育人本质;周小青在报告中强调,AI系统必须嵌入立德树人导向,避免技术凌驾于育人规律之上,否则将导致评价理念异化。

  其二,数据壁垒顽固存在,制约评价的深度融合。这一挑战的复杂性体现在技术、管理、安全与伦理层面。技术层面,不同系统(如学籍、成绩、体质健康、图书借阅等系统)的数据标准、存储格式各异,需要投入大量技术力量进行清洗、对齐与标准化。例如,徐晓燕指出区域层面多元海量异构数据的融通面临重大挑战。管理层面,数据分属于不同部门及供应商,涉及复杂的权属与协调问题,行政壁垒高筑。周小青提到,当前区域层面各级各类数据融通困难,各部门各企业厂家的平台之间存在数据深度关联与共享难以实现等困境;沈欣忆则指出了区域数据串联的必要性。安全与伦理层面,数据的汇聚与贯通必须以严格的学生隐私保护为前提,需要建立健全的数据安全治理体系与授权使用机制。舒华强调,数据够用即可,算法透明可视,敏感信息脱敏处理,从而守住安全底线。

  这些因素交织在一起,使数据融通成为一项艰巨的系统工程。一线反馈与学界研究共同揭示,技术赋能评价在实践中仍面临评价理念异化、技术开发能力不足、基础资源建设失衡、数据开放难以实现、运行机制不够完善等多重挑战。这些问题的揭示,进一步明确了评价改革深化过程中需要集中突破的关键方向。

五、未来展望:走向深度融合的区域教育评价新生态

  面向未来,AI赋能的学生综合素质评价将从试点应用迈向生态重构,其目标是构建深度融合、协同共生的区域教育评价新生态。这不仅是技术应用的深化,更是对评价理念、体系与伦理的全面革新。

  (一)评价体系的深度融合:构建区域特色“SEED+”解决方案

  构建区域特色“SEED+”解决方案的核心路径在于实现国家顶层设计与区域实践的无缝对接,即从“盆景”走向“风景”。郑勤华教授在报告中阐述了未来融合的三大路径:一是指标融合,即在统一的测评指标框架下融入反映地方文化、产业特色与人才需求的区域性指标,确保评价兼具科学权威与区域针对性;二是数据融合,打通区域过程性评价数据与SEED平台诊断性数据的壁垒,探索换算互补机制;三是系统融合,通过本地化部署或API接口,将试点构建的评价能力整合入区域信息化平台,形成“SEED+”技术解决方案。这一框架为技术赋能的评价体系提供了清晰的框架设计与实践路径,将其转化为可持续、可生长的区域教育新基建,实现评价的“常用、好用、管用”。

  (二)评价应用的价值回归:推动评价发展性与增值性的理念转型

  技术的发展须服务育人根本。舒华强调,评价改革必须坚持价值引领。这一导向的核心在于,推动评价从横向比较的筛选转向纵向成长的发展与增值,将传统评价终结性“快照”,转化为过程性“录像”,从而留下每个学生的独特成长轨迹。

  会议反复提及的数智化全景画像是这一转型的关键技术载体。它整合多源数据,包括认知水平、行为过程、生理监测、艺术劳动作品等,通过深度分析与可视化,提供学生立体“成长地图”。这一地图的价值在于诊断优势潜能与发展短板,并前瞻性地提供个性化建议,支持学生自我规划、教师精准教学及家长科学指导,确保评价成为促进学生全面而有个性发展的有力工具,而非一张冰冷且仅用于简单筛选的标签。

  (三)评价伦理的安全护航:在创新中守住底线

  伦理护航是可持续创新的基石,必须在创新发展中守住安全底线。技术的应用也带来新的伦理挑战。舒华明确指出,“数据和算法是最大的风险所在”,必须加强技术安全和伦理研究,确保“算法透明可视”,保障学生的知情权和选择权。这也是当今评价研究者普遍关注的问题,强调需持续警惕AI应用于学习评价时可能引发的“离身风险”,并保持批判性反思,避免将个体简化为数据,从而忽视其具身体验与完整人格的危险倾向。

  未来的评价体系建设,必须将伦理安全置于与技术创新同等重要的位置,基于数据全流程构建完善的隐私保护与治理机制,发展可解释算法,确保评价过程的公平、透明与价值向善。这不仅是技术应用的“刹车”,更是确保技术始终服务于人、促进人的自由全面发展的“方向盘”,让技术赋能的评价改革之路行稳致远。

六、结语

  利用AI等现代信息技术解决学生综合素质评价这一世界性难题,是各国教育改革面临的共同挑战。本次会议汇集的理论创见与实践成果,表明中国在该领域的探索正从初步破题走向理论建构,从而形成一套系统性AI赋能学生综合素质评价的“中国方案”。该方案基于“三位一体”理论框架,系统重构了评价体系的科学基础;以AI技术驱动评价客观性与科学性提升;以数据融通构建区域评价新生态;坚持应用导向,确保评价始终服务于立德树人根本目标。这一系统性方案精准回应了传统评价的深层次困境。“三位一体”的理论重构与综合素养模型的构建,从根本上破解了理论双轨制难题;AI技术赋能的表现性评价方式,则为诊断的精准性与结果的客观性提供了有力支撑。这些创新标志着中国学生综合素质评价进入数字化、智能化、科学化的新阶段。这一探索不仅是本土教育改革的创新,更为全球评价人的全面发展贡献了中国智慧与中国方案。这一由理论创新与技术突破驱动的改革力量,将为教育强国建设注入持久动力。(文章摘自中国教育信息化)