钱莉 李文昊 顾庭轩 王小寒
(华中师范大学人工智能教育学部,湖北武汉430079)
摘要:生成式人工智能(Generative Artificial Intelligence,GenAI)技术以其独特的生成性、创造性和适应性对教学和学习产生了重大影响,但其对学生学习效果的实际作用存在争议,制约了其在教育实践的广泛应用。文章采用元分析方法,对 2024 年 6 月前有关 GenAI 影响学生学习效果的 39 篇实验和准实验研究文献(60 个效应量)进行了系统梳理与分析,结果表明:GenAI 对学生学习效果具有中等偏大的积极影响(g=0.623);与其他学科相比,GenAI 更能提升医学学科的学习效果;GenAI 对学生学习效果的影响随着样本量增加而减弱;持续多次使用 GenAI 比一次性干预更能促进学生学习,但不同干预时长下无显著差异;相较于内容生成、评估反馈和混合应用方式,会话交互式 GenAI应用最广且最有效;GenAI 适用于各学段和不同学习者群体。基于上述结果,文章建议从学科特色、场景差异、合理干预、情境适配等方面加强对学生学习效果的实际作用,以助力GenAI 教育应用落地。
关键词:生成式人工智能;学习效果;元分析;实验研究
引言
在信息化浪潮的推动下,GenAI 技术的兴起丰富了教育手段和教育形式,为教育改革和创新提供了强大的技术支撑。与传统的人工智能技术相比,GenAI 更注重生成内容的创造性和多样性,能基于学习者的学习特点和需求,动态生成个性化的学习资源和反馈,从而提升学习体验和学习效率。GenAI 在教育领域的应用场景日益丰富,包括写作指导、创意设计、编程教育等,逐步改变了知识的获取和应用方式。然而,GenAI 也可能在学生的自主探究学习能力、信息筛选与辨别能力以及教育伦理与公平等方面产生消极影响。
为探究GenAI 在教育中的实际应用效果,国内外研究者开展了实验和准实验研究,但得出了不同的结论,包括学习效果增强、无显著影响和学习效果降低。例如,在写作学习方面,Boudouaia 等比较了本科生使用 ChatGPT-4 和接受教师指导两种方式进行英语写作学习的效果,发现 ChatGPT-4 组学生的写作表现更好,效应量较大(d=0.77)。Escalante 等却发现,ChatGPT-4 生成写作反馈和教师反馈对大学生写作表现的影响没有显著差异。Niloy 等调查了来自 10 所高校的 600 名大学生使用 ChatGPT-3.5辅助创意写作的效果,结果产生了中等程度(效应量 r=-0.352)的不利影响。因此,有必要梳理已有研究结论,并分析学科、学段、样本规模等调节因素的作用。
GenAI 对学生学习效果的具体影响及其作用机制,对技术开发和实践至关重要,但现有研究缺乏系统的梳理与分析。Sallam基于 60 篇文献系统分析了 ChatGPT 在医疗保健教育、研究、实践中的优势和局限性,但分析的文献缺乏同行评议的实证研究。一些研究虽涉及人工智能技术,但未聚焦 GenAI,或者缺乏对 GenAI 影响学生学习效果的具体分析。例如,Yan 等对 2017 年以来发表的 118 篇同行评议论文进行系统分析,总结了大语言模型在自动化教育任务中应用的九个类别以及一些实践和道德挑战。刘明等对国内外 38 篇 GenAI 影响高等教育的期刊文献进行了系统性分析,总结了 GenAI 重塑高等教育形态的内容、案例和路径。还有一些研究则比较局限,如仅针对单一工具(如 ChatGPT),关注特定变量(如学习参与度)、特定情境(如语言学习)、特定对象(如大学生)等。
综上,现有探究GenAI 对学生学习效果影响的实证研究尚未形成一致结论,甚至存在矛盾,需要对其进行系统梳理与分析。有学者进行了一些尝试,但是仍存在缺乏实证研究分析、未聚焦 GenAI、研究比较局限等问题。基于此,本研究试图通过元分析方法整合实验证据,探究 GenAI 对学生学习效果的影响,以为教育实践提供循证依据。具体问题如下:①与不使用 GenAI 相比,使用 GenAI 是否有助于提高学生的学习效果?②GenAI 对学生学习效果的影响受到哪些因素的调节?
一、研究讨论与启示
本研究对39 篇探讨 GenAI 对学生学习效果影响的文献进行元分析,结果显示,GenAI 对学生学习效果具有中等偏大的积极影响,总效应量为 0.623,表明 GenAI 能有效提升学生的学习效果。亚组分析表明,学科、样本量、干预次数和应用方式对 GenAI 效果有调节作用,而学段、干预时长和应用对象变量则未表现出显著的调节效应。具体而言,GenAI 在医学学科中效果尤为突出,而在信息工程学科学习效果的影响较小;随着样本量的增加,GenAI 的效果逐渐减弱,大规模教学环境甚至出现负向结果;持续多次的 GenAI干预比一次性干预更有效,但不同 GenAI 干预时长下学习效果无显著差异;与内容生成、评估反馈和混合应用相比,会话交互式 GenAI 应用最广且效果最佳;此外,GenAI 适用于各学段与使用对象,但目前主要集中在高等教育阶段,且以学生直接使用为主。基于此,本研究提出以下启示以进一步提升 GenAI 对学生学习效果的促进作用。
1 促进 GenAI 与教学和学习的深度融合
GenAI 对学生学习效果具有中等偏大的积极影响,与已有相关研究的结论一致,说明与不使用 GenAI相比,使用 GenAI 有助于提高学生的学习效果。GenAI 能够根据学生的学习习惯、能力水平及兴趣偏好提供个性化的辅导材料和学习方案,帮助学生在适合自身的节奏下学习,这有助于提高学习的效率和质量[33]。GenAI 也能够即时评估学生的学习成果,并提供恰当的反馈和建议,帮助学生及时了解自己的学习状况并做出调整,进而增强自主学习能力、问题解决能力和批判性思维。但是学习效果的显著提升也可能源于学生在干预后的测试阶段再次接受了 GenAI 的辅助,如有研究允许参与者在干预后的学习成绩评估中使用 ChatGPT,这应该归因于 GenAI 生成内容的质量,而不是 GenAI 干预本身。因此,未来的研究应该明确指出在干预后的评估期间是否允许使用 GenAI 及其使用方式。此外,GenAI 效果仍受制于训练数据的完整性和代表性、系统设计的教育适切性以及师生的人机协同程度等。因此,未来应积极推动GenAI 技术在教育领域的应用与创新,持续优化其与教学和学习的整合程度。同时,应避免对 GenAI 的过度“神化”,兼顾工具理性和价值理性,实现技术赋能与教育规律的有机统一。
2 实现 GenAI 技术的学科特色化应用
GenAI 对学生学习效果的促进作用存在显著的学科差异,这与 TPACK(Technological PedagogicalContent Knowledge)框架中技术与学科内容知识适配度的观点相呼应。医学教育的极高效应量可能得益于GenAI 强大的数据处理和模拟能力,通过分析已有实验研究也发现 GenAI 能够帮助医学生快速获取最新医学资讯、开展复杂病例的模拟教学和评估,进行诊断训练并提供即时反馈。然而,该领域的研究较少,结果稳定性仍需要更多实践验证。社会科学领域的 GenAI 应用最多且一般具有中等偏大效应量,可能源于GenAI 在信息收集、处理和评估等方面的优势,同时该类学科注重人文性和社会性,而 GenAI 恰好能够以类人的对话模式与学生交互,提供仿真的学习体验,拓展学生的认知弹性,从而促进学习。信息工程领域较多涉及编程学习,尽管 GenAI 可生成简单代码、查找并修复错误代码等,但也可能提供错误信息误导学生,无法准确回答复杂问题,阻碍学生批判性思维、推理能力、决策能力的发展,导致效应量较小。
面对不同学科独特的知识体系、学习方法和评估标准,以及学生日益增长的个性化需求,实现GenAI技术的学科特色化应用尤为重要。教育者需根据学科特点调整应用策略,研究者应探索学科差异背后的机制,如认知负荷与教学设计中,开发者应面向学科开发专用工具和资源(医学领域的病例生成模块、社会科学领域的论点证据链可视化工具等),以精准匹配学科特性,为学习者提供量身定制的学习路径与即时反馈。尤其在医学、社会科学等效应量显著领域,应持续加强应用研发力度,如在社会科学可借助 GenAI进行情境模拟与案例分析。同时,应探索提升信息工程等效应量偏低领域中 GenAI 应用效果的方法,如对于内容抽象、技能要求高的编程学习,可以利用 GenAI 的自然语言处理与交互能力将复杂概念转化为易于理解的解释,根据学生的学习进度和能力水平自动生成编程练习题目与案例,并提供即时反馈与建议等。此外,还需注意伦理风险(如医学中的隐私)、数据偏差带来信息不准确和过度依赖 GenAI 等问题。差异化应用有助于最大化 GenAI 的教育效益,促进学生综合能力发展,推动教育教学的多元化与个性化。
3 实施差异化教学适配不同规模场景
样本量对GenAI 应用效果具有显著调节作用,效应量随样本量增大呈递减趋势,尤其在超过 150 时出现负向结果,这与部分已有研究不符。原因可能在于:①大规模教学实验中存在更多干扰,削弱了 GenAI的积极影响,如学生背景更多样、教学一致性难以保证等;②随着样本量增大,实验设计、实施控制及数据分析方面的任何偏差都可能对结果产生显著影响;③GenAI 技术的适用性可能存在边界条件,当超出特定范围时,其效果可能不再显著甚至产生负向结果。这一趋势可能与不同教学场景下的实施复杂度、学生个体差异及教师指导策略等因素有关。这提示研究者在使用 GenAI 时,应优先考虑小规模、精细化的教学环境,确保其有效性和适应性。教育实践者则需根据教学规模优化教学设计,如在常规班级(如 100 人以内)中可利用 GenAI 的个性化推荐功能实现差异化资源推送,通过学情分析模块划分学习小组并配置定制化学习路径;在跨班级或跨校联合教学中(如 100 人以上),可将 GenAI 嵌入课程主干环节(如概念讲解、作业反馈)的同时保留教师主导的协作学习活动;对于大规模在线课程(如 500 人以上),可结合智能监控系统构建动态分组机制,通过实时学习数据分析自动调整教学节奏与内容密度。这种分层递进的策略既符合 GenAI 技术的应用边界,又能有效控制教学规模扩大带来的干扰。
4 合理设计 GenAI 教学实践干预次数和时长
研究结果显示,多次GenAI 干预较单次干预更能显著提升学习效果。原因可能在于学生需要时间适应GenAI 工具、逐步掌握使用方法并将其整合到学习过程中,形成良性循环,而单次干预难以改变学习习惯或认知模式。例如,在 Denny 等的研究中,随着学生对 GenAI 的使用熟练度提高,其学业成绩也随之上升。尽管 GenAI 对学生学习效果的影响在不同干预时长下没有显著差异,但其效应量变化趋势揭示了关键的时间窗口:持续时间不到 1 周的干预效果有限,这可能是因为没有为学生提供足够的时间来充分使用 GenAI 并从中受益,或者这些研究大多在实验室环境进行,没有反映真实世界的学习环境,导致学习成绩提升有限。1~4 周可能刚好平衡了工具熟悉和深度应用;超过 4 周则可能因新鲜感消退、动机降低或过度依赖 GenAI 降低认知水平和思维能力导致效应衰减。这意味着在使用 GenAI 进行教学和学习时,干预时间既不能太长也不能太短,应尽可能允许学习者在合适的时间使用,使学习者逐步完成从技术适应到认知重构的转变。例如,将 GenAI 应用于写作中可以设计为持续 4 周的学习活动,包括“范文分析(1 周)、对比改写训练(2 周)、自主创作评估(1 周)”三个环节,避免因任务持续性不足或工具新鲜感消退导致学习效果下降;同时可设置 GenAI 使用阈值,如限制单日对话次数和时长,防止依赖。此外,少部分未明确汇报干预时长的研究却呈现中等偏大的效应量,后续研究应注重规范记录干预参数和设计细节,以便后续研究跟踪分析。
5 强化 GenAI 应用方式与具体情境适配
不同的GenAI 应用方式对学习效果的影响各异,需要根据具体教学情境灵活选择并优化应用策略,以最大化其对学生学习的促进作用。会话交互被广泛应用并展现出中等偏大的效应量,可能的原因是能够模拟真实的学习互动场景,提供即时反馈和个性化指导,从而增强学生的参与度和学习动力。评估反馈作为 GenAI 应用的一种重要方式,其效应量相对较小,可能是当前的评估反馈机制尚不完善,难以全面、准确地反映学习者的学习情况和需求。未来需要不断创新评估方法,优化反馈机制,使其更加贴近学习者的实际需求,为学习者提供更加精准、有效的学习指导。内容生成方式通过自动化生成学习材料,能够为学生提供丰富多样的学习资源,但其具有中等偏小的效应量,可能受到生成内容的质量、适用性和学生先前经验等因素的影响。混合应用方式则展现了中等偏大的效应量,表明将 GenAI 技术以多种形式整合到教学中,能够综合发挥不同应用方式的优势。然而,混合应用也要求教育者具备更高的技术整合能力和教学设计能力,以充分发挥不同方式之间的协同效应,确保技术之间有机融合,实现教育价值。
二、研究不足与展望
本研究也存在一定的局限性。首先,研究范围仅关注了GenAI 对学生学习效果的影响,未来可以纳入更广泛人群的研究(如特殊教育人群、成年人等),并增加对非认知结果的关注,如情感(自我效能、学习动机、满意度等)和行为,这些变量不仅会影响学习者的即时学习成果,更关乎其长远发展,对全面理解 GenAI 的教育影响也至关重要。其次,元分析研究的调节变量选择会受到纳入文献及其汇报信息的影响,目前 GenAI 在教育实践中的应用还不够成熟,关于其影响学生学习效果的实验与准实验研究较少,从而导致调节变量有限,随着更多研究的积累,未来可以探索更多调节因子的影响。最后,本研究提取了一些研究中报告的多个效应量,这可能会导致效应量依赖性问题,未来可以采用三水平元分析(Three-levelmeta-analysis),不仅能够解决同一研究中提取的效应量之间互相依存的问题,还能有效检验集群内随机效应方差和集群间异质性方差,从而在保留完整研究信息的同时解决数据依赖性问题。(文章摘自期刊现代教育技术)