首页    >    教育资讯
蒋信伟:科学教育视域下拔尖创新人才早期培养与评价机制

2025-04-14

引用格式:蒋信伟. 科学教育视域下拔尖创新人才早期培养与评价机制[J]. 中国考试, 2025(4): 32-40.作 者蒋信伟,男,安徽省合肥市第八中学副校长、正高二级教师。摘 要:在推进科学教育过程中,探索有效性、特色化的拔尖创新人才培养路径和评价机制,日益成为广大教育工作者必须面对的现实问题。针对中学阶段拔尖创新人才培养中存在的重学业选拔轻科学甄别、重解题轻解决问题、重单科学习轻跨学科融合、重学段教育轻贯通培养等突出问题,必须优化拔尖创新人才在创新潜质、数理思维和非智力因素等方面的早期甄别方式。在一体化推进拔尖创新人才早期培养与评价方面,应努力推动培养方式从单一模式转向系统发力,综合素质评价从“软挂钩”转向“硬挂钩”,强基计划从单向度选拔转向多维度选拔,专业调剂从关注综合成绩转向关注优势特长。关键词:科学教育;拔尖创新人才;早期甄别;培养方式改革;评价出口机制习近平总书记在主持中共中央政治局第五次集体学习时强调,要进一步加强科学教育、工程教育,加强拔尖创新人才自主培养,为解决我国关键核心技术攻关提供人才支撑[1]。以科学教育推进拔尖创新人才培养,已经成为教育强国建设的题中之义,同时也是科技强国、人才强国建设的现实之需。中学阶段在我国教育体系和人才培养体系中具有承上启下的重要地位,是个体创新素质形成的决定性阶段[2],在拔尖创新人才早期培养方面发挥着不可替代的重要作用。随着《关于加强新时代中小学科学教育工作的意见》《中小学科学教育工作指南》《教育强国建设规划纲要(2024—2035年)》等一系列文件的先后出台,如何在推进科学教育过程中探索有效性、特色化的拔尖创新人才早期培养和评价机制,日益成为广大教育工作者必须直面且亟待破解的现实问题。一、拔尖创新人才早期培养的问题检视中学阶段拔尖创新人才培养自20世纪80年代兴起以来,无论是北京八中创办的超常教育实验班、人大附中创办的超常儿童实验班,还是后续其他学校实施的各种形式的改革实验,均以班级试验作为主要探索载体。此外,诸如“英才计划”“翱翔计划”“雏鹰计划”等人才培养计划,主要以项目为实施抓手,初步形成参与主体日益多元化、实施模式更加多样化的基本格局。这些改革在拔尖创新人才早期选拔和培养方面进行了有益探索,也在一定程度和范围上推进了育人方式改革,为具有拔尖创新潜质的学生在高等院校进一步成长、在职业场景中进一步成熟发挥了奠基性作用。令人可喜的是,部分学校在实践探索方面取得显著成效,如华东师范大学第二附属中学的“构建基础学科拔尖人才早期培养体系——高中基础学科拔尖学生培养30年实践”、华中师范大学第一附属中学的“新时代普通高中拔尖创新人才一体化培养模式探索与实践”两个成果,都被评为2022年基础教育国家级教学成果一等奖[3]。这不仅为进一步深化中学阶段拔尖创新人才培养改革提供了可资借鉴的方案,也增强了破解难题的信心。然而,我国拔尖创新人才培养目前还存在认知模糊与定位狭窄、改革创新性和实践功利化相互杂糅、价值意涵缺乏实践层面的理性澄清、定位高但名实不符等问题。此外,无论是选拔还是培养方式,都缺乏应有的适配机制,“四重四轻”现象比较普遍,导致拔尖创新人才培养在理想预期与实际效果之间存在较为明显的差距。(一)重学业选拔轻科学甄别对中学而言,拔尖创新人才培养带有较强的办学层次区分意味,名校或区域内有一定影响力的学校的话语权较高,且“唯分数”的功利化取向较为严重。目前,高中拔尖创新学生主要有三种选拔方式,一是根据中考成绩“掐尖”选拔,如一些学校冠以所谓强基班、英才班、创新班、实验班等称号招收中考成绩优秀的学生;二是凭借竞赛成绩加分选拔,如一些学校为了吸引竞赛成绩优异且校内学习成绩优秀的学生,会依据竞赛获奖成绩给学生的分班成绩加分,选拔组建所谓竞赛班;三是依据汇总后的考试成绩选拔,主要选拔时间在高二入学前的选科阶段(少数学校提前至高一上学期结束时),一般是将高一的期中、期末考试成绩按比例计算汇总后,选拔物理成绩优异的学生并将他们单独编班培养。有研究指出,中学阶段在拔尖创新人才的选拔甄别过程中普遍存在“掐尖”现象,单纯以学业成绩替代学生在智力水平、学习能力、创新能力、领导能力等多个方面的表现,造成选与育的实践错位[4],进而导致学业选拔功利性越位掩盖科学甄别的实际缺位。(二)重解题轻解决问题一是片面加大试题难度。例如,一些学校把增加试题难度和培养学生的思维品质、思维能力简单等同,忽视学科基本认知规律和科学教育应有的定位,并通过教师反复讲题、学生提前刷题、变式做题等方式培养学生的解题策略性知识、规则和技能,但这种追求效率性与规则性的认知观念实际上对创新人格和创新思维的培养具有显著的负向影响[5],实质上扼杀了学生的想象力和创新思维。二是弱化问题解决实践导向。一部分科学学科的教师将解题视为解决问题,导致其课堂教学产生一些问题,如以题目组合建构教学内容,以难题解答落实拓展探究,教学情境封闭单一,学科实践路径窄化,命题情境缺乏应有的灵活性、开放性和实践耦合效应,难以形成以批判思维驱动问题解决能力培养的有效支点。三是忽视对创新实践能力的培养。从解题到解决问题的价值转向虽然已经得到一定认可,但以探究实践为指向的问题解决能力还缺乏适配的培养机制,如在实践操作中解决问题的教学时空受限,在解决问题中强化实践应用的教学路径受阻,实践操作能力培养被搁置或虚化,难以形成做中学、用中学、创中学的科学教育学习机制,等等。(三)重单学科学习轻跨学科融合一是学科本位意识固化。多数科学学科的教师只关注本学科的知识、概念、思维、方法,强分类的边界意识较为强烈,因此导致拔尖创新人才学业质量评价中的命题设计、作业设计等缺乏学科融合思维,更遑论义务教育阶段各门课程跨学科主题学习课时不少于10%的任务[6]得以落实。二是跨学科综合考查意识衰减。新高考改革取消理科综合的做法,在一定程度上消解了一线教师跨学科融合的教学意识,也弱化了对拔尖创新人才跨学科素养的培养。三是项目式学习推进乏力。项目式学习作为跨学科融合的重要载体,虽然近几年有一定程度的探索,但受制于学习设计难度较大、学习指导任务复杂、学习价值感不强等客观因素,往往停留在浅表化或展示化层面,并未取得实质性、常态化的推进效果。如近些年较为流行的STEM或STEAM化的项目式学习,虽然在推进拔尖创新人才培养尤其是学习方式变革上发挥了重要作用,但后续持续性的教学实践较为缺乏。(四)重学段教育轻贯通培养一是学段割裂现象较为严重。目前,中学阶段以清北、C9等高水平大学为升学取向的办学质量观仍然根深蒂固,导致学校在拔尖创新人才培养方面缺乏应有的长远眼光和贯通思维。还有一些中学在教学培养中只重其外、忽视其内,精于向下掐尖选苗、疏于向上贯通培苗,育人指向本位意识固化,办学视野局限于阶段时空,因此难以有效弥合学段鸿沟。二是贯通培养流于形式。基础教育的结构和路径高度受制于学校,学生发展缺乏个性化空间;大学阶段的学习不仅难度增加,而且高度依赖学生的内生动机、自我导向和个人自律[7]。由此可知,基础教育和高等教育贯通培养拔尖创新人才协同机制难以发挥实质性作用。此外,目前高校实施的贯通培养载体,诸如英才计划、强基计划等还存在重拔尖轻贯通培养的功利化倾向,也进一步加剧了贯通培养机制实体效能的弱化。二、优化拔尖创新人才早期甄别选拔方式拔尖创新人才早期甄别一直是我国基础教育阶段面临的难题。从各国英才教育实践看,一般把同龄人中前10%左右比例的儿童确定为英才儿童,并给予区分性教育,且位于同龄人前1~3%左右的英才儿童受到重点关注和特别培养[8]。就我国基础教育基数而言,前10%的占比虽然不大但人数众多,尤其是涉及高利害性选拔时,在优化甄别方式上更应注重公平性、科学性、可行性、操作性的有机统一。具体可以从以下三个方面对拔尖创新人才的早期甄别选拔方式进行优化。(一)确定以创新潜质为主的成长溯源创新潜质作为拔尖创新人才培养的核心要素之一,是一个复杂性、成长性、独特性的潜在优势因素。虽然该因素难以进行定量描述,但在个体成长的各个阶段都会呈现出一些显性表征。因此,可以从科学教育育人指向出发,对相关显性表征进行可视化梳理和结构化分析,并结合相关研究成果和实践经验,构建以思维品质为内核、以灵感机智为外显、以科学实践为观照的创新潜质考查评估体系,进而对个体创新潜质表现优势进行多方位的成长溯源。创新潜质评估既要审视受各种因素制约的复杂动态过程[2],也要关注个性化、阶段性的静态表征,形成动静结合、表里融通的实践观照架构。1.以思维品质为内核思维是智力与能力的核心,科学思维品质则体现了不同主体之间科学思维能力的差异[9],是拔尖创新潜质的内核和根基。思维品质具有多维度、复合性特点,主要包括敏捷性、灵活性、创造性、批判性和深刻性五个特性[10]。其中,创造性、批判性和深刻性三个特性更能体现思维内部的结构属性,其功能值和效能感更强。落实到实践考查层面时,尤其要结合内视化、外视化视角,关注作为思维内核功能的创造性、批判性和深刻性三个显著特征。一是从思考问题角度、思维综合程度和实际创新效度三个方面考查思维创造性。思维创造性具有创新性、综合性、开拓性等特点[11]。关注学生在分析问题角度上体现的以求异思维跳出惯性或线性意识的独特性和变通性,在解决问题过程中运用分析、比较、归纳、演绎等思维的多样性和融合性,以及在问题解决方案中反映出来的创新性和有效性。二是从独立思考意识、质疑探究习惯和反思建构能力三个方面考查思维批判性。在独立思考意识方面,聚焦学生不轻易受他人观点、见解、看法的影响,以及主动解决问题的个性特质。在质疑探究习惯方面,聚焦学生敢于提出质疑,积极通过探究方式寻找证据等良好学习习惯。在反思建构能力方面,聚焦学生主动对自己的观点或理由等进行反思和改进的能力,以及善于从已有观点和证据中形成系统性看法的意识和能力。三是在思考问题深度、洞察本质能力和逻辑推演水平三个方面考查思维深刻性。在思考问题深度方面,聚焦学生由表及里、由果及因、由事及理的纵向探究能力和突破思维定式的逆向应对意识。在洞察本质能力方面,聚焦学生能否从多种问题线索中辨识关键因素并对主要矛盾产生概念性理解和规律性认识的能力。在逻辑推演水平方面,聚焦学生在形成概念性理解和规律性认识过程中,保持思维逻辑严密、推理和判断合理等能力。2.以灵感机智为外显优势灵感、机智与思维的敏捷性、灵活性具有较强的关联性和耦合性。有研究指出,学生的天赋和才智会通过环境或外界刺激而以某种形式展示出来[12]。对于具有拔尖创新潜质的学生而言,其灵感机智对环境或外界刺激的整体应激能力、反应强度及外显程度都比较高。因此,可以从出现频率和维持水平两个维度评估学生灵感机智的外显水平。一是评估灵感机智的出现频率,包括关注学生最近一个学段的学习情况及其所在学习群体的灵感机智出现频率。二是评估灵感机智的维持水平。灵感机智维持水平要关注持久性和价值性的有机统一,既要从时间角度评估维持的平稳状态和衰减程度,也要从价值角度评估其深层意义和实际效能。3.以科学实践为观照科学实践不仅是拔尖创新人才孕育的重要土壤,也是人才识别的关键场域。一些学校探索把学生的科学实践活动作为拔尖创新人才早期识别的一个重要维度,并形成较为成熟的经验。例如,青岛一中开设海尔创新班,对取得创新成果或荣誉的学生给予奖励[13];深圳零一学院招募在科技创新方面有突出才能和表现的在读高中生[14],这些做法都体现了科学实践在考查学生创新潜质方面的观照价值。考查学生在科学实践中的创新潜质时,需要关注经验、素养和成效三者之间的有机统一。一是关注深度参与经验,主要考查学生是否有组织或作为主要参与者参加科学实践活动的经历,同时考查其在组织或参加科学实践活动中的贡献度。二是关注科学实践素养,主要考查学生是否具有较强的观察能力、实验能力,以及是否具备一定的、能够将学习实践产品初步塑形物化的工程实践操作能力。三是关注创新实践成果,主要考查学生是否有小发明、小制作或小专利,以及是否在省市级以上科技创新类比赛中取得优异成绩。(二)建立以数理思维为主的考核机制学业水平作为评价学生的最直接体现,在衡量学业成就、匹配学生发展潜力、引导学生健康发展等方面具有重要作用[4]。优异的学业水平是衡量拔尖创新人才最显性的要素之一。无论是中科大、西安交大等高校实施的少年班招生,还是国内一些重点中学试点探索的早期培养项目,都将学业水平测试作为必要环节,且侧重于考查学生的数理思维。数理思维以其独特的抽象性、逻辑性和建模性,是学习力、批判力、探究力和创新力形成的聚合引擎,也是科学教育培养拔尖创新人才的必要因素。因此,在考核方式上要注重进阶性和多样性相互结合、定量和定性有机统一,主要包括三个测评步骤。首先,进行基础性测评。该测试主要面向有选拔意向的初中生,属于第一轮学业测评。测试严格依据初中数理学科的核心素养要求,按照与之对应的学业质量水平要求进行设计。在内容方面,有机融入课程标准中的活动建议、实验实践等相关要求;在形式方面,适当增加复杂且结构不良的情境任务,并注重命题形式的灵活性、综合性、探究性和开放性;在考查重点方面,着重考查学生思维品质和思维能力。其次,进行适应性测评。该轮测试属于学业测评中的“现学现考”环节,突出考查学生的学习能力,以及独立思考和解决问题的能力[15]。在内容方面,依据高中数理学科核心素养,参照学业质量水平一、水平二具体要求,精选整合重点章节并适当拓展竞赛内容;在形式上,设计典型试题情境任务,注重命题的基础性、综合性和应用性;在测试目标上,进一步聚焦思维能力的选拔导向。具体可借鉴清华大学丘成桐项目选拔方式,如教师上午给学生讲解国际数学前沿知识,下午进行有针对性的测试,测试内容聚焦学生对数学的理解,且要求学生避免用既有的知识框架和思维模式解决新问题[16]。最后,进行结构化测评。将前两次学业测评的成绩进行加权计算并按照一定比例初步遴选学生。对初步入围学生进行随机分组,每组包括由相关学科的高校教师、高中教师、初中教师以及心理教师、辩论指导专家等组成的测评专家。测评专家设计与数理学科有关的生活化、开放性的问题提纲,并在相对宽松活泼的氛围中进行以逐一测、提发问为主要形式的结构化测评,重点考查学生的逻辑思维能力和灵活应变能力。(三)重视以非智力因素为主的心理测评非智力因素主要包括动机、兴趣、情绪、意志、性格等,这些因素可以为高效率学习提供动力[17],成为拔尖创新人才培养不可或缺的内生动力。有研究对我国25位获得国家最高科学技术奖的学者进行系统分析后发现,强烈的学习动机、广泛而集中的兴趣、顽强的意志、积极的情感和良好而独立的性格是这些学者身上共同且显著的特征[18]。这进一步验证了非智力因素对于拔尖创新人才培养的重要作用。基于已有研究,本文构建拔尖创新人才早期甄别的中学生非智力因素心理测评框架。该测评以激发青少年好奇心、想象力和探求欲为目标,以培育具备科学家潜质、愿意献身科学研究事业的青少年群体为育人定位,充分尊重当代中学生心理发展规律,尤其对学生的动机、兴趣、情绪、意志、性格等因素进行聚焦性审视,主要从好奇心与探求欲、科学志趣、自我受挫力与效能感、团队合作与领导力等四个方面创设表征性测评问题。1.好奇心和探求欲方面强烈的好奇心和求知欲是25位国家最高科学技术奖获得者最为显著的学习动机[18]。对学生的好奇心和探求欲进行测试,需要关注个体的兴趣指向、主动探求意识和心理维持程度。兴趣指向在一定程度上体现了个体的情感诉求和价值追求。学生的阅读广度和关注方向是反映学生兴趣指向的参照对象,因此,可以通过了解学生平时喜欢的书籍种类或对科学现象的好奇心等问题进行考查。主动探求意识源于好奇心、始于内驱力,因此可以通过了解学生对科学现象的好奇心和主动解决科学问题的意愿等进行考查。只有好奇心和探求欲持续且具有较高的强度,才能成为学习者的内在动机。因此,可以通过了解学生是否对未知的科学现象具有持续的好奇心和探求欲,以及在了解科学真相后是否还愿意继续探求等问题进行考查。2.科学志趣方面志趣肯定个人的价值选择。有研究指出,一个人的志趣只能由他自己决定,且必须自觉自愿,发自内心的向往[19]。科学志趣不仅反映学生参与科学活动的浓厚兴趣,更体现其投身科研事业的坚定志向。对学生科学志趣的测评,其实质是评估其成为拔尖创新人才的自主选择性和自我建构性,以及由此引发的目标引领力和内在驱动力,主要包括以下四个方面的测评。一是评价学生对科学实验的兴趣。实验兴趣有别于一般的科学兴趣,具有沉浸式、实操化和探究性特点,可以通过了解学生对科学实验课的情绪情感体验考查学生对科学实验的兴趣。二是评价学生对科研价值的认同感。价值认同背后往往带有自由比较、自主选择、自我内化等因素,可以通过了解学生对从事科研工作以及对科研工作者的情感态度考查学生的科研价值认同感。三是评价学生的自我生涯规划能力。生涯规划是学生发展指导的重要组成部分,对科学志趣较强的学生而言,其生涯规划的自主意识和能力都较为明显和突出,可以通过了解学生将来是否选择与科学研究相关的专业或职业等问题进行考查。四是评价学生的科技报国情怀。科技报国情怀不仅是个人的价值选择,更是超越个体价值、彰显家国情怀的责任担当。测评学生的科技报国情怀时,可以通过了解学生的科技自豪感、高科技“卡脖子”问题的紧迫感等问题进行考查。3.自我效能感与挫折承受力方面自我效能感作为一种认知动力机制,代表个体的学业能力信念,直接影响学生的学习行为、学习成败归因及情绪调节能力[20]。挫折承受力是指个体适应挫折、抵御和应对挫折的能力,与自我效能感相互关联、相互引发。二者对学生保持积极的学习状态、维持有效学习进程和提高正态学习效能具有至关重要的作用,也是拔尖创新人才成长的必备要素。一是关注学习意志力。学习意志力体现优秀学习者的学习品格和动力机制,可以通过了解学生对繁重且有难度的学习任务的态度和行为等进行考查。二是关注挫折承受力。挫折承受力与学习意志力关联密切,但突出指向个体对挫败感的承受能力和调控机制,可以通过了解学生是否能在遭受批评或挫折时始终保持积极进取的态度等进行考查。三是关注自我效能感。自我效能感是学习意志力和挫折承受力的心理机能和调控变量,可以通过了解学生是否能在遇到挑战性任务时始终保持自信并积极应对等进行考查。4.团队合作能力与领导力方面中国工程院“创新人才”项目组研究指出,卓越的团队领军人物不仅是优秀创新型工程科技团队的核心,更是创新型工程科技团队建设成功的关键[21]。作为拔尖创新人才的重要素养,团队合作能力和领导力集聚了情感、意志、性格等多重因素,对其进行心理测评时,需要在非智力表征、多元化结构和可测性呈现之间建立有机统一关系。一是关注情感交流能力。积极有效的情感交流是团队建立信任、凝聚共识、形成合力的关键要素,可以通过了解学生在小组或团队活动中是否积极参与、主动交流等行为进行考查。二是关注坚韧不拔的品质。领导者的坚韧意志是增强团队信心、激励团队士气和召唤团队愿景的必要品格,可以通过了解学生在团队活动遇到困难或挑战时是否能保持冷静并果断决策等行为进行考查。三是关注开放包容性格。领导者开放包容的性格有利于建立民主和谐、求实创新的团队氛围,激发团队的积极性、主动性和创造性,可以通过了解学生是否能倾听他人、平等对待团队成员等行为进行考查。三、探索拔尖创新人才早期培养改革路径拔尖创新人才培养是一个系统性、奠基性工程,必须破解当前同质化、浅表化、静态化、单向化等问题,从课程资源、学习场景、教学方式、衔接贯通、评价出口等方面深入推进一体化改革。(一)推动培养方式从单一模式转向系统发力首先,强化课程供给个性化。一是开发多样化的科学课程群,满足学生的个性化学习需求。在开足开齐开好科学类国家课程的基础上,构建多样化科学教育校本课程群,着力培养学生的科学素养和创新能力。二是开发个性化科学思维课程,进一步挖掘学生潜质。其次,推进学习场景实践化。一是夯实科学实验课程场景,尽可能把科学课开在实验室,并根据科学学科特点分层分类地开齐开好各类验证性实验和探究性实验课程。二是拓宽科学实践学习场景。以学校创新实验室或科技场馆为依托,以生活化、趣味性的科学小课题、小制作或小发明为抓手,推动知识学习、科学研究和实践创新三者有机结合。再次,落实项目式学习常态化。一是推进STEM或STEAM理念的项目式学习常态化。STEM教育作为推进科学教育实现跨界融合的项目式学习的重要方式,相对科学综合实践活动而言,其指向性、聚焦性更为明确。二是落实科研项目体验式学习常态化。进一步完善科研项目体验式学习的过程参与方案和考核评价机制,促进具有拔尖创新潜质的学生参与科研项目的定期化、系统化和实效化。最后,推动贯通培养长效化。一是充实、优化贯通培养的实施载体,通过设置高校与中学协同的专项管理机构,切实将英才计划、强基计划等项目重心转移到在培养中选拔、在选拔中培养相结合的模式上。二是建立健全贯通培养的考核机制。具体包括建立由考试招生部门牵头、中学和高校共同参与的考核评价机构,制订考核正面和负面清单实施细则,采取过程考核与结果考核、专项考核与综合考核相结合的方式推动拔尖创新人才贯通培养落地见效。(二)推动综合素质评价从“软挂钩”转向“硬挂钩”综合素质评价在拔尖创新人才培养中具有不可忽视的评价牵引作用,必须切实发挥其功能,使之成为重要的推动力量。一方面,要优化综合素质评价相关维度,既要将学生平时的实验操作和参加科学探究实践活动等表现纳入综合素质评价内容,也要将学生的创新潜质、非智力性优势因素等特征有机融入评价维度。另一方面,要强化综合素质评价的参考价值,采取低位排异与高位吸纳相结合的方式,着重关注拔尖创新人才综合素质的考查与评估,并以此作为高考录取或专业匹配实质性参照点。(三)推动强基计划从单向度选拔转向多维度选拔强基计划作为人才选拔的重要途径,虽然各个高校在选拔评价方式上有所不同,但基本以高考成绩和竞赛成绩为主要参考标准,成绩单向度录取倾向较为突出,多元录取难以有效落实。强基计划旨在吸引最优秀的学生投身基础研究,诸如动机、兴趣、情绪、意志、性格等非智力因素,既是优秀学生的必备潜质,也是投身基础研究的必要条件。因此,必须科学设计非智力因素考查方式,并把考查结果作为强基计划录取不可或缺的重要方面,为非智力因素优势潜质学生提供更多机会。此外,还可借助人工智能、虚拟现实、增强现实等现代技术,通过构建以解决问题为导向的学业成就测评实践场景,创新学业成就测评方式、丰富学业成就测评工具等途径,为学生创造更多选拔空间。(四)推动专业调剂从关注综合成绩转向关注优势特长目前,我国高校的专业录取主要依据学生的高考综合成绩,综合成绩优异的学生有优先专业录取,但学生进校后的专业调换方面,高校则有较大的决定权。具有拔尖创新潜质的学生往往具有某一方面的特长优势,如果过于关注学业综合成绩,并不利于其学业发展和个人成长。因此,高校可以为拔尖创新人才评价开辟专业调剂新通道。首先,纵向考查中学阶段拔尖创新优势的进阶效能。以学生在中学阶段科学素养优势特长为观照点,考查其在高校学习期间优势潜能的匹配空间和发展程度,形成个性化创新潜质优势进阶成长档案袋。其次,深入考查进入大学期间学业特长比较优势。可以重点考查学生在高校学习期间某一学科具有较强的学习能力和学业优势,以及与中学阶段相关学科关联效能,形成个性化学业优势追踪考查表。因此,以个性化创新潜质优势进阶成长档案袋和学业优势追踪考查表为依据,进一步增加优势学生专业调剂机会,拓宽拔尖创新人才成长通道。参考文献略

姚娟娟 王后雄:基于认知负荷理论的高考试题难度分析探讨

2025-04-14

引用格式:姚娟娟, 王后雄. 基于认知负荷理论的高考试题难度分析探讨[J]. 中国考试, 2025(4): 11-21.作 者姚娟娟,华中师范大学人工智能教育学部在读博士生。王后雄,华中师范大学人工智能教育学部教授(通信作者)。摘 要:科学设置试题难度对于实现高考科学性和公平性具有重要意义。基于认知负荷理论评估试题难度的理论依据主要包括三个方面,即以突出问题解决为逻辑起点、以强调主客统一为核心指向、以融合多维影响为关键内容。三种认知负荷共同影响试题难度,具体而言,内在认知负荷关涉试题难度的核心要素,外在认知负荷影响试题难度的表征方式,相关认知负荷影响面对试题难度的元认知能力。今后,应从学理研究、量化指标构建两个方面开展试题难度调控的可行性路径研究。关键词:认知负荷;试题难度;高考;考试公平;影响因素高考是一项大规模高利害考试,承载着为党育人、为国选才的职责使命。高考试题难度对实现“立德树人、服务选才、引导教学”核心功能具有重要作用,受到教师、学生、家长、社会人士等利益相关群体的高度关注。试题难度的预估和控制既是科学问题,也是社会问题[1]。2019年6月,国务院办公厅颁布的《关于新时代推进普通高中育人方式改革的指导意见》指出,要深化考试命题改革,科学设置试题难度,命题要符合相应学业质量标准,体现不同考试功能[2]。2019年12月,教育部考试中心制定的《中国高考评价体系》明确指出,高考考查要求涵盖基础性、综合性、应用性、创新性[3],对试题的难度设置具有指导作用。有研究指出,试题难度影响试题质量,并与高考公平紧密联系,试题难度过大过小都会影响试题区分度,进而影响高考公平性[4]。试题难度与认知高度相关,认知负荷(cognitive load)是加工特定数量信息时需要的心理能量水平[5],科学运用认知负荷理论能够丰富和拓展试题难度分析的内容与视角。当前,我国对基于认知负荷理论调控试题难度的作用机制研究较少。如何基于我国国情构建认知负荷与考试评价理念适配的试题难度调控理论体系,如何形成基于认知负荷理论的高考试题难度量化分析框架,建立可操作、可测量的试题难度评估指标体系,是认知负荷视角下解决试题难度的难点。鉴于此,本文试从认知负荷视角探讨科学评估试题难度的基本样态,多维度分析理论依据,以期为试题难度的准确预测和科学调控提供参考建议。一、认知负荷视角下的试题难度标定(一)认知负荷及其测量研究认知负荷理论由澳大利亚认知心理学家斯维勒(Sweller)于1988年提出,指在特定时间内施加于个体工作记忆的心理活动总量[6],主要依托资源有限理论和图式理论。从资源有限理论看,认知负荷的基本观点是个体工作记忆中的认知资源有限,只有学习任务引起的认知资源需求低于工作记忆中的认知资源储存时,学习任务才能有效完成。个体在处理认知活动时所能承受的认知负荷总量是一定的,当认知活动中消耗的认知负荷高于个体认知负荷总量时,个体的认知活动会被限制或阻碍。从图式理论看,认知负荷的消耗会随着图式的构建和自动化而降低,这是因为作为知识结构的图式能够将零散的信息整合成信息单元。当个体处理学习任务时,图式能够更高效地处理信息并避免消耗过多认知资源,进而降低认知负荷。因此,个体具备的图式越丰富、越系统,其在处理认知任务中承受的负荷越小。认知负荷有三个主要特点:一是有限性,个体所能承受的认知负荷总量是有限的,个体的学习效果或问题解决效率取决于任务是否超过个体认知负荷总量;二是多维性,根据引起负荷的来源不同,可以分为内在认知负荷(intrinsic cognitive load)、外在认知负荷(extraneous cognitiveload)和相关认知负荷(germane cognitive load)。这三类认知负荷具有可加性,其相加之和等于认知负荷总量;三是个体差异性,即不同个体的认知负荷总量不同。为了保证学习或任务不使个体产生过重的工作记忆负担而影响学习效果或任务解决效率,开展认知负荷的测量至关重要。通过科学准确地测量认知负荷,可以诊断和辨别个体在何种学习任务上出现工作记忆过重的问题。在教育技术领域,认知负荷的测量研究较为丰富,主要的测量方法包括双任务法、自我报告法、生理信号测量法以及多模态方法。在课程与教学领域,研究者尝试构建了基于认知负荷的测量工具,对教科书认知负荷[7]、教材插图[8]、教学设计[9]等专题开展研究,并提出有关教材内容编排及课堂教学的建议。在考试与评价领域,尽管已有研究支持认知负荷与试题难度之间存在密切关系[10],但如何利用认知负荷评估试题难度还有待进一步研究。(二)认知负荷与试题难度的内在关联认知负荷与试题难度之间具有紧密的内在关联,主要体现在两个方面。一是试题难度有赖于学生在认知活动中所能承受的认知负荷。试题解答过程属于认知加工过程,需要调动个体工作记忆中的认知资源并实施认知加工,因此该过程需要作答者承受认知负荷。在试题解答过程中,当学生承受的认知负荷低于其认知负荷总量时,即供大于求,学生会认为试题难度较低,能更好地解答试题;当学生在解答试题时承受的认知负荷高于其认知负荷总量时,即供不应求,学生会认为试题难度较高,且难以解答试题。简言之,个体在试题解答时需要的认知负荷越高,试题越难;需要的认知负荷越低,试题越容易。二是合理运用认知负荷理论,可以有效调控试题难度。在试题命制过程中,认知负荷理论可以为试题难度提供较为科学的标准和依据,通过综合考虑认知负荷对试题难度的影响,合理控制试题解答时所需的认知负荷,可以较好地把控试题难度。从认知负荷视角探讨试题难度,不仅要认识试题本身的固有难度,还要关注学生的感受,该视角下的试题难度包含测量难度与感受难度[11]。(三)试题难度分析及其一般过程所谓试题难度分析,是指对特定试题难易程度进行科学测量、收集信息、分析解释及报告反馈,旨在依据难度分析结果开展试题难度干预,并最终指导命题实践。基于认知负荷理论的试题难度分析包括五个基本步骤,见图1。1.确定试题难度诊断指标首先要明确考试性质。目前,主要有目标参照考试、常模参照考试两种考试形式,且这两类考试中的试题具有不同的测量目标、刺激情境和应答要求。其中,目标参照考试多为合格性水平考试,试卷难度较小(难度系数通常大于0.7),如初中学业水平考试、高中学业水平合格性考试等;常模参照考试多为选拔性考试,试卷难度通常较大,如中考、高考。其次,从认知负荷视角看,两种考试反映了学生在解决问题时的不同认知状态,该视角下试题难度诊断指标的确定需要统筹学生的认知操作、行为活动及情感投入等。2.明确试题难度分析方法试题难度标定主要包括事前标定和事后标定两种方法。事后标定法一般在考试后进行,基于统计测量学的得分率、通过率或难度值等表征试题难度,属于从学生问题解决结果的视角评定试题难度,相较而言更为简单和易操作。事前标定法是在试题设计阶段对难度进行评价,以认知心理学为基础,将试题解答过程看作一个复杂的认知加工过程,并将学生在试题解答过程中经历的认知努力作为评价标准,属于从学生问题解决过程的视角评定试题难度。这两种试题难度分析方法既有相同点,也有差异性。相同点是都立足于学生的问题解决过程。两者差异性主要表现为:事前标定强调过程,关涉人,事后标定强调结果,关涉物;事前标定需要深入表征学生的认知表现,进而实现难度分析,是建立在认知负荷视角下对试题难度开展分析的方法;事后标定的试题难度分析更加关注统计数值,而较少关注学生在解答试题过程中的认知操作、行为活动及情感投入等。3.解读试题难度分析结果准确解读试题难度分析结果,不仅有助于对试题难度做出合理的价值判断,而且可以指导并优化难度设计。该过程需要试题分析人员具备扎实的专业理论、娴熟的统计能力、良好的信息诊断能力、敏锐的问题洞察能力。借助教育学、心理学、测量与评价等学科知识开展试题难度分析结果的剖析与解释,有助于命题人员从中获取更有价值的信息。例如,通过分析试题难度、试卷难度分布、试卷总体难度,可以获得每道题的难度特点、试卷的难度分布比例及整体难度等信息。试题难度结果的呈现信息主要取决于试题难度诊断指标,该信息反映试题在各诊断指标上的难易程度,能明确试题究竟难在何处、易在哪里,从而探查影响试题难度的具体缘由[12]。总之,解读试题难度分析结果需要依托相关理论基础,借助量化研究、质性研究及混合研究等多种方法,强化难度结果信息呈现的精准化、直观化,从而提高试题难度分析结果的研究深度和指导意义。4.呈现试题难度分析内容试题难度分析内容,是指围绕试题分析核心考查内容、任务要求、情境素材、题型题量、试题结构、信息呈现方式等多方面的命题特点,并判断其难易程度,可以较为全面和客观地呈现影响试题难度的因素及各因素对学生问题解决过程的影响机制。例如,当聚焦情境素材对试题难度的影响时,呈现的分析内容应包括情境素材的文本长度、类型、熟悉度、复杂度以及情境素材与试题的关联度等信息,在此基础上深入剖析这些信息对学生问题解决过程的影响机制;当聚焦信息呈现方式对试题难度的影响时,分析内容包括纯文本、情节或故事文本、图表等非简单文本、故事与图表融合等呈现方式在试卷中的分布特点,及其对学生解答试题产生的认知负荷。5.优化命题工作优化命题工作是开展试题难度研究的目标导向和最终诉求。当下新课程改革提倡核心素养导向下的考试评价理念,若简单地基于得分率、通过率等调控试题考查内容、难度分布等,很难满足素养导向下的命题要求。以高中化学为例,新课标强调试题命制要以核心素养考查为宗旨,以真实情境为载体,测试任务要结构合理,控制试题难度[13]等。以上要求凸显了试题命制的两个核心原则,一是坚持素养立意,探索与素养考查匹配的试题难度设计,综合考虑基础性、综合性、应用性、创新性试题的分布比例;二是强调科学规范,合理选择情境素材,科学设置试题任务,丰富题目呈现形式等。可以看出,严格遵循试题设计理念和具体要求,把握试题难度调控原则,综合考虑多重因素,是改进试题难度的有效路径。二、基于认知负荷评定试题难度的理论阐释(一)突出问题解决是逻辑起点问题由问题情境、问题目标和问题空间构成。问题解决是个体经由问题空间从问题情境到问题目标所采取的一系列行动的过程,是一种认知途径和思维探索步骤[14]。试题本质上属于问题,是问题的一种具体化、标准化的表现形式,因此可以将试题解答看作是个体对具体问题的解决。试题解答的本质是认知活动中的思维过程,个体要运用自身的知识、能力、素养等各种资源,历经认知活动中的一系列思维操作进行解答,并将该过程中存在的阻碍感知为试题难度。基于认知负荷评定试题难度,需要关注学生在解决具体问题时所需要的资源和能力。当个体具备的知识、能力、素养等资源可以解决思维操作中存在的阻碍时,即个体原有认知资源可以用来理解和分析试题情境中的各种因素及其关系时,个体感知到的试题难度相对较低;反之,则个体感知到的试题难度会相对较高。因此,个体在试题情境的问题解决过程中所需要的认知资源与其已有的认知资源之间的差距,构成了试题难度的逻辑起点。(二)强调主客统一是核心指向试题难度可以看作试题(客体)对学生实践主体造成阻碍的程度。从认知负荷理论来看,这种阻碍程度是学生在完成试题任务过程中所需付出的认知努力程度,与个体先验知识紧密相关。基于认知负荷理论,试题难度评定不仅取决于试题的固有难度,更受制于学生的学业水平。目前,多数研究中的试题难度主要指试题统计难度,是借助得分率、通过率等测量学变量计算得出的,但试题的统计难度并不能充分反映试题的实际难度。在主客统一视角下,试题难度分析凸显试题与学生间的互动关系,当学生的知识储备、能力水平、思维发展等与试题要求拟合度较高时,试题反映为难度适中;当学生实际情况与试题要求拟合度较低时,试题过于复杂或过于简单。因此,试题难度应结合学生主体面对试题时产生的认知、体验、心理、态度等多种信息进行综合评价。总之,基于认知负荷理论,主客统一是评定试题难度的核心要义,只有在主客统一的基础上,试题难度评价才能更加真实和准确。(三)融合多维影响是关键内容根据引起负荷的来源不同,认知负荷可以分为内在认知负荷、外在认知负荷和相关认知负荷三类[15]。这三类负荷既有独立性也相互制约,共同影响学生在问题解决中的难度感知,见图2。基于认知负荷理论,当试题引发的三类认知负荷之和与学生认知负荷总量相匹配时,试题难度适中,学生也更有信心成功解答试题。因此,在分析试题难度时,首先要厘清试题解答过程是否引发学生产生三类认知负荷;其次要对引起认知负荷的不同维度进行详细评估,这有助于识别造成试题难度增加的认知负荷具体来源。即由于三类认知负荷对试题难度产生影响的本质不同,在分析试题难度时需将三类负荷作为关键内容进行全面分析,明确不同负荷的影响程度。基于试题中三类认知负荷的程度,可以实现更加精准化的试题难度评价,进而更好地预测试题难度及不同特点学生在完成相同任务时的认知表现。所以,认知负荷理论强调分析试题难度时要综合考虑不同维度的负荷影响,以此实现更为详尽细致的试题难度评价。三、认知负荷视角下试题难度的影响因素及例题分析影响试题难度的因素众多。综合已有研究发现,试题考查内容、认知要求、试题情境、题型题量、呈现方式、考试时间、学生已有认知水平等因素,都是影响试题难度的主要因素,其根源是学生在问题解决过程中产生的认知负荷。例如,Pollitt等研究指出,数学、英语、化学、地理等学科的试题难度来源主要包括概念难度、过程难度及问题难度,并基于考生视角分析他们在理解问题、搜索知识、匹配知识与问题、产生答案、写出答案等过程中可能存在的难度因素[16]。Collier等认为,试题难度的影响因素主要有任务类型、图形表征、学术用语和题目类型四个维度[17]。(一)内在认知负荷关涉试题难度的核心要素内在认知负荷是认知任务的内在特征施加于个体认知系统的负荷,与学习或问题解决紧密相关,其大小主要取决于认知任务中的元素数量及交互性,受个体先验知识的影响。一方面,当处理认知任务所需的元素个数较少、元素交互性较低时,施加于个体认知系统的内在认知负荷较低;当处理认知任务所需的元素个数较多、元素交互性较高时,个体内在认知负荷较大[18]。另一方面,在面对同一认知任务时,先验知识较丰富的个体感受到的内在认知负荷较低,先验知识较薄弱的个体感受到的内在认知负荷较高。在命制试题时,无法避免试题的内在认知负荷,且给定试题的内在认知负荷大小基本已经确定。因此,学生要将知识作为解决问题(试题)不可或缺的工具,并运用所学知识解决实际问题,即每道试题都具有内容难度,内在认知负荷赋予了试题难度必然性。在影响试题难度的众多因素中,与内在认知负荷关联的因素主要包括考查内容与要求、个体先验知识、试题情境特征、题型题量等。1.首要因素:考查内容与要求试题考查的内容越多,其认知要求就越高,所需要的内在认知负荷就越高,因此试题难度就越大。例如,有两类化学试题,前者考查圆底烧瓶、酸式滴定管、容量瓶等实验仪器的名称,后者考查化学方程式、离子方程式,前者所引发的内在认知负荷低于后者。这是因为,实验仪器通常是简单的词汇或短语,涉及的信息量较少,且实验仪器名称之间的关联性较低,不需要复杂的逻辑关系,因此学生在解决问题时无须耗费过多的认知资源,试题难度较小;对化学方程式、离子方程式的考查较为复杂,不仅涉及单质与化合物、离子与离子之间复杂的相互作用及转化关系,还需要考虑反应原理在化学方程式书写中的应用等知识点,因此会消耗学生更多的认知资源,试题难度较大。此外,根据高考评价体系中的“四翼”考查要求,基础性试题强调知识基础,综合性试题强调融会贯通,应用性试题强调学以致用,创新性试题强调创新意识和思维[3]。2.决定因素:个体先验知识个体认知系统中所建构和形成的自动化图式数量越多、关联度越高,个体在问题解决中的负荷越低。简言之,不同学生的学业水平不同,其在完成同一试题时所感受到的内在认知负荷也不同。面对同一道试题,学业水平较高的学生感受到的认知负荷较低,认为试题难度较低;学业水平较低的学生感受到的认知负荷较高,认为试题难度较高。以前述两类化学试题为例,从考查内容与要求上看,虽然考查离子方程式书写所引起的内在认知负荷较高,但如果学生对该知识点已经形成自动化图式,则该项考查并不会引起过高的内在认知负荷;如果没有形成自动化图式,则学生需要考虑更多的问题解决要素,从而产生较高的内在认知负荷。3.关键因素:试题情境特征《高考评价体系》明确将情境作为试题考查载体[3]。高考试题以生活实践情境与学习探索情境为载体,多方面选材,创设贴近生产生活实际的典型情境,巧妙结合学科内容,在考查学生发现、分析、解决问题的基础上评价素养发展水平[19]。但也有研究指出,试题情境化会增加试题信息量,使试题难度增加[20]。例如,在考查FeCl3与Cu的反应时,一种考查方式是以覆铜板制作印刷电路板为背景,呈现情境信息后进行设问;另一种是直接提问FeCl3与Cu反应的化学方程式。由于第一种方法需要学生思考覆铜板材质、蚀刻液成分等关键信息后再进行符号表征,因此试题难度更大。其基本逻辑在于,情境试题通常表现为背景信息丰富、题干描述真实、考查应用能力与高阶思维等特点,学生解答试题时需要从背景描述中理解和提取关键信息;同时,情境试题还需将自然语言抽象为学科语言、将生活问题转化为学科问题,学生处理信息的复杂性更大。因此,遇到涉及情境理解、要素提取、信息转化、知识应用等多任务要求而耗费更多的认知资源的试题时,学生感知到的内在认知负荷增大,试题难度也明显提高。课程改革提倡情境化试题命制,但引入情境会影响试题难度,因此要科学设置情境化试题。4.主要因素:题型题量从题型角度看,由于选择题已经提供了答案选项,因此任务复杂性较低;对非选择题而言,一般需要学生自己构建和生成答案,因此任务复杂性较高,给学生造成的内在认知负荷也较高,难度普遍高于选择题。从题量角度看,认知负荷主要与考试时长有关。在限定的考试时间内,如果题量过大,多数学生需要较高的认知负荷,因此会更关注如何快速解题,而不是更好地解决问题;如果题量过小,多数学生在面对试题时都有足够的认知资源储备,因此感受到的认知负荷较低,作答也就更快。有研究指出,内在认知负荷依赖于在工作记忆中追踪和处理信息时的可用时间,用于维护和处理信息的时间越多,内在认知负荷越低;时间越少,内在认知负荷越高[21]。因此,题量对试题难度的影响可以表述为:作答时间减少,学生单位时间内处理的信息量加大,其内在认知负荷变高,试题变难;作答时间延长,学生单位时间内处理的信息量减少,其内在认知负荷变低,试题变容易;但当时间延长到一定程度后,由于试题存在知识内容引起固有难度而导致内在认知负荷变化不显著,见图3。(二)外在认知负荷影响试题难度的表征方式外在认知负荷是指因学习任务的组织与呈现方式不当而引发的认知负荷,属于无效认知负荷,因此要尽量降低或避免。有研究指出,外在认知负荷是将学生的思考活动从要解决的问题中抽离出来,不利于个体学习或问题解决效果,其主要来源于学生在完成任务中寻找有用信息或关注无效内容时分散的认知努力[7]。在试题设计中,外在认知负荷主要是由与测量目标无关的因素引发的,因此学生不应该将有限的认知资源投入到与解决任务无关的努力上。外在认知负荷过高,导致试题难度加大,进而影响试题质量。只有科学控制外在认知负荷,才能保证学生在试题解答过程中的反应是其真实水平。在影响试题难度的众多因素中,与外在认知负荷关联的因素主要有冗余效应、信息呈现方式、难度梯度等。1.冗余效应干扰试题关键信息的获取冗余效应是引发外在认知负荷的典型因素,主要表现为重复出现不同形式的相同信息。这会争夺有限的工作记忆资源,造成个体在处理相同信息时产生情境干扰,从而增大外在认知负荷。在试题中,信息以不同形式出现的基本原则是信息不可替代且互为补充,即单一信息无法被独立理解,并且是必要的、不可或缺的。当试题中存在冗余信息时,学生难以在关键信息上集中精力,甚至会忽略关键信息。例如,某题同时用文字和图像传达相同信息,造成的信息冗余将引发外在认知负荷,增加试题解答难度。2.信息呈现方式是影响外在认知负荷的关键信息呈现方式主要指信息传递给学生的具体方式和方法。当试题信息呈现方式为纯文本的叙述性表征时,文字信息越清晰、越准确,学生越不会产生疑惑或误解;如果信息表达模糊、不科学、不准确,学生就不得不把大量精力放在反复阅读题目上,从而引发外在认知负荷。当信息呈现方式为包含图表的形象表征时,要确保试题中文字与图表在空间上紧密联系,从而有助于学生整合解题信息;如果有跨页设计则会导致注意力分散,从而增加不必要的外在认知负荷。因此,试题设计强调注意集中原则,在视觉元素组织方面遵循一定的视觉搜索原则,使学习者能以最短的视觉搜索线路找到任务[22]。此外,如果试题在形象表征中存在不合时宜或偏离现实的插图与表格,或引入烦琐且不必要的装饰性元素,也会增加学生在解决任务中的外在认知负荷。3.难度梯度要关注负荷衰减效应难度梯度主要指试题按照难度递进或递减的顺序排列,是引起外在认知负荷的因素之一。由于每道题目都会给学生造成认知负荷,且试卷中的题目是连续的,解决各个题目所需的知识、技能、策略不一致,因此各个题目消耗的认知负荷是可以累积的。基于认知负荷资源总量有限的理论,学生在解决试题中受到负荷衰减效应的影响。利用量化数据可以解释为,假设一位学生的认知负荷资源总量为100个图式单位,当第1题消耗60个图式单位(题目较难)时,学生只剩余40个图式单位的资源可以分配给其他题目,因此会直接影响学生对后续试题的作答感受及准确率。因此,一般情况下应将试题按照从简单到复杂的顺序进行排列,避免学生一开始就面对高认知负荷试题而影响其真实水平的发挥。(三)相关认知负荷影响学生对试题难度的元认知能力相关认知负荷是个体在完成某一任务的过程中,把剩余的认知资源用于与解决任务直接相关的加工时所产生的认知负荷[23]。该认知负荷强调学生在信息加工过程中的心理努力程度,程度越强相关认知负荷越高,同时伴随情绪唤醒水平的提高[24]。值得说明的是,该认知负荷在问题解决过程中并非必须投入,但投入后有助于问题解决,可以帮助学生更快捕捉问题解决的策略和方法,从而驱动学生深入思考、加快信息加工效率、提升问题解决效果,因此属于有效认知负荷。该认知负荷主要来源于对认知活动的监控和认知策略的实施过程,表征学生调控自身以使其在认知活动中投入的认知资源,一定程度上反映了学生的元认知能力。对试题而言,当其引发的内在、外在认知负荷已经确定且尚未超负荷时,学生可以有意识地调节相关认知负荷以使有限的认知资源合理分配。相关认知负荷虽然有助于学生解决问题,但需要付出额外努力,这让学生感到试题作答的挑战性。在试题解答过程中,相关认知负荷的表现形式分为内隐和外显两个方面。1.内隐相关认知负荷相关认知负荷与学习者的动机有关,反映处理学习内容的投入程度[25]。内隐的相关认知负荷可以表现为学生处理问题任务时的积极心理、情绪管理及心理暗示等自我控制策略,具体如学生调动可用的认知资源以集中注意力、维持正面情绪、保持积极心态、进行积极心理暗示等。在试题作答过程中,积极的心理状态有助于学生集中注意力,帮助他们在问题解决活动中专注于整合和处理信息。情绪管理强调学生维持正面情绪,正面情绪有助于学生对问题解决产生内部动机,更愿意投入精力和努力解决问题,体现了学生的主动性。2.外显相关认知负荷相关认知负荷是与认知过程相关的有意识的策略运用[26]。外显的相关认知负荷反映学生在作答过程中对关键内容信息进行的勾画标注、题目推演、画图演绎等。在问题解决过程中,通过勾画标注与问题解决有关的关键信息,学生可以更好地组织、提取信息并进行信息筛选和分类,从而有助于构建问题解决图式;通过题目推演,学生主动将获取的信息与已有知识相联系,关涉信息处理与逻辑推理有关的认知资源;通过画图演绎,学生将复杂文字信息转化为更加直观和易于理解的图示信息,从而有助于信息优化处理和组织。总之,上述策略和方法有助于学生在面对陌生情境和问题时快速进行情境关联、问题归类,实现知识自主迁移,从而强化问题解决的准确性和速度,但明显提高了学生的相关认知负荷。(四)例题分析基于对三类认知负荷的研究分析,以一道高考题为例,说明认知负荷理论在试题难度分析中的实际应用。一种可植入体内的微型电池工作原理如图所示,通过CuO催化消耗血糖发电,从而控制血糖浓度。当传感器检测到血糖浓度高于标准,电池启动。血糖浓度下降至标准,电池停止工作。(血糖浓度以葡萄糖浓度计)电池工作时,下列叙述错误的是()A.电池总反应为:2C6H12O6+O2=2C6H12O7B.b电极上CuO通过Cu(Ⅱ)和Cu(Ⅰ)相互转变起催化作用C.消耗18mg葡萄糖,理论上a电极有0.4mmol电子流入D.两电极间血液中的Na+在电场驱动下的迁移方向为b→a从内在认知负荷角度分析,学生需要具备电化学知识,包括原电池总反应、电极方程式书写、电子流向、离子迁移方向以及氧化还原反应、化学计算等,涉及多个关联知识点,能力要求达到综合应用要求;试题以实际应用情境(微型电池控制血糖)为素材,增加了学生提取信息的资源消耗,内在认知负荷较高。从外在认知负荷角度分析,该题目包括文字与图像两种不同呈现方式,题干中描述的血糖浓度与电池启停关系影响学生对题目的理解,从而存在一定程度的外在认知负荷。从相关认知负荷角度分析,学生需要集中精力实现图像信息与化学用语间的转化,如勾画或标注以厘清电子流向、离子迁移方向等,这需要学生深度思考并由此产生相关认知负荷。综上,通过定性判断学生在解决该题时需要进行的知识整合与抽象推理,可以推测该题目难度较高。四、基于认知负荷理论调控试题难度的路径分析试题难度是教育考试的一项重要指标,也是评价考生水平和试题质量的依据之一[27]。认知负荷理论对探讨高考试题难度问题具有重要价值,强调从认知资源分配角度考查问题解决过程,并关注从主客交互视角设计试题难度。基于认知负荷理论调控试题难度,有助于提高试题科学性、公平性。具体表现为:适切的内在认知负荷使试题难度与学生学业水平相匹配,从而保证试题区分度;恰当的外在认知负荷使试题尽可能降低不必要的复杂性,从而避免对学生问题解决过程的干扰;必要的相关认知负荷启发学生将认知资源聚焦于关键信息捕捉与处理,促进学生深度思考,从而有助于实现负荷合理、难度适中、质量提升的试题命制目标。首先,参考国际研究成果中的经验范式,立足我国教情、学情、考情持续开展认知负荷与试题难度的相关研究,不断形成和丰富理论研究成果,以此指导我国高考试题难度的设计与评定。例如,借助学理研究论证试题难度调控为何要立足认知资源分配,突出不同认知负荷的协同作用;从学生认知资源储备与资源分配合理性视角深度剖析试题难度不稳定的根本原因,进一步明确如何基于我国学生学业质量水平进行试题难度调控;深入探讨三类认知负荷对试题难度影响的具体机制,解构三类认知负荷与认知资源消耗的关系,阐明三类认知负荷在影响试题难度中所具有的累加效应、主导效应及平衡效应,从理论层面诠释高考试题难度的应然样态。其次,组建包括学科命题专家、教育测量专家、认知心理专家等在内的研究团队,为构建认知负荷理论下的试题难度量化指标体系提供强大的智力支撑。一方面,研究团队对三类认知负荷开展混合性研究,可通过综合使用德尔菲法、层次分析法等研究方法进行主观评估和客观量化,探索三类认知负荷及关联要素对试题难度定性、定量的影响。另一方面,研究团队可在大量实证研究基础上进行试题难度的探索性分析,为定量评估试题难度与三种认知负荷之间的关系提供数据支撑。最后,要以新高考分省命题为契机,围绕高考试题难度命制的理论问题和技术问题开展科研攻关,在试题难度理论与技术、测量模型、应用系统等领域实现进一步创新和突破,强化认知负荷理论对高考试题难度评估的支撑作用,提升高考试题难度调控科学化水平。参考文献略

刘友棚 洪秀敏:人机交互技术辅助儿童发展评估: 现状、特征与展望

2025-03-25

引用格式:刘友棚, 洪秀敏. 人机交互技术辅助儿童发展评估:现状、特征与展望[J]. 中国考试, 2025(3): 51-60.作 者刘友棚,中国教育科学研究院基础教育研究所助理研究员。洪秀敏,北京师范大学学前教育研究所所长,教授(通信作者)。摘 要:探索人机交互辅助儿童发展评估有助于推进新时代儿童心理发展与教育评价改革。当前,以触屏设备和类人型机器人为代表的人机交互技术被广泛应用于辅助儿童发展评估,它们通过创设基于游戏的评估情境、即时给予儿童积极性反馈、模拟真实的社交互动行为、监测儿童情绪反应以及自动记录评估数据等方式,强化了儿童发展评估的游戏趣味性、具身互动性、真实属性以及便捷高效等特征。面向未来,应积极推动人机交互与儿童发展评估的深度融合,借助人机交互技术探索个性化评估、实施纵向性评估、推进多模态评估,为儿童身心全面发展提供更为精准、适宜的教育指导和支持。关键词:人机交互;儿童发展评估;数字化评估;教育评价改革一、问题提出儿童发展评估是指通过观察、访谈、测验、实验、调查等技术手段,获得儿童的有关身体、动作、语言、认知、情感、社会能力等方面的数据和信息,进而对其发展状况做出价值判断的过程[1]。实施儿童发展评估是确定儿童发展水平的必要手段,对于衡量教学计划或活动是否达到预定目标、调整和实施适宜性教育教学、促进儿童健康发展具有重要的价值意义[2]。当前,我国儿童发展评估方式以量表、测验、观察、访谈等为主,为人们了解儿童发展状况提供了重要依据。然而,随着评估理念和技术的迭代更新,这些评估方式的局限性日益显现。例如,使用量表评估时,对婴幼儿或未识字儿童的评估多依赖于家长或教师来填写,儿童主体性在评估中被严重削弱。又如,在结构化访谈评估中,答案选项通常由评估者事先准备好,无法充分反映儿童的实际想法,也不适用于年龄较小或语言发展缓慢的儿童。中共中央国务院在《深化新时代教育评价改革总体方案》中明确指出,要充分利用信息技术,提高教育评价的科学性、专业性、客观性,利用现代信息技术创新评价工具[3]。如何利用现代信息技术革新优化传统的儿童发展评估方式,是教育评价领域一个亟待探索的问题。近年来,人机交互技术为儿童发展评估的革新优化提供了新路径。人机交互是指通过机器/计算机/机器人输入、输出设备以及相应的软件,以有效方式实现人机对话的一种技术[4-5]。依据接触的程度,人机交互可划分为接触式交互(如键盘、触屏等)和非接触式间接交互(如眼动追踪、语音识别、面部识别等)。近年来,随着人机交互技术的普及,国内外学者尝试将人机交互应用于儿童发展评估中,如采用触屏设备(touchscreen)、类人型机器人(humanoid robot)等,将传统线下评估中呈现的纸质评估材料、口头描述评估任务、手动记录评估结果等转变为触屏设备或类人型机器人自动呈现评估材料和评估任务、自动录入和保存评估结果。此类评估利用人机交互的互动性、趣味性及便携性等功能特征,充分激发和维持儿童的具身性参与,能够确保评估采集到更为真实、有效的数据。可以说,人机交互技术在赋能儿童发展评估上具有巨大潜力。本文聚焦人机交互辅助儿童发展评估这一核心话题,通过梳理分析国内外新近文献,阐述人机交互辅助儿童发展评估的现状,总结其发展特征,并据此思考和展望人机交互技术应用于儿童发展评估的未来方向,以期为新时代教育评价改革创新提供参考。二、人机交互辅助儿童发展评估的现状本文主要以触屏设备和类人型机器人两类典型性技术为例来考察人机交互辅助儿童发展评估的基本现状。下文围绕这两类技术模式予以阐述。(一)触屏设备辅助儿童发展评估触屏指一种可以感知并且对触碰到屏幕的物体(例如手指、输入笔等)作出响应的电子显示屏。智能手机、平板电脑、触屏电脑等都是触屏技术的应用体现[6]。触屏不仅可以为用户提供可视化信息内容,还可以感知和理解人类行为并接受用户的直接输入。以平板电脑为例,用户可以对电子屏幕进行点击、拖动、滑动、自由旋转、捏压、轻弹等触摸方式,或者输入文字、语音,向平板电脑发出指令,以实现自身的需求。触屏设备辅助儿童发展评估主要以多点触控、手势识别、语音识别等为技术支撑,通过触屏设备的动画、语音等功能来呈现评估材料、解读评估任务,儿童根据触屏设备的语音提示、图片提示或视频,通过各种触摸方式回应触屏设备,还可通过语音表达与其进行互动,触屏设备自动记录儿童的触屏或语音数据,以完成整个评估。1.儿童对触屏设备的接受情况儿童对触屏设备的接受程度直接影响评估效果。因此,在阐述触屏设备辅助儿童发展评估之前,有必要了解儿童关于触屏设备的接受情况。对于当代儿童而言,触屏设备是其最常接触且最为感兴趣的人机交互技术之一。一方面,许多儿童从小成长于能够接触触屏设备的环境之中。我国上海地区一项针对1~3岁儿童的调查显示,96.5%的儿童在家庭中有使用智能手机的经验,87.7%的儿童在家庭中有使用平板电脑的经验,47.4%的儿童每天至少使用一次智能手机[7]。针对英国儿童的调查发现,三分之二的儿童拥有自己的智能手机[8]。另一项针对美国低收入家庭的研究发现,50%以上的儿童在3岁时便拥有自己的平板电脑[9]。可见,当代许多儿童的日常生活离不开触屏设备,即使是年龄较小的婴幼儿,日常活动也与触屏设备紧密相联。另一方面,儿童熟悉操作触屏设备。Aziz等在马来西亚和英国调查了2~5岁儿童在使用iPad时的触屏能力,发现2岁的幼儿已掌握了点击和拖动/滑动的触屏方式,3岁的幼儿能够使用点击、拖动/滑动、自由旋转、拖放、捏压和轻弹的触屏方式,4岁幼儿的触屏模式已接近成人[10]。与此同时,由于触屏设备包含许多具有教育性的游戏类应用程序,可以为儿童提供有别于现实生活的游戏体验,儿童能够从中获得愉悦的情绪感受[11]。总体而言,当代儿童不仅在日常生活中经常接触智能手机、平板电脑等触屏设备,而且能够较为熟练地使用触屏设备。这意味着,将触屏设备作为辅助儿童发展评估的工具具有可行性,儿童在参与评估时有能力自主操作触屏设备,以完成评估任务。2.触屏设备辅助儿童发展评估的模式触屏设备辅助儿童发展评估的模式主要表现在三方面,即创设基于游戏的评估情境、增强评估过程的即时反馈、自动记录儿童的评估数据。首先,通过触屏设备创设基于游戏的评估情境,让儿童在参与游戏的过程中顺利接受评估。触屏设备的视频、图片、音频等功能可以为儿童创设富有故事性的情境画面(如卡通人物、情节故事等),促使儿童在游戏中完成评估任务。例如,刘倩倩通过触屏设备创设了“熊猫乐园”这一游戏情境,以评估3~6岁幼儿的国家知识、爱国判断、国家归属、国家自豪、国家自尊、探索了解、尊重保护等国家认同发展指标。该评估以卡通熊猫闯关为游戏主题,借助触屏设备中的熊猫形象向幼儿讲述游戏规则、提出问题(测评题目)等,幼儿根据熊猫指令操作屏幕(触屏互动)或以语音回答问题(语音互动)来完成评估任务[12]。又如,澳大利亚纽卡斯尔大学研究人员Day等开发了一款旨在评估6~12岁儿童社会情感发展的游戏应用程序Rumble's Ques。在该评估中,儿童可选择一个卡通人物作为游戏角色;游戏过程中,代表儿童的卡通人物会遇到另一个主角(一个名为Rumble的迷路孩子);儿童的任务就是帮助Rumble找到回家的路。在这一过程中,儿童需通过触屏设备与Rumble进行交流,Rumble则会通过提问了解儿童的社会情感发展水平,提问形式包括图片、文字和语音播放,提问内容为测评题目[13]。再如,美国3C研究院(3C Institute)研究人员Craig等通过一款名为Zoo U的智能化游戏系统,评估7~12岁儿童的社会问题解决能力[14]。在游戏开启前,儿童可在系统中选择男性或女性头像以及相应服饰,以代表自己在游戏中的角色身份;在游戏过程中,儿童通过点击虚拟人物启动对话,并根据情境任务选择代表行为决策的图片(实为测评题目),以完成评估目的。可以说,将触屏设备应用于儿童发展评估,最为常见的方式就是借助触屏设备创设一种游戏化的评估情境。评估任务以游戏形式呈现,儿童在评估中不再被认为是被评估对象,而是游戏玩家,在不知不觉中完成评估。其次,通过触屏设备即时给予儿童积极性反馈,确保儿童在评估过程中保持较好的注意力。受身心发展特征的影响,儿童在参与评估中较易分散注意力,尤其在一些测评内容较多的评估中,难以长时间维持参与到评估中的状态。因此,评估需要及时给予儿童反馈。从现有研究看,基于触屏设备的评估在儿童完成每一个评估项目时,均会即时以语音或动画的形式给予其积极反馈。例如,陈靓影基于触屏设备评估了4~6岁孤独症儿童对自我的认知和对赞赏的反应,评估以人机交互的游戏形式进行。在其评估系统中,当儿童每答对一道题,系统即会发出“你真棒!”“你真厉害!”等赞赏性语音反馈[15]。在刘倩倩所研制的学前儿童国家认同游戏化评估系统中[12],当儿童完成每个关卡任务时,游戏中的卡通熊猫均会发出语音“恭喜你,小朋友,你已经完成第一关啦,继续加油吧!”,以激励儿童继续参与游戏,直至完成所有的评估任务。最后,通过触屏设备自动记录评估数据,可以实现评估过程的便捷高效。触屏设备中的触摸屏技术、语音识别技术、无线联网技术等能够记录、存储儿童的触屏行为和语音内容,以此作为评估儿童发展水平的重要指标。例如,McKown研究团队所研制的儿童社会情感能力评估系统SELweb,能够自动记录儿童的触屏或点击鼠标的反应并生成报告以反馈给教师[16]。上文所提到的Rumble's Ques评估系统、“熊猫乐园”等,其内部系统均能自动记录幼儿触屏的图画选项及其回答卡通人物时的语音内容,并自动整理和输出相应的数据结果。总之,在触摸屏技术、语音识别技术以及无线联网等技术的加持下,儿童在评估系统中的诸多反应均被自动记录、存储和处理,整个评估程序相对便捷高效。3.触屏设备辅助儿童发展评估的成效多项研究证实,基于触屏设备的儿童发展评估具有良好的信效度。例如,Frank等通过探究触屏设备评估1~4岁婴幼儿认知发展,发现触屏设备辅助儿童认知评估的可靠性,与行为数据记录、眼动追踪等评估方式的成效相近,部分表现还更有优势[11]。Derosier研究发现,儿童社会问题解决能力评估系统Zoo U的评估结果与教师或家长所报告的儿童社交技能水平之间存在显著相关[17]。再如,刘倩倩的研究发现,基于传统测验法获得的数据与基于触屏设备所获的数据之间存在高相关,相关系数介于0.83~0.87[12]。高春颍等认为,触屏设备辅助儿童发展评估具备良好的可行性和有效性,能够应用于儿童多领域的评估之中[18]。可以说,触屏设备应用于儿童发展评估的成效能够达到甚至超越传统评估方法。总体而言,在基于触屏设备的儿童发展评估中,评估的游戏性、趣味性得到凸显,儿童对评估具有较大的兴趣和主动性,其视觉、听觉、触觉等均参与其中,儿童在评估中的具身性被充分激发。(二)类人型机器人辅助儿童发展评估类人型机器人指一种在现实环境中基于以人为本的方式与人类共同互动的实体化机器人,具有物理存在性、自主或半自主行动性以及基于社会规范的互动性等特征[19-20],如国际市场上流行的Nao机器人、Pepper机器人、QT机器人等。类人型机器人以语音识别、情绪识别、肢体动作捕捉、传感器、编程、仿生科技等为技术支撑辅助儿童发展评估,通过语音、肢体动作等为儿童呈现评估材料、解读评估任务,儿童根据类人型机器人的指令做出语音、眼神、肢体动作等反应以完成评估任务,类人型机器人自动记录儿童的评估数据。1.儿童对类人型机器人的接受情况作为一种新型技术产品,类人型机器人形象生动,且具有语音互动、动作表达、面孔识别、答疑解惑等功能,对于儿童而言具有较强的吸引力。首先,类人型机器人易于激发儿童的好奇心,吸引儿童的兴趣。有研究发现,92%的儿童对类人型机器人表现出喜好之情[21]。儿童天生对玩具情有独钟,类人型机器人由于具有类人特征,且一定程度上能说会道、行动方便,其功能超越了如洋娃娃、汽车模型等传统玩具,因而深受儿童青睐。其次,儿童与类人型机器人之间关系较为和谐。李洁等发现,学前儿童在心理属性和知觉属性上均认为机器人具有感知性和情感性,他们想与类人型机器人成为朋友并与之互动的意愿较积极[22]。Kahn等同样发现,儿童认为机器人具备智力、兴趣、情绪情感等心理特征,并赋予其友善、可信任等品质[23]。即使有研究者向儿童告知机器人的机器性质,儿童关于机器人具有思维、情感等心理能力的看法并未被削弱[24]。再次,儿童能够自主操作和使用机器人。有研究发现,12个月大的婴儿可通过类人型机器人的目光凝视来进行物体学习(object learning)[25],年仅3岁的儿童便可通过机器人干预习得计算思维概念[26],4岁儿童即能使用编程来设计和操控机器人[27]。最后,类人型机器人正逐渐融入儿童的日常生活中。美国商业情报联盟(Allied Business Intelligence)预测,到2024年,全球超过7900万个家庭至少拥有一台智能机器人[28]。可以预见,随着机器人技术的迅速发展,类人型机器人将像智能手机、平板电脑那样成为儿童生活和学习的重要组成部分。总体来说,儿童与类人型机器人之间关系和谐,儿童通常会将类人型机器人视为好朋友、好伙伴。类人型机器人具有自主或半自主行动性,儿童只要具备基本的听说能力,就能与类人型机器人进行互动。这为类人型机器人有效赋能儿童发展评估提供了重要支撑,确保类人型机器人辅助儿童发展评估具备可行性。2.类人型机器人辅助儿童发展评估的模式类人型机器人辅助儿童发展评估的模式的主要特征包括能够模拟真实的社会交往情境、监测儿童的情绪反应、即时给予儿童积极性反馈、自动记录儿童的评估数据等。本文主要介绍前两个方面。其一,借助类人型机器人模拟真实社交互动情境,为儿童创设自然化的评估环境。类人型机器人主要通过语音识别、眼神互动、肢体互动等创设较为真实的社交情境,儿童在与其互动过程中完成评估任务。类人型机器人一般具有眼睛、嘴巴、手、脚等类人部位,可以模仿人类的方式与儿童进行互动,引导儿童完成评估。例如,Ramírez-Duque等使用类人型机器人评估特殊儿童的联合注意力[29]。具体来说,在评估之前,儿童与类人型机器人进行3~5分钟的游戏,以增进儿童与机器人之间的熟悉感。评估任务开启后,类人型机器人要求儿童眼睛看向房间的某一玩具(如直升机、摩托车、卡车等),通过语音发出诸如“小明,请你看看直升机”这样的指令,如果儿童在五秒之内作出正确反应,类人型机器人则会进一步通过语音或肢体动作鼓励儿童,如“小明,干得好!让我们继续下一步任务”。在这一过程中,机器人发出的指令由单一逐渐转为多维,评估任务由简单趋向复杂。Leite等的研究则认为,类人型机器人所表现出来的注意力引导、同理心以及所营造的社交情感氛围,都在不断向真实的社交互动情境靠拢[30]。可以看出,类人型机器人在评估中扮演着人类评估员的角色,能够模拟真实的社交互动情境,并借助语音指令、赞赏表扬等引导儿童在人机互动中完成评估。其二,类人型机器人可以监测儿童在评估期间的情绪反应。其主要通过情绪识别等技术了解儿童参与评估过程中的情绪状态。Alnajjar等在研究中使用类人型机器人评估特殊儿童的注意力水平[31]。评估期间,类人型机器人与儿童进行游戏对话,置于类人型机器人胸前的摄像头能够随时检测儿童的脸部,并根据儿童脸部进入摄像范围的面积给予儿童注意力1~5的评分;与此同时,类人型机器人能够对游戏对话期间的儿童情绪状态(快乐、悲伤、愤怒、惊讶和中性)进行即时监测。相对传统评估而言,仅凭肉眼难以准确区分儿童脸部的情绪表现,尤其一些微表情难以被及时发现和监测;但对于类人型机器人而言,实现这一目的则较为容易。3.类人型机器人辅助儿童发展评估的成效当前,多数研究将类人型机器人应用于特殊儿童的相关评估和诊断中(如多动症、联合注意力等),并证实类人型机器人的评估成效是乐观的。例如,Choi等借助类人型机器人评估小学三年级至四年级儿童的多动症[32]。评估期间,类人型机器人要求儿童完成相应任务,其内部系统中的传感器会对儿童的行为和动作进行即时检测和评估。结果发现,类人型机器人对儿童多动症的评估准确率高达97%,可以成为临床医生和特殊教师用于诊断儿童多动症的实用工具。Ramírez-Duque等的研究发现,类人型机器人能够通过对联合注意力的评估帮助医生诊断儿童的孤独症情况[29]。Alnajjar等的研究同样发现,类人型机器人对儿童注意力状态的评估结果与治疗师评估结果有80%以上的一致性[31]。可见,将类人型机器人应用于特殊儿童的发展诊断具有显著成效。总体而言,如果将基于触屏设备的评估看作单一系统的人机交互平台,那么类人型机器人辅助儿童发展评估则可被视为合成多个系统的人机交互平台。也就是说,基于触屏设备的评估依赖于单一的电子屏幕,而基于类人型机器人的评估,则通过类人型机器人的目光凝视、面部表情、身体运动、头部运动、手势、人际距离控制和语音交流等与儿童进行自主或半自主的沟通,引导儿童完成评估任务。三、人机交互辅助儿童发展评估的主要特征相比于量表、观察、访谈等传统评估方式,人机交互辅助儿童发展评估的价值特征主要体现在四个方面,即游戏趣味性、多维互动、真实属性、便捷高效等。(一)赋予评估游戏趣味性,适应儿童心理发展特征游戏是儿童基本生存的需要,是儿童身体活动、认知活动、社交活动的需要[33]。儿童在游戏情境中,能够充分地表现自己。因此,为儿童创设一个富有游戏性的评估情境,并强化其趣味性,有助于儿童在评估中表现出自己的真实水平,提升评估的有效性。首先,触屏设备、类人型机器人通常安装有娱乐性游戏、教育性游戏等软件程序。通过人机交互技术来呈现评估任务,可以将评估“包装”成游戏,进而促使儿童从心理上视评估活动为游戏。因此,当儿童看到触屏设备或机器人时,参与评估的积极性和主动性就会被大大激发。其次,人机交互技术辅助下的评估过程富有游戏性。人机交互技术在创设丰富的视觉和听觉情境、提供虚拟角色互动、即时给予奖励等方面具有优势,能够为儿童在参与评估的过程中提供良好的游戏体验,更容易鼓励、引导儿童有效完成整个评估流程。(二)增进评估的多维互动,促使儿童具身参与评估儿童的身心机能仍处于发展阶段,这也意味着儿童在参与评估期间可能存在注意力分散或精神集中时间不持久等问题,从而影响评估成效。因此,理想的评估工具应当既能轻易激发又能够较长时间维持儿童参与评估的兴趣、好奇心、注意力等。从已有研究来看,人机交互技术辅助下的儿童发展评估在这方面具有显著优势,其评估任务通常经由图片、视频、音频、机器肢体动作等多种方式传递,能够从视觉、听觉、触觉、动觉等多个维度增进儿童在评估过程中的多感官互动,促使儿童在持续性、多通道的互动过程中维持良好的兴趣、好奇心、注意力等,确保儿童具身性参与评估,以采集到真实、有效的数据。(三)追求评估的真实性,激活儿童现实生活经验当个体处于一个较为真实的虚拟情境时,大脑中的镜像神经元就会被激活,个体大脑即会联系以往真实生活中的相似经验,呈现与当下所看到的事物相似的画面[34-35]。在评估中,要想激活儿童的镜像神经元,让儿童通过评估材料的刺激联想到其现实生活经验,进而表现出真实的发展水平,评估工具需要具备高水准的真实属性。基于人机交互技术的评估为实现这一目的提供了可行性路径。例如,在类人型机器人辅助下的评估中,机器人在某种程度上扮演儿童的同伴、教师、朋友等角色,通过编程、联网等操作,与儿童进行语音、肢体、眼神等互动,为儿童创设了一个近乎真实的社交情境。当儿童在与类人型机器人互动时,会比较容易以自然的方式激活并运用以往生活经验,从而采集到儿童更真实的表现数据。(四)实现评估的便捷高效,保障评估工作的效率水平相比传统评估方式,人机交互辅助下的儿童发展评估更为便捷高效。首先,人机交互技术有助于减轻测试者的负担。在传统的评估中,测试者一般需要先通过开展游戏来激发儿童的兴趣,增进儿童对评估环境的熟悉程度;评估过程中,测试者需要手动记录儿童的反应;为防止儿童注意力分散,测试者还需要多次提醒儿童关注评估任务本身。而利用人机交互技术进行评估时,评估前的熟络环节、评估中的数据记录、注意力提醒等均可由触屏设备或类人型机器人自主完成,测试者只需在旁观察儿童与触屏设备、类人型机器人的互动即可。其次,人机交互技术有助于增加评估结果的客观性。人机交互辅助下的评估具有高度结构性,即每一位儿童所接受的信息都是一致的,这有助于减少其他因素对数据采集的影响。例如,在以往的访谈评估中,测试者需要为每位儿童介绍访谈内容并提出问题,但测试者访谈时的语调、语速、情绪等可能会产生变化,因此无法保证儿童接收的信息是一致的。基于人机交互的评估则可在相关技术的支持下确保每一位儿童所接受的评估情境是一致的,由此避免主观因素的干扰。最后,人机交互技术有助于采集到更多类型的表现数据。触屏设备、类人型机器人等均包含诸多技术功能,如语音识别、情绪识别、肢体动作捕捉、传感器、编程、多点触控等。通过对这些技术的综合应用,基于人机交互的评估工具能够在同一时间内采集到儿童的多种类数据,有利于更立体、综合性地评估儿童的发展。四、人机交互辅助儿童发展评估的未来展望科学、规范的儿童发展评估是检验教育适宜性与有效性的关键,它可以为调整及改进教育工作、促进儿童健康成长提供宝贵依据。本文以触屏设备、类人型机器人为两个重要手段,以点带面,展现和讨论人机交互技术在辅助儿童发展评估的广阔前景和独特价值。诚然,人机交互技术并非只包括触屏设备和类人型机器人,尤其在科技迅猛发展的当下,其范畴愈发广泛。面向未来,教育工作者应更加积极地拥抱人机交互技术,充分发挥人机交互的功能优势,系统优化与创新儿童发展评估方式,为儿童的全面发展提供更精准、更适宜的教育引导与支持。(一)探索个性化评估,满足特殊儿童发展的特殊需求相比于常规儿童,特殊儿童的身心发展需求往往更加复杂。因此,针对特殊儿童的评估,亟待摒弃传统的评估方式,转而借助人机交互技术开发更具个性化的评估系统。例如,对于具有超常智力、创造力或特殊能力的天才儿童,传统评估方式难以准确反映其真实发展水平,而基于人机交互的评估在这方面则具有优势。通过虚拟现实(VR)和增强现实(AR)技术,结合自适应技术和先进的机器学习算法等,可以为他们打造一系列量身定制的智能化评估方案。这些技术不仅能够模拟出各种真实且富有挑战性的场景,还能够根据天才儿童的表现与反馈实时调整评估的难度与复杂度,进而更加精准地识别出天才儿童的发展需求,提供个性化的发展指导。又如,对于孤独症儿童而言,他们在社交互动上存在一定障碍,且对常规化的评估环境容易感到不安。基于人机交互的评估则可以通过新奇的评估界面和友好的交互方式,唤起孤独症儿童的兴趣与注意力,降低其防备心理,引导他们在相对轻松的氛围中接受评估[36]。未来应主动将人机交互技术应用于个性化评估中,帮助家长和教师掌握特殊儿童的发展需求,助力特殊儿童的个性化发展。(二)实施纵向性评估,追踪儿童发展的全过程儿童的发展是一个持续变化的动态过程,这意味着任何单一性评估都难以准确反映出儿童的真实水平。尤其对于低龄儿童而言,他们的身心发展日新月异,当下所评估出的发展水平可能在下个月就会发生显著变化。因此,对儿童发展水平的判断不能仅停留在一次性的、静态的评估上,而应采用纵向评估方式,持续、系统地记录儿童的发展情况。然而,传统的评估方式通常需要耗费大量的人力、物力和时间,难以保证儿童评估工作的连续性。相比之下,人机交互评估系统应用较便捷,儿童能够自主操作,且评估系统能对儿童发展的数据进行自动化采集和储存,大大减轻了评估人员的工作负担,提高了评估的工作效率。未来应充分发挥人机交互的技术优势,更广泛地开展儿童纵向性评估,追踪儿童发展的全过程,及时发现儿童发展过程中的问题与不足,并持续为家长和教育者提供具有阶段适宜性的教育建议和指导。(三)推进多模态评估,关注儿童发展的综合性特点儿童的发展是一个多维度、全方位的过程,涵盖了认知、情感、社交、运动、语言等多个方面。传统评估往往只能采集儿童发展的单一数据,无法对其发展的多个维度进行评估。然而,人机交互为儿童的多模态评估提供了重要的技术支撑。所谓多模态评估,即借助摄像、语音识别、自然语言处理、可穿戴设备、传感器等技术或设备采集与儿童相关的音频、视频、图片、文字等多模态信息,并在特定算法的支持下,将来自不同采集装置的数据进行有机整合,形成完整的儿童发展图谱,最终实现对儿童发展的综合性评估[37-38]。例如,人机交互多模态评估系统通过融合多种数据信息采集装置,不仅能够实时监测儿童的心率、体温、运动状态等生理数据,而且还能采集儿童的语音、表情、社交等情感信息,进而对儿童的综合性发展水平进行评估,帮助家长和教师系统了解儿童的发展全貌。未来应积极应用人机交互技术开展多模态评估,通过设置多种先进的数据信息采集装置,拓展儿童数据采集的范畴,并对多模态数据进行系统分析,以更加深入地洞察儿童的健康成长和身心发展。参考文献略

柳博 李新煜:高考英语听力考试发展历程与改革路径探析

2025-03-25

引用格式:柳博, 李新煜.高考英语听力考试发展历程与改革路径探析 [J]. 中国考试, 2025(3): 25-30.作 者柳博,教育部教育考试院命题三处处长,研究员。李新煜,教育部教育考试院命题三处,助理研究员。摘 要:听力考试是高考英语的有机组成部分,在考查英语综合语言运用能力、引导中学英语教育教学方面发挥重要作用。由于受到教育教学、试题命制及考试实施等条件因素的制约,听力考试纳入全国高考英语的时间较晚,在实践中尚存在发展不平衡、不充分的问题。推进高考英语听力考试改革,应以学科核心素养为导向,强化考查综合语言运用能力,深化考试内容与形式改革,扩大机考改革试点,不断提升考试技术。关键词:高考英语;听力考试;制约因素;考试改革;机考作为广泛使用的国际通用语言,英语是我国外语教育的主要语种,也是高考的重要科目。高考英语主要考查听力、阅读、写作及口语表达等方面的能力。听是英语学习和交流过程中必不可少的技能,英语听力是即将进入高等学校的学习者在接受专业教育或进行学术研究的必备能力之一。高考英语听力考试发挥着考查综合语言运用能力、引导中学英语教育教学、提升学生英语学科核心素养的重要作用。纳入高考考查范围以来,英语听力考试在内容与形式等方面取得了长足进步,但也存在各地考试模式不统一的问题。这些差异不仅反映出高考英语听力考试发展中存在不平衡、不充分的问题,更体现了对于听力考试进行系统化研究的重要性和必要性。推进新时代英语教学评一体化改革发展,应进一步深化高考英语听力考试内容与形式改革,强化综合语言运用能力考查[1]。一、高考英语听力考试的发展历程不同于阅读、写作等其他语言技能考试,高考英语听力考试对考试设施设备、考场组织管理及中学教育教学基础有着特殊要求,是随着国家的经济实力、教育水平和考试组织能力的不断提升而逐步发展的。我国高考英语听力考试的发展历程大体可以分为三个阶段。(一)酝酿萌发阶段(1952—1999年)1952年,教育部发布《关于全国高等学校一九五二年暑期招考新生的规定》,标志着全国高等学校统一招生考试制度的建立。当时,只有报考外语专业的考生须加试外语,但加试成绩不计入总分,仅供录取时参考[2],有俄语和英语两个语种供选择。这是高考外语考试的肇端。1978年,即高考恢复第二年,英语开始成为必考科目,报考外语院校或专业的考生还须参加口试[3]。各省根据当地实际情况,组织开展语言能力面试,主要包括对听说能力的考查。这一招考规定延续至今。1989年,国家成立高考英语命题专家委员会,开始按照标准化考试的规范要求进行命题。尽管当时已经意识到听力考试的重要性,但囿于不同区域的经济社会发展和教育教学条件差异较大等现实情况,一直未将听力列入全国统一命题考试的考查范围。(二)创立探索阶段(2000—2013年)随着改革开放不断深化,经济社会快速发展,国家对各类人才的英语综合能力要求也越来越高。在听力技能考查方面,高考不考,则学校不教、学生不学,英语教育教学界对将英语听力纳入高考考查范围的呼声越来越高。同时,各级教育行政部门对英语教育教学也越来越重视,加大师资能力和设施设备建设,开展听力技能考查的条件也日益完备。经过充分研究论证和考试准备,2000年,全国高考英语试卷增加听力考试,首次命制听力部分占全卷权重13%和20%的两种试卷[4]。2003年,教育部在原教学大纲的基础上制订了各学科普通高中课程标准[5]。根据《普通高中英语课程标准》有关听力测试“在学期、学年考试和结业考试中所占比例应不少于20%”的要求,高考英语明确听力部分占全卷分值20%的权重[6]。但部分地区由于师资力量、教学条件等方面的限制,难以有效开展英语听力的教学和测试。为了适应各地教育教学实际,高考英语2004年推出含听力试卷和不含听力试卷供各省(区、市)使用,以确保不同地域的考生能够在相对公平的条件下参加考试。经济全球化背景下,国家对新世纪人才的外语素质有了新的更高要求,更加强调综合语言运用能力,各地开始探索高考英语考试内容与形式改革,以更好满足国家对人才选拔的要求以及教育教学实际。由于听力考试容易受到考试设备和考场环境等因素的影响,为保障考试安全性和稳定性,2009年起,浙江、天津、云南等省市开始探索实施听力单独考试,每年提供两次考试机会,取较高成绩计入高考总分。2011年,为了将英语听力和口语考试从选考科目变为必考科目,提高学生的英语实际应用能力,广东省率先探索实施高考英语听说机考,将听力和口语技能融合考查,每年3月组织一次考试,满分为15分(从2021年起调整为20分),计入高考总分。多年实践表明,听力单独考试模式具有显著优势:一是强化对听力技能的考查,正向引导教学;二是提供多次考试机会,减轻学生的备考压力;三是即便听力考试过程中发生意外情况,其对高考整体组考工作影响较小,相应地降低了风险防控难度。(三)改革发展阶段(2014年至今)2014年,国务院发布《关于深化考试招生制度改革的实施意见》,新一轮高考综合改革启动。外语作为普通高校招生全国统一考试科目,除每年6月统一举行一次考试之外,还鼓励有条件的省(区、市)积极开展改革试点,提供两次考试机会[7]。在实践探索过程中,英语听力成为“一年两考”改革的着力点,全国主要形成了四种新模式。第一种是纸笔+机考模式。2017年,上海开始实施高考英语听说机考,对听和说进行综合考查,但重点考查英语口语能力,每年提供两次考试机会,分别在1月和6月举行,满分为10分,在6月的高考纸笔考试中仍保留听力部分。第二种是纸笔连考模式。2020年,山东开始实施听力单独考试,采用纸笔形式,于每年1月连续举行两次考试,满分为30分,在6月的高考纸笔考试中不再保留听力部分。第三种是机考模式。2021年,北京开始实行高考英语听说机考,每年提供两次考试机会,分别在12月和3月举行,满分为50分,在6月的高考纸笔考试中不再保留听力部分。第四种是纸笔两考模式。2024年,贵州开始实施听力单独一年两考,1月和6月分别举行一次听力纸笔考试,满分为30分。上述四种模式下的两次听力考试成绩,均取考生的最高得分计入高考总分。截至目前,全国共有27个省(区、市)将听力成绩计入高考总分。这种做法有利于全面考查英语语言运用能力,对中学英语教育教学起到积极引导作用,也得到了高等院校的广泛支持。回顾高考英语听力考试的发展历程可以发现,高考对听力技能考查日益重视,对综合语言运用能力考查日益加强,使传统英语教育教学和考试评价过程中普遍存在的重读写、轻听说现象有了相当的改观。特别是近年来高考听力考试改革产生的效果显而易见。首先,多种考试模式并存,有利于各地根据实际教情学情考情组织考试,促进教考衔接,提高学生英语水平;其次,为考生提供两次考试机会,打破“一考定终身”,缓解学生应考压力;最后,将听力考试与其他部分考试分开施考,有利于集中精力实施听力考试,分散工作压力,维护英语考试整体的安全性和稳定性。同时,也要清醒地认识到,听力考试改革也会使教育教学、试题命制及考试实施面临更多挑战。当前,仍然有部分地区未将听力成绩计入高考总分,这既有现实资源条件约束的客观原因,也有对听力考试的重要性认识不足的主观因素。二、高考英语听力考试发展的制约因素高考英语听力考试在发展过程中主要受到教育教学、试题命制和考试实施三个方面条件因素的制约。当前,高考综合改革省份的高考英语听力考试呈现多种考试模式共存的特点,也大多是这些因素共同作用、相互妥协的结果。(一)教育教学条件我国幅员辽阔,不同地域英语教育教学水平存在较大差异。总体上,优质教育教学资源主要集中在经济较发达地区,欠发达地区的教育教学水平相对薄弱,某些偏远地区甚至存在严重的师资短缺问题。在英语听力技能的教学与培养上,各地重视程度有高有低,有些听力成绩不计入高考英语总分的地区甚至直接忽略听力教学。此外,各地教学模式、教学资源的差异也较大,而语言学习具有持续性和渐进性的特点[8]。英语听力技能的培养需要语言学习环境的浸润,需要循序渐进,难以通过机械刷题来提高。真实、地道的英语资源既有助于培养语感,还能拓展学生的知识面,而教育水平较薄弱地区获取资源的途径有限,教学形式较为单一。除了地区间差异,同一地区基础教育不同学段间的英语教学衔接也有待进一步优化。根据教育部的指导意见,小学开设英语课程的起始年级一般为三年级[9],据此,大多数学生在参加高考时一般已具有10年的英语学习经历,并且这一学习过程是连贯递进的。但是,也有部分地区义务教育和高中教育阶段英语教学存在脱节甚至断层现象,无法确保英语教育教学高质量持续开展。(二)试题命制高考英语听力考试命题包含选材、编制试题、审校、录音、试听等多个环节,涉及文字、音频等多模态素材,更加强调情境和语篇素材的真实性,以充分体现口语交际的特点。听力录音要求发音准确、清晰、自然、流畅。整个命题流程涉及人员多,风险较高。阅读、写作等其他部分试题可以通过在字体、字号等方面设置统一明确的规范,确保每份试卷具有相同的标准;就听力考试而言,试题的录音需要真人现场录制。由于个体的差异性,为保证听力录音的质量,在对播音人员的培训、声音校准以及后期音质处理等方面都具有较大的挑战性。同时,由于听力考试的命题及音频编辑制作具有较强的专业性和特殊性,以及考试命题工作的保密性等特点,导致目前较为缺少听力考试命题方面的文献和实证资料,也使关于听力考试及命题的理论与技术研究受到一定的限制。(三)考试实施高考英语听力考试在实施层面存在较高的安全风险,组考难度较大,易受天气、环境等外界因素的干扰。听力考试具有即时性和单向性特点,录音播放实时、不可逆,考生个人无法自主操控收听录音内容,必须全神贯注才能避免漏听试题信息。由于担心偶然性风险,考生和考务人员在整个听力考试过程中可能会比较紧张。此外,听清录音内容、听懂录音内容、准确理解录音内容,分别代表了依次递进的听力能力层次,体现了不同考生的听力理解水平差异。然而,由于听力考试语音试题的特殊性,在听不清、听不懂之间缺少明确的界限,考生容易将作答困难等个人问题归咎于录音质量、设备或环境问题。应当说,经过多年实践,高考英语听力的组织实施工作已经具有比较完备的操作规范以及应对各种突发情况的预案和安排,即使个别年份极个别考场出现意外情况,总体上仍可以确保听力考试公平有效。尽管如此,考务工作的复杂性也在一定程度上影响着听力考试改革的平稳推进。除了上述因素外,不同地区的经济社会发展水平、对英语教育及听力考试重要性的认识等因素也会影响高考听力考试的改革发展,而最关键的问题在于是否将听力成绩计入高考总分。作为普通高校招生录取的重要依据,高考分数具有高利害性,对考生报考大学具有重要影响,对英语教育和学习有着显著的后效作用。笔者调研发现,听力成绩不计入高考英语总分的省份普遍对听力教学不够重视,有的地方甚至直接停止了听力教学。笔者对高考数据统计分析发现,将听力成绩计入英语分数的部分省份,其非听力部分的平均考试成绩普遍高于听力成绩不计入的省份。也有学者研究发现,高考英语不考听力对大学生的听力、口语能力和英语综合能力均有负面影响[10]。由此可见,为更好发挥高考英语的选拔和促学作用,加强听力考试确有必要。三、推进高考英语听力考试改革的建议举措高考综合改革实施以来,英语以核心素养为导向,强化综合语言运用能力考查,注重基础性、提高综合性、强调应用性、突出创新性[11]。听力作为一项关键语言技能,与其他各项语言技能紧密相关,听力考试具备上述“四性”特点,宜作为深化高考英语考试内容与形式改革的重要突破口。进一步推进高考英语听力考试改革,应在加强听力教育教学资源建设的基础上,充分发挥高考指挥棒的积极作用,强化对听力技能的培养和考查,着力在听力考试内容、形式和技术等方面进行改革创新。(一)加强考试内容改革近些年,全国高考英语听力考试着重通过模拟真实的交际情境,突出考查考生使用英语开展日常交际、学习和思辨活动,以及进行交际、解决问题的能力。但是,大部分听力考试采用纸笔形式,在一定程度上限制了素材内容的真实性、试题的交互性和考查的综合性,故应进一步加强听力考试内容改革研究。首先,立足发展学科核心素养,强化考查综合语言运用能力。进一步拓展考查内容,提高设问灵活性,创设更贴近真实生活的试题情境,如听力录音摒弃播音腔、采用多人录音等。其次,增强试题交互性。不仅考查听后回答问题的能力,还要考查利用听力技能实现交际、解决问题的能力,如设置更加丰富的题型,而不局限于单选题。再次,探索提高听力考试分值权重。充分发挥高考以考促学的功能,引导学生重视听力技能的学习和培养,提高在日常生活学习中用英语交流的能力。最后,通过实施听力机考,探索将听力技能与其他语言技能融合考查,如探索听说测试、听写测试等,使考查内容和形式更加符合在生活学习与跨文化交际过程中多项语言技能综合使用的真实情境。(二)推进考试形式改革认真总结近年来北京、上海、广东等省市高考英语听力机考的实践经验,研究借鉴国内外有关英语听力机考的先进做法,积极在全国推广听力机考。高考英语听力实行机考主要出于四方面的考虑。首先,可以进一步改进试题结构,提高考试的效度和情境的真实性,更好实现考查目标和引导教学。其次,进一步提高考试实施的安全性,降低其他因素对考试的影响,省去试卷印刷与运送、录音播放等考试组织环节。再次,考后可直接进行评分,无须扫描考生作答,进一步缩短阅卷时间,提高阅卷效率。最后,通过机考平台可以便捷地将听力与口语等语言技能考查联结起来,开展高考英语听说机考(有的省市已经实现),全面考查综合语言运用能力。在机考实施上,各省可根据本地教育教学和经济社会实际,尝试开展高考英语听力机考自主命题考试。相比于全国统一命题考试,分省机考能够使考试内容与难度水平更加贴合当地教情学情考情,有利于进一步提高考试安全性。(三)提升考试技术水平目前,已有省份进行了高考英语听力机考改革试点的成功探索,在组考流程规划、平台设计、实践应用等方面积累了丰富经验[12]。未来可进一步探索应用大数据、人工智能等先进信息技术手段赋能命题、考务、评价等考试全流程,全面推进数字化考试模式[13]。在命题上,不仅可以利用人工智能技术筛选语篇素材、编辑试题、创新试题设计甚至生成原型试题,还可以让人工智能承担语音自动校准甚至自动配音等听力录制工作,提高命题质量。在考务上,不仅可以实现考试实施过程中的试题信息流精准化、规范化管理,还可以实时监控、记录并预警考生的实时反应和作答行为,维护考试安全。在评价上,不仅可以按照有关测量理论模型对考试数据进行常规分析,还可以按照个性化需求拓展评价范围。在高考英语听力考试技术创新实践的基础上,还要结合最新的测量理论与人工智能技术,积极开展有关测量理论、评价模型及结果呈现等方面的创新应用研究,不断提升听力考试的理论研究与实践水平。高考英语改革一直在路上。随着高考综合改革即将在全国全面实施,英语听力考试改革试点取得了良好的成效。未来高考英语听力考试应不断深化考试内容与形式改革,逐步扩大机考改革试点,实现对综合语言运用能力更好、更全面的考查,更好服务高等学校人才选拔培养,引导基础教育英语教学改革,推进教育强国建设。参考文献略

李木洲 刘子瑞:新高考改革十年的回顾、反思与展望

2025-03-18

引用格式:李木洲, 刘子瑞. 新高考改革十年的回顾、反思与展望[J]. 中国考试, 2025(3): 16-24.作 者李木洲,浙江大学科举学与考试研究中心副主任,研究员。刘子瑞,浙江大学科举学与考试研究中心在读博士生。摘 要:新高考改革既是对新时代国家人才培养需求的回应,也是传统高考改革的延续与深化。回顾新高考十年历程,其改革成效显著,主要体现为公平追求由绝对转向理性,选考多样性由过度转为适度,能力考查由唯智转向全面,招生录取模式由单向变成双向。然而,新高考改革在破解传统高考唯分数等问题的同时,也面临一些新问题与新挑战,诸如等级计分存在公平性和科学性风险、综合素质评价与招生录取关系有待优化、高中师生新高考适应能力偏弱、大学自主招生能力有待提高等。进一步深化新高考改革,应着力提升等级计分科学性,提高高中师生新高考适应能力,优化高校综合评价招生机制,增强多元录取通道引流功能。关键词:新高考改革;等级计分;综合素质评价;高考公平高考是我国各类考试中最为重要、影响最广泛的考试[1],肩负着为国家选拔人才、为学生搭建成长桥梁的使命。自20世纪改革开放至21世纪初,高考经历了包括地方改革试验在内的20余次改革[2],逐步建立起较为完善的考试制度、录取制度和管理制度,推动了考试理念和技术的进步,初步实现了科学化、信息化及现代化转型发展。然而,这些改革大多或仅关照高考制度的某个方面,或仅在高考某些领域进行试验探索,未从根本上解决唯分数论影响学生全面发展、一考定终身使学生学习负担过重以及应试教育倾向等社会反映强烈的问题。2014年,国务院发布《关于深化考试招生制度改革的实施意见》(下称《实施意见》)[3],标志着新一轮高考综合改革(下称新高考改革)正式启动。至今,新高考改革已逾十年,全国已有29个省份(不含港澳台)分五个批次实施新高考改革方案,均已基本实现平稳落地。回顾、反思与总结新高考改革十年的成效与经验,对进一步深化高考改革,尤其是构建新时代引导学生德智体美劳全面发展和利于拔尖创新人才选拔培养的高校考试招生制度体系具有重要的理论与实践意义。一、新高考改革十年成效作为全面深化教育改革的重要组成部分,新高考改革是我国新时代实现教育与政治、经济、文化、科技等协调发展的客观需要。同时,新高考改革与历次高考改革一脉相承,是对历次改革的持续和深化[4]。历史地看,新高考改革虽是一个革故鼎新的动态进程,是一项仍未完成的重大教育改革事业,但与传统高考相比,新高考十年实践在促进公平、科目设置、考试内容、录取模式等方面均有较大转变或改进,取得了明显的改革成效。(一)高考公平追求:由绝对转向理性公平是高考制度的根本和灵魂[5]。我国高考历来强调公平公正,旨在立足现实社会条件和考试技术,以合理的规则对高等教育入学机会进行分配。公平分配高等教育入学机会的关键在于确定可量化比较且简便易行的标准,这使得考试分数成为象征高考公平的重要标志。但在高考本身的高风险、高利害及自古以来形成的考试至公观念的影响下,传统高考在追求公平的同时,也导致学生、教师、家长和学校对高分的执念。这最终使传统高考对公平的追求走向绝对化,甚至产生唯分取人等畸形的高考公平理念,削弱了高考的人才选拔效力,不利于学生成长成才。《实施意见》将深入推进素质教育确立为新高考改革的首要原则[3],标志着引导学生素质全面发展成为新高考改革的核心目标之一。由此,高考公平的内涵更加丰富,它不仅是分数参照下的入学机会分配公平,更是综合素质参照下的学生发展机会平等。新的公平内涵促使新高考改革超越分数框定的公平范畴,确立更加理性的公平理念,即既强调入学机会分配标准的公正客观,也注重学生素质的全面发展。十年来,在新高考公平理念的指引下,形成了“3+3”模式与“3+1+2”模式并行的高考选科格局,积极探索构建高校招生多元录取模式。这些举措为发展水平不同、类型各异的学生提供了更广阔的发展空间和更充分的发展机会。可见,新高考改革总体上扭转了唯分数的错误观念,将实现学生素质的全面发展作为衡量改革成效的重要标准,推动高考公平从注重形式公平向强调实质公平转变。(二)选考多样性:由过度转为适度文理分科是我国传统高考的主流模式,在该模式下学生的选择空间较为狭隘,难以根据自身兴趣和学科发展潜力进行个性化学习。作为社会关注度高、影响教育改革发展全局的20个重大问题之一,文理分科在2010年被列入《国家中长期教育改革和发展规划纲要(征求意见稿)》[6],为后来新高考取消文理分科奠定了基础。自2014年起,上海、浙江、北京、山东等第一批和第二批改革试点省市实施“3+3”选科模式。这一模式为学生提供多达20种选考科目组合,而浙江第二个“3”为“7选3”,科目组合多达35种,极大拓展了学生的选择空间。但同时,该模式也导致物理等科目选考人数下滑、专业招生录取难度增加、部分教育资源薄弱地区的配套支持难以为继等问题[7]。这表明“3+3”选科模式在扩大学生选择机会的同时,也产生了功利化选科的问题。此外,该模式下的科目组合多元选择,也使教育资源相对薄弱的地区处于不利竞争地位。因此,在新高考改革初期,科目组合的多样化实际上存在一定的过度化。为纠正这一问题,从第三批试点省市开始,采取“3+1+2”选科模式,即学生选科时必须在物理、历史两门中选择一门,再从其余四门中选择两门。这既是对学生功利选科的纠正,也是对高考形式多样化的调整。一方面,这一调整保障了物理和历史两个科目在自然科学类专业和人文社会科学类专业中的基础地位,平衡了学生在高中阶段的多样性学习需求与在大学阶段的专业发展需求;另一方面,该模式将选考科目组合减少至12种,降低了中学选课走班教学的难度,减少了教育资源配套支持对高考选科的限制,有利于新高考科目改革在中西部地区的推广[7]。综上,新高考科目设置从“3+3”到“3+1+2”的调整,很大程度上是对科目组合多样化的一种有限平衡,客观上也是深入推进新高考改革的现实需要。(三)高考能力考查:由唯智转向全面伴随高考改革的持续推进,德智体美劳全面考查的内容体系逐渐完善[8]。传统高考以分数作为测量学生知识掌握程度的标尺,以文理分科作为学生知识学习的界限,考试内容侧重考查学生的智育水平。诚然,这种考查方式有利于促进学生文化素养的提升,但文化素养只是素质发展的一个方面,灌输、刷题等应试方法阻碍学生创新能力和实际问题解决能力的发展。因此,优化高考内容是引导学生素质全面发展的关键。2018年9月,习近平总书记在全国教育大会上指出,要致力于培养德智体美劳全面发展的社会主义建设者和接班人[9]。这为新高考内容改革提供了根本遵循,即构建德智体美劳全面考查的考试内容体系。在德育考查方面,突出其首要地位,以立德树人为核心,加强对社会主义核心价值观、依法治国理念、中华优秀传统文化的考查;在智育考查方面,注重考查学生的创新思维以及发现问题、分析问题和解决问题的能力,反对机械的知识记忆;在体育、美育和劳动教育考查方面,创新考查策略与方法,在纸笔测验中创设引导学生劳动观念、审美素养、体育意识发展的情境性试题。在综合素质评价中通过审核学生素质发展档案、组织专业面试等方法评价学生素质全面发展的程度。可见,新高考改革使德智体美劳五育考查内容体系更加立体,使考试内容呈现的学生素质内涵更加全面,增强了高考对学生素质全面发展的引导。(四)招生录取模式:由单向变成双向招生录取模式关涉考生与大学专业匹配度,影响大学人才培养成效。理想的录取模式应有利于学生与高校之间的双向选择,在保障学生自主择校的同时,为大学在充分考察学生素质的基础上进行录取创造条件。在传统高考录取模式下,生校选择呈现出明显的单向化特征:学生参考往年的录取情况,根据自己的高考分数和排名选择最有希望被录取的高校和专业;招生考试管理部门按照学生的志愿完成录取投档;大学按照招生考试管理部门提交的考生档案接收学生。这种模式下学生尚有根据高考分数选择大学和专业的余地,但大学除自主招生途径外,缺少主动选择学生的空间。为打破统一考试、统一招生、统一录取的单一化招生局面,新高考改革赋予大学更多的招生自主权,为实现生校双向选择提供了较大的空间。《实施意见》提出:“高校要根据自身办学定位和专业培养目标,研究提出对考生高中学业水平考试科目报考要求和综合素质评价使用办法。”[3]在这一政策下,大学通过设定选考科目、组织面试等方式衡量学生专业发展潜力与自身办学定位、人才培养目标的契合度,从而实现大学对学生的自主选择。可见,这种模式较好地保障了大学在招生录取中的主体性,有利于推动大学由被动录取向主动招生转变,使生校选择实现由单向变为双向,提高了学生与专业间的匹配度。总之,新高考改革是对传统高考改革力图解决的一系列重要问题的一次整体性突破[10]。经过十年试点探索,新高考促使高考公平理念更加理性,推动引导学生德智体美劳全面发展更加有力,为学生创造了更加广阔的个性化发展空间,赋予了大学更加充分的招生自主权。二、新高考改革的问题梳理新高考改革是一次全面、综合的改革,环节多,涉及面广,力图解决传统高考遗留问题的同时,也面临一些新问题,主要涉及等级考计分方式、综合素质评价、高中师生适应性等。厘清这些问题及其产生根由是进一步深化新高考改革的重要基础。(一)等级计分存在公平性和科学性风险为配合选科选考,部分新高考选考科目实行等级计分。但在实践中,等级计分存在诸多公平性和科学性风险。一是总分录取机制下的等级成绩不等值问题。等级成绩不只取决于学生凭借自身水平获得的原始成绩,还受到当次考试难易程度和考生数量的影响,因此对选考不同科目的学生而言,即便其等级成绩总分相同,仍无法获得统一的分数解释。二是等级计分易诱发物理和历史选考失衡。从第三批改革省市开始已经将物理和历史调整为限选科目,考试成绩以原始分计入总分。但其他选考科目实行等级计分,即使学生的原始成绩只有六七十分,其排名仍可能位居前列,并最终获得高于原始分的等级成绩。如此,提升物理和历史科目地位的初衷就落空了,导致这两个科目空有首选之名,其实际地位不升反降。三是等级计分可能弱化高校拔尖创新人才选拔效力。等级计分意味着处于同一排名比例中的学生,即便原始分数有较大差距,也可能被赋予相同的等级分数。这弱化了原始成绩反映的学生水平差异,降低了选考科目的区分度,不利于潜在的拔尖创新人才脱颖而出。(二)综合素质评价与结果使用有待优化新高考改革通过综合素质评价,寄予高考破除唯分取人和推动多元录取的期望。但目前这些期望还未充分实现,原因在于综合素质评价在招生录取中的作用有待进一步发挥。一方面,在实施综合素质评价时,许多中学往往基于综合素质的若干维度逐层向下分解考查点,然后将各考查点简单合成一个等级或分数。这种分拆与合成式的评价方式不仅存在科学性问题,也不足以发挥综合素质评价应有的诊断引导作用[11]。有调查显示,80.20%的学生认为综合素质评价“作为高考招生的一种方式,大家填写时有很强的功利性”;65.84%的学生认为综合素质评价“存在刷分现象,不能反映真实的能力和水平”[12]。另一方面,综合素质评价在大学招生录取中的权重仍比较低,且应用规模较为有限。以北京市为例,相关人员在综合素质评价试点之初就曾指出,未来的综合素质评价录取将“选择很少的学校,拿出少量计划”来进行,且“这部分数量比较小,不会作为招生录取的主渠道”[13]。就目前来看,历经七年多的试点探索后,在北京实施综合素质评价招生的大学仅有七所[14]。(三)高中师生新高考适应能力偏弱与传统高考改革相比,新高考改革与中学教育教学的联系更加紧密,给高中师生带来了新的挑战。其中,高中教师职业压力增大和学生选科能力薄弱两个问题尤为突出。一方面,新高考改革引发高中教学变革,教师面临的职业压力有所提升。有研究指出,压力适应成为影响高中教师在新高考背景下自身适应性发展的关键因素,但教师对自身适应压力能力的评价偏低[15]。另一方面,尽管新高考改革赋予学生更大的选科自主权,但选科能力不足限制了学生行使权利,选科选考额外增加了学业焦虑。在家长普遍关心选科选考的现实背景下,学生普遍存在“被选科”问题。这不仅与新高考改革鼓励学生自主选择的初衷不符,也将家长卷入学生的学业焦虑之中。因此,深入推进新高考改革,需要加强选科指导和生涯规划教育。(四)大学自主招生能力有待提高有研究指出,当前大学招生能力不足的具体表现包括招生目标不明确、招生程序不规范、管理机制不健全等[16]。招生目标不明确和专业招生人员短缺是影响大学招生能力提升的重要因素。招生目标不明确限制了招生的精准性,部分大学和专业无法厘清自身对学生专业素质和知识能力的基本要求,难以根据自身办学理念、发展定位、培养模式等提出适切的考试科目要求。而专业招生人员的缺失,是制约招生机构专业化建设的关键所在。长期以来,大学招生录取基本上是对学生的分数排名与学校的录取分数线进行机械匹配,并不需要招生人员具备鉴别学生能力素质的专业能力,因而招生人员无须也没有任何专业性可言[17]。然而,新高考改革在某种程度上降低了考试成绩的区分度,可能扩大校内专业间的生源质量差异,因此,为保障总体招生质量,需要大学不断提高自主招生能力。需要指出的是,当前新高考改革仍面临一系列新问题和新挑战。有些源于政策设计有待完善、考试录取技术有待提升,也有一些源于我国现实教育生态和传统考试文化,需要从新高考改革的内部和外部两方面加以客观分析。三、新高考改革问题的主要成因梳理十年来新高考改革面临的问题不难发现,其主要成因涉及改革政策设计、各方利益诉求、教育发展水平及考试文化观念等方面。(一)改革仍处于动态调整之中无论任何改革政策,只有在实践探索中才能得以不断完善,新高考改革也是如此。以新高考“物理遇冷”问题为例,在试行“3+3”选科模式之初,受趋易避难的功利心驱使,选考物理的学生人数一度出现断崖式下滑。为解决这一问题,避免国家人才培养结构失衡的风险,在第三批及之后的改革省市改为试行“3+1+2”选科模式,收紧了学生的选择空间[18]。可见,改革政策的成熟和完善大多需要经历一个实践探索的过程,而这一过程往往是曲折前进、螺旋上升的,可能会伴随各种问题和挑战。但是,这些问题和挑战是改革过程中的阶段性产物,随着改革不断深化,相关配套政策更加科学与完善,问题和挑战也将逐渐得以克服。(二)改革所涉主体利益诉求复杂新高考改革牵涉的利益群体众多,需要兼顾和权衡的利益诉求更加复杂。这直接体现在不同区域、不同身份的利益相关者对改革的评价上。有研究指出,就区域而言,西部地区的高中生对改革的满意度明显高于东部地区[19];同时,高中生对选科制度的满意度在省会城市(直辖市)、地级市区、县(区)城镇、乡镇逐渐降低[20]。就身份而言,大学生和高中教师对新高考改革的整体认可度较高,但社会人士对改革成效的认可度较低[21]。不同身份的利益相关者对新高考改革寄予的不同期望导致改革面临众口难调的困境:高中生期待通过改革减轻学业和考试压力,大学生更重视高考制度对个人发展和职业选择的影响,中学教师关注高考选才的效率与公平,大学教师更注重高考改革在优质生源分配、专业分流中功能的发挥,家长与关心高考改革的社会人士则格外重视高考对促进学生个性品质的养成及对未来长远规划的影响[22]。可见,新高考改革牵涉的不同利益群体的诉求,增加了其寻求广泛共识和兼顾各方利益的难度。(三)区域间教育发展水平不均衡新高考改革受到诸多现实条件,尤其是教育发展水平的制约。客观而言,东部地区先行试点,中西部地区渐进推行,是改革利用东部地区相对丰富的教育资源完善高考制度设计的理性选择,有利于降低中西部地区的改革风险,但无法回避中西部地区改革资源相对不足的客观现实。因此,中西部地区的新高考改革面临较大的压力。例如,落实选科选考制度要求高中实施走班教学,这对各科师资和教学设施条件提出了更高要求;而第三批及之后启动新高考改革的省份普遍存在高中师资不足的问题,教师缺口率高达21%~50%,61.1%的生均公用经费未达标,多数中学支持选科走班教学的教室、仪器设备等硬件设施缺口率高达26%~50%[23]。又如,落实综合素质评价录取制度不仅需要当地加大新型教育基础设施建设投入,还需要大学在录取环节增加筛选考察流程,高中在日常教学中进行评价结果维护等。对政策配套设施的需求无疑会提高综合素质评价的实施成本和对教育资源的依赖程度。当前,我国教育资源在区域和城乡间的分布不够均衡,若在推广综合素质评价的过程中再忽视校际资源差异,则可能拉大城乡或区域间的教育发展水平差距,甚至可能加剧城乡或区域之间的教育不公平[24]。可见,区域间教育发展水平不均衡是新高考改革难以回避的现实,应坚持协同稳健的改革原则。(四)功利性考试文化影响深远我国传统考试文化观念中的消极成分尤其是功利性文化,在很大程度上制约着新高考改革的推进。从历史上看,科举考试作为进身之阶的高利害功能催生了我国考试文化的功利性特征,致使唯分取人等传统考试的弊病延续至新高考改革之中。有研究指出,新高考改革在推行等级计分之后,有学生为了取得高分而投机选科;有家长为了学生在所选科目取得高分,不惜弄虚作假,报考该科充当“分母”;有学校为了提升本校考试成绩,甚至安排已取得较好成绩的学生再次参加考试并获取低分,以抬升其他学生的等级成绩[25]。这些伴随等级计分出现的问题,本质上是功利性考试文化导致的唯分数现象在新高考改革中的体现。此外,我国自古以来对考试公平的极端重视也在一定程度上影响着新高考改革的推进,尤其是自科举时代就已形成的至公理念延续至今,社会大众对高考分数之外的其他录取标准接受度较低。正因如此,新高考改革的综合素质评价长期遭受权威性和公平性质疑,尤其是大学在按照综合素质评价自定标准进行录取时往往面临“不公平”舆论压力甚至行政责难[26]。可见,功利性考试文化和对高考绝对公平的追求在某种程度上限制了新举措的实施,无形中增加了新高考改革推进的难度。四、新高考改革的路径优化深入推进新高考改革是我国新时代教育评价改革的重要组成部分,也是构建有利于拔尖创新人才脱颖而出、引导学生德智体美劳全面发展的考试招生制度体系的根本举措。基于上述对新高考改革面临问题及成因的分析,进一步深化改革应注重从以下四个方面加以推进。(一)提升等级计分的科学性长期以来,由于分数之于高考招生录取的重要性,使得高考计分机制改革往往伴随较大的风险和难度。因此,完善新高考计分机制,应尽量避免制度层面的重大变革,坚持技术调整为先,探索等级分数生成和使用的优化方式。一是为各选考科目制定学科能力标准,探索基于标准参照的等级计分方式。所谓标准参照,即考生成绩的等级取决于原始成绩与外在客观的学科能力标准的比较。这就使标准参照的科目等级计分方式避免了考生群体因素对学生等级成绩的干扰,有利于提升等级成绩的效度[27]。二是探索必考科目原始分数与选考科目等级分数加权后计算总分。目前,高校招生录取的主要依据是考生各科考试分数简单相加或赋分转换后相加得到的总分。这种方式操作简便,易于总体比较,但不利于考生与大学专业的精准匹配。当前大学专业高度细分,新兴专业发展迅速。为体现不同专业对选考科目的倾向,由大学自主设定,采取加权的方式计算总分,可能是一种有利于精准选拔的计分方式。当然,以技术手段改进新高考计分机制,需要以科学的教育测量理论与改革的适应性研究为前提,同时还应做好政策解读和宣传工作,以促进社会大众对新高考计分机制的理解和认同。(二)提高高中师生对新高考的适应能力新高考改革的平稳推进离不开中学的积极参与,尤其是高中教师和学生的支持。因此,深化推进改革应进一步增强高中师生的认同度,支持他们适应新高考改革背景下的教与学。一方面,优化高中教师评价机制,针对新高考改革后各科教师工作量不均衡等问题,建立科学合理的核算体系,完善教师绩效评价机制,通过工作量的合理分配,使教师保持良好的工作积极性。同时,高中应重视教师群体在新高考改革中的利益诉求,通过适当的政策鼓励和支持,调动教师参与改革方案实施与反馈的积极性。通过参与性平等为教师发展诉求提供表达渠道,逐渐打消教师对改革政策的疑虑和担心,增强其自我认同和在新高考改革中的适应性发展[15]。另一方面,提升学生的选择能力[28],建立健全相对完善的高中生涯规划教育体系,优化生涯规划课程,加强学生职业意愿、职业性格的教育与引导,为学生创造充分认识自身职业发展兴趣和潜能的条件,鼓励学生结合自身学业状况合理选择考试科目。(三)优化高校综合评价招生机制中学综合素质评价和高校综合评价招生分别是在基础教育和高校招生两端对我国素质教育战略的贯彻落实[29]。在高校招生录取中参考高中综合素质评价,能有效发挥高考指挥棒的正面引导作用,为综合素质评价的深入推广提供助力,使其促进学生全面发展的育人初衷得以实现。因此,优化高校综合评价招生机制是新高考改革持续引导学生全面发展的关键举措。其一,可考虑实施分层推广综合素质评价与高校招生硬挂钩的策略,支持一批“双一流”建设高校率先推进综合评价招生试点,探索健全综合素质评价可操作性使用细则及办法。其二,进一步优化“两依据一参考”的高校招生录取机制,推进五育全面考查,探索德体美劳等非智力因素考查或评价的科学办法,构建选拔性考试与达标性评价相结合的综合评价方式[8]。其三,完善高校综合评价招生监督保障机制,在严格落实各级相关主体责任的同时,发展适合国情的教育考试理论和技术,尤其是创新评价工具,利用人工智能、大数据等现代信息技术,探索开展各学段学习情况全过程纵向评价、德智体美劳全要素横向评价[30],为高校综合评价招生提供真实、客观的学生素质发展信息。(四)增强多元录取通道引流功能大学招生考试改革既要引导学生素质全面发展,也要考虑到不同学生之间的素质差异,为发展类型和水平不同的学生提供多种成才通道[31]。高校招生多元录取是引导学生差异化发展和全面发展的重要举措。深化新高考改革应强化多元录取通道的分流与引导功能。一方面,应积极推进普职分类考试招生改革。加快探索构建符合职业技术人才选拔培养规律的职教高考制度,既是满足技能性人才适性发展的必由之路,也是教育强国建设的重要举措。另一方面,应积极探索高水平大学多元自主招生机制改革,为拔尖创新人才选拔培养提供多样化通道。国外一流大学大多采用多种录取办法招收各类资优学生。进入新时代,为加快中国特色世界一流大学建设,我国高校应进一步厘清国内招生与国际招生、普通专业招生与艺体类特殊招生、一般人才选拔培养招生与拔尖类人才选拔培养招生等不同招生录取通道之间的内在关系,构建目标明确、定位各异、标准合理、比例适当的类型多样、功能互补的本科招生体系[32]。需要指出的是,教育考试改革是一个循序渐进的长期过程,有其自身的规律性,不能脱离或割裂我国社会主义初级阶段基本国情与历史文化传统[33]。当前,深化新高考改革既离不开现代化教育测量理论与技术的支撑,也离不开改革外部条件的保障,尤其是教育资源的优化配置和改革共识的广泛凝聚。参考文献略