2024-09-04
原创 中国考试 中国考试 2024年09月02日引用格式:温红博, 刘先伟, 姜有祥. K-means聚类方法在中考标准设定中的信度分析评[J]. 中国考试, 2024(8): 69-78.作 者温红博,北京师范大学中国基础教育质量监测协同创新中心副主任,副教授。姜有祥,北京师范大学中国基础教育质量监测协同创新中心在读博士生。摘 要:中考的标准设定是划分考生分数等级的统计技术,其质量高低关系到分数报告的可靠性和公平性。从我国东、中、西部地区各随机抽取3000名考生的中考数据,探讨K-means聚类方法在中考标准设定中的信度问题,从经典测量理论、概化理论和项目反应理论三个角度开展分析。结果显示,K-means方法在分数等级为四或五级时分类信度符合测量学标准,而对低分段的考生分类信度高于高分段的考生。总体来看,K-means方法适用于较低分数等级的标准设定中,可为中考标准设定提供分界分数的参考。关键词:中考;标准设定;K-means方法;聚类分析一、问题提出与研究背景初中学业水平考试(以下简称“中考”)是义务教育阶段结束时的重要考试,其成绩是学生毕业和升学的重要依据。2016年,教育部发布的《教育部关于进一步推进高中阶段学校考试招生制度改革的指导意见》明确指出,已经实行初中毕业、高中招生两考合一的地区要统一规范为初中学业水平考试,把《义务教育课程设置实验方案》所设定的全部科目纳入初中学业水平考试的范围[1]。近年来,各地积极推进两考合一改革,中考的标准参照性测验属性更为明显,考试成绩以等级形式呈现[2-3]。衡量学生是否达到某一水平,必然涉及心理与教育测量中的标准设定(standard setting)问题。鉴于中考等级分数与学生业、升学息息相关,如何在招生考试中实现准确、可靠、公平的标准设定,成为考试研究者和工作者关注的重要问题。(一)标准设定的方法标准设定是指在测验分数分布中,划出一系列分界分数(cut-off score),将考生分为两类或更多的有序类别[4-5]。有效的标准设定有利于在等级分数中体现学生真实水平,进而帮助修正考试误差导致的不公平[6]。在国内当前的中考实践中,普遍采用操作简单的固定比例法或固定分数法的标准设定方法[7-9]。固定比例法指规定分数排名处于某一百分比区间的考生划分为同一等级,固定分数法指规定分数在某一分数区间的考生划分为同一等级。目前,80%以上的地区采用固定比例法[3],以深圳市为例,该市2024年中考标准设定为固定比例法:A+(5%)、A(20%)、B+(25%)、B(25%)、C+(20%)、C(5%)[10]。理论上,标准设定需要学科专家依据课程框架将考生需要达到的知识水平(内容标准)转换为量化的测验分数(表现标准)[11],如采用常见的Angoff法、Bookmark法和Nedelsky法进行标准设定[12-13]。Angoff法于1971年开发,其首先要求专家估计临界水平考生在每个题目上的正确作答概率(介于0~1),然后对单个专家在每个题目上的正确作答概率求和,再对所有专家的概率和求平均,得到专家组的表现标准的量化水平[12]。Bookmark法是一种基于项目反应理论(item response theory, IRT)的方法,其首先按照题目难度从低到高生成有序项目册,然后要求专家将标签(内容标准)放在题目册中的两个题目之间,或者放置在临界水平考生可能会答对的最后一个题目上,再利用标签位置的题目难度估算出对应的测验分数,最后对所有专家的分数求平均作为标准设定的划界分数[4]。虽然Angoff法和Bookmark法都需要依赖于专家的主观判断,也因此受到一些研究者的批评[14-15],但仍然被广泛应用于各种大规模测评任务[13]。此外,Nedelsky法与Angoff法类似,不同之处在于Nedelsky法针对多项选择题开发,要求专家判断临界水平的考生认为哪些错误选项不是正确答案,并据此估计临界水平考生的正确作答概率[16]。(二)标准设定的信度从现代测量理论的角度出发,无论是哪种标准设定方法,其分类结果必须经过实践的检验,测试机构有责任提供有关标准设定质量的证据[17-19]。基于不同的测量框架,现代测量理论为标准设定的质量检验提出不同的信度指标。根据经典测量理论(classical test theory, CTT),研究者提出了标准参照测验的信度指标,即决策一致性(decision consistency)和决策准确性(decision accuracy)[20-21]。决策一致性指考生在两次平行测验中被归为一类的程度,决策准确性指根据考生在考试中得到的观察分数所作的分类决定与根据真分数所做决定的一致性,二者均使用与分类一致性有关的p值和kappa系数进行评价[22-23]。根据概化理论(generalizability theory, GT),针对不同的等级分数线,提出了相应的等级线决策信度Φ(λ)估计方法,以此估计各个能力水平点的测量信度[24-25],评价各个分界分数对被试进行分类的可靠性和稳定性。根据IRT,一般使用信息量来描述测验对考试能力水平估计的信度,对于标准设定质量可以使用分界分数点上的信息量指标进行评价[26-27]。国内研究者对中考普遍使用的固定比例法和固定分数法的信度进行研究,发现两种方法的信度均一般,而对于这种高利害性考试而言需要进一步提升其信度水平[2-3]。从理论出发,测验分数分布受到测验、考生、地域等多种因素的影响,固定分数或固定比例的做法主观性强、缺乏科学论证,并不能充分体现考生水平差异,反而可能将相近能力的考生划分为两种等级,损害测验的公平性。虽然研究者提出一些依据专家判断的标准设定方法,如Angoff法、Bookmark法和Nedel⁃sky法等,但由于程序要求严格且专业人员匮乏而无法大面积推广。此外,这类方法也受到主观因素的影响。基于此,有必要积极探索在中考标准设定中,能够最大限度降低主观性的影响,同时兼具易用性、可靠性、有效性的标准设定方法。(三)聚类分析方法统计学中常用的聚类分析方法包括快速聚类法(K-means)、层次聚类法、基于密度的聚类算法、基于网格的聚类法等[28]。聚类分析方法能够根据数据分布特征将最相似的考生划分为一类,同时使不同类别考生之间差异最大化。利用聚类算法将参加考试的考生作为聚类对象,将考生在测验上的作答表现作为用于聚类的变量,就可以获得组间异质、组内同质的分类结果,实现教育实践中标准设定的基本目标[29]。以K-means方法为例,假设在一次中考中需要将考生划分为k个分数等级,考生作答数据会经历初始化、分配、更新和重复四个阶段。初始化阶段随机选择k个数据点作为簇(cluster)的中心,分配阶段将每个数据点分配到离它最近的中心,更新阶段计算每个簇的均值,并以此作为新的中心,最后重复分配和更新两个步骤,直到簇中心不再变化或达到最大迭代次数。这个分析过程获得的簇,就可以作为标准设定中划分的依据。在以往研究中,聚类分析法用于标准设定包括确定聚类变量、选择聚类算法、设定分界分数和评价聚类结果几个步骤和过程[29]。首先,一般选择与被试测验作答表现相关的特征作为聚类变量,包括分测验的分数、主要因子分或特定试题分数[30]。其次,常用于标准设定的聚类算法包括K-means法和层次聚类算法。其中,K-means法计算简单,运算较快,适合于规模较大的数据。再次,设定分界分数的方法包括边界组法(borderline group method)和对照组法(contrasting groups method)。边界组法指聚类结果中每一类视为边界组,取该组的均值或者中值作为分界分数;对照组法中,如果聚类结果中的某两个类是相互邻近的对照组,则取这两组测验得分重叠区域的中值或平均值作为分界分数[30-31]。最后,需要借助多种心理测量分析方法确定分界分数的可靠性。有研究者将聚类分析与传统的标准设定方法进行比较,发现其与外在效标的一致性程度明显优于传统的标准设定方法[32]。同样,Hess等的研究发现,聚类分析方法与Angoff法的结果具有高度一致性,但其在跨样本的稳定性上略显不足[33]。此外,也有研究发现聚类分析方法与依靠主观评定的方法在结果上有较大差异[34]。这些研究结果表明,聚类分析的适用情境和可推广性还有待进一步研究。将聚类分析融入中考标准设定的实践中,不仅能够为中考提供有效的统计学参考,还能进一步拓宽聚类分析的应用领域。基于此,本研究将探索采用聚类分析方法进行中考标准设定的方式,并利用现代测量理论中的CTT、GT和IRT理论检验聚类分析所产生分界分数的决策一致性、等级线决策信度和分界分数的信息量,以期为提升中考科学性和公平性提供参考。二、研究方法(一)研究对象本研究对某年的中考数据进行分层随机抽样,考虑到地区差异性,从我国东部、中部、西部地区的各选一个地市,然后从所选择的每个地市中各随机抽取3000份试卷作为分析对象。所抽取三个地区的试卷分别记作A试卷、B试卷、C试卷,三套卷的试卷结构如表1所示。其中,部分解答题中包含两个或两个以上的小题,表中总题量按照卷面的小题题目数量进行统计。(二)分析方法当前中考中,大部分地区使用的等级数为四、五或六级。基于此,本研究使用聚类方法将考生分别分为四、五和六个等级并实现标准设定,然后检验标准设定的决策一致性信度、等级线决策信度和分界分数的信息量。考虑到K-means方法具有计算简单,运算较快,适合大规模数据的特点,本研究使用K-means方法进行考生聚类,选取各试卷的所有题目作为聚类变量,并且为消除各题目的权重差异对数据做标准化处理[29-30]。由于缺乏边界组分类依据,研究使用对照组分类法确定各分界分数。具体而言,依据分类结果的标签将相邻类别的两个组视为对照组,取得分重叠区域的中值为分界分数。最后,综合运用CTT、GT和IRT对聚类分析法产生的分界分数的信度进行分析。在分析工具方面,使用SPSS提供的K-means法进行聚类分析,对于初始聚类中心的选择采用随机化方法。另外,使用BB-CLASS软件,计算分类一致性和分类准确性;使用Brennan等为GT开发的专用软件GENOVA计算等级线决策信度;使用Conquest2.0和ANOTE进行IRT分析。三、研究结果聚类分析中,以各题目为聚类变量将考生分别分为六、五和四个类别。依据分类结果标签,采用对照组法取相邻等级分数重叠部分的中位数为分界分数,所得三个测验的各分界点分数如表2所示。在此基础上,对聚类结果的信度进行检验,分析聚类结果的分类一致性、各等级线决策信度和分界分数的信息量。(一)CCT分析结果采用Livingston和Lewis提出的LL方法分别估计测验决策一致性和决策准确性的p值和kappa系数[22]。在本研究中,各测验采用六级、五级、四级进行聚类分析时,分类一致性和分类准确性如表3所示。有研究者建议对大规模测验的分类一致性的p值需高于0.7,kappa系数需高于0.6[22]。由表3可知,采用六级分类时,测验的决策一致性和决策准确性的p值均低于0.7,kappa系数低于0.6,未能达到大规模测验的要求;采用五级分类时,三个测验的决策一致性和决策准确性的p值高于0.7,kappa系数高于0.6,达到了大规模测验的基本要求;采用四级分类时,三个测验的决策一致性和决策准确性系数均较高,具有较理想的决策信度,对考生的分类信度较高。总体而言,采用五级和四级分类时,聚类分析结果具有较好的分类一致性,而采用六级分类时分类一致性较差。(二)GT分析结果GT的分析包括G研究和D研究,G研究依据研究设计分析各误差来源,D研究在此基础上讨论不同测量条件下测验的信度变化。有研究者建议基于GT的信度指标需要达到0.80[35],对于高利害性的大规模考试而言,概化信度指标达到0.85才能满足需求;理想情况下,决策信度达到0.90则说明决策信度质量非常好[36-38]。1. G研究结果本研究中变异的来源有考生(j),题目(i),考生和题目的交互作用(j×i)及残差。首先,通过G研究得到三个测验侧面随机交叉设计的变异分量估计值如表4~6所示。2. D研究结果在G研究的基础上,使用聚类分析法获得的分界线进行D研究,计算各分界点的等级线决策信度,结果如表7所示。据此可知,三个测验各分界分数的决策线信度均在0.70以上,并且大部分决策线信度大于0.85,总体而言测验的各分界分数具有较高的决策信度。此外,在进行聚类分析时,采用不同的等级数量进行分类,各测验在低分段的等级线决策信度均大于0.90,表明测验对低水平考生作出的等级判定信度较高;与之相对,部分试卷对高水平考生进行等级判定时的信度未达到可接受水平。进一步探讨等级线决策信度与题目数量的关系,发现随着测试题目数量的增加,各分界分数的等级线决策信度均持续提高。若确保测验的等级线决策信度达到0.80,题目数量至少需达到45道;若使测验各等级线的决策信度达到0.85,题目数量需要再增加一倍。(三)IRT分析结果在IRT的分析中,首先使用探索性因素分析进行单维性检验,按照特征根值大于1的标准来抽取因子。结果显示,试卷A共抽取3个因子,第一特征值与第二特征值的比值为6.57;试卷B共抽取4个因子,第一特征值与第二特征值的比值为6.27;试卷C共抽取3个因子,第一特征值与第二特征值的比值为4.87。三个试卷的特征根比值均大于3,可以认为测验符合项目反应理论的单维性假设。然后,使用IRT模型中的拓广分布评分模型拟合分析测验数据。对于标准参照测验的测验信息量,其分界分数θ0所处的位置应该使得测验有最大信息量,即测验精度最高[39]。有研究者提出,分界分数θ0与测验掌握比例π0之间存在转换关系:π0=在本研究中,将聚类分析获得的划界分数转换为掌握比例π0,然后利用IRT估计考生潜在特质水平,由掌握比例确定IRT中的分界分数θ0,最后计算分界分数处的信息量。分界分数处的信息量越大,信度越高。测验质量理想的信息量为25,质量一般情况下测验信息量需达到16,低于16则表示测验信息量较差[41]。研究结果发现,三个测验的测验信息量峰值分别为17.82、15.83、17.23,各分界分数对应的信息量如表8所示。结果显示,少量分界分数点的信息量达到了测验信息量为16的合格标准,大部分分界点信息量略低。此外,高分段的分界分数所对应的信息量远低于合格标准。结合IRT中信息量与难度水平的关系,即信息量在能力水平等于难度水平时达到最大值,高分段的测验信息量低,说明试卷难度较低,适合较低水平的考生作答。总体而言,大部分分界点的信息量远低于16,测验对大部分能力分界点考生的测量准确性较差,尤其是对于能力水平较高的考生,测验的信息量需要进一步提升。四、讨论与结论当前,国内初中学业水平考试统一采用等级分呈现考生水平,标准设定成为中考分数报告中不可忽视的环节。易用的、可靠的标准设定方法,对于我国中考考试质量的提升意义重大。本研究积极探索数据驱动的K-means聚类方法在中考标准设定中的可靠性,以期为实践者和研究者提供标准设定方法上的参考,为改进当前中考实践应用中主观性较强、可靠性不足的标准设定方法作出必要支撑。首先,从CCT角度来看,不同的等级数目下各测验的决策信度均存在较大的差异。采用六级分类时,测验的决策信度未能达到大规模考试的信度要求;而采用五级和四级分类时,测验达到了大规模测验的信度要求,决策一致性p值大于0.7,决策准确性kappa系数大于0.6。随着等级数目的降低,各测验的决策一致性和决策准确性均增加。考虑到各地区中考等级划分的类别数不一致,对于高利害性的大规模考试来说,中考的决策一致性有必要进一步提升。同时,根据已有研究结果,适当减少分类的等级数量和增加测验的题目数量有利于提高测验的分类一致性[20]。因此,各地区可采用四至五级的分界分数点以确保分界分数的分类一致性。其次,从GT分析结果来看,聚类分析的各等级线决策信度均大于0.7,大部分等级线的决策信度达到概化理论信度的可接受值0.8[35]。各测验在不同等级数目的情况下,最低分界分数所对应决策信度Φ1均大于0.9,具有非常理想的决策信度。其值远高于同一类别数下其他分界分数的决策信度,可以说明目前中考采用聚类分析法进行标准设定时,对低分段的考生进行等级划分具有较高的准确性,原因可能在于中考的题目主要集中于容易题目,更适合低水平考生的能力测量。有研究者建议基于概化理论的信度指标需要达到0.80[35],对于高利害性的大规模考试的概化理论信度指标达到0.85则能满足需求[36,38]。以此标准来看,采用聚类分析进行标准设定,56%的分界点的决策信度大于0.85,比例高于前人研究中的固定分数线法(47%)和固定比例法(53%)[2-3]。在聚类分析结果中,75%的分界点决策信度大于0.80,同样高于采用相似研究设计的固定分数线和固定比例的64%[2-3]。以GT的等级线决策信度看,聚类分析法进行标准设定的信度更高。此外,D研究结果表明,为使测验的各等级线决策信度达到高利害考试的最低要求0.80,最低题目数量约为45题;为了使测验的等级线决策信度达到大规模考试的理想要求0.85,现有中考题目数量几乎需要增加一倍,题目数量约为70题。然而,考虑到标准化考试的作答时间有限,且随着题目数增加信度可能出现边际效应,教育管理或命题人员可以从提升现有试卷结构内的试题质量入手,提高决策信度。最后,从IRT分析结果来看,聚类分析产生的部分分界分数点的信息量达到了测验信息量为16的合格标准,大部分分界分数点信息量略低,同样对于高分段的分界分数所对应的信息量远低于合格标准。值得注意的是,采用聚类分析进行标准设定,约有20%的分界分数对应的信息量达到了合格标准,而采用相似设计的前人研究中固定分数线法和固定比例法达到合格的比例约为8%和14%[2-3]。因此,在IRT信息量分析中,聚类分析相比当前中考实践中的固定分数和固定比例法依然具备一定优势。如果命题人员和考试机构能够适当增加IRT分界分数点附近的题目数量(如扩大难度分布范围),进一步提高试题试卷质量,对于提高该分界分数点的信息量将有较大改善。综合三种测量理论的分析结果来看,使用聚类分析法进行标准设定具有较高的质量,并且聚类分析具有较强的可操作性和简便性。尤其是在目前我国各地区教育资源不均等、无法满足专家判断法(如Angoff法和Bookmark法等)对专业技术人员和标准化程序严格要求的情况下,基于聚类分析确定分界分数值的方法应该被纳入中考标准设定的选项清单。同时,有研究指出聚类分析法与专家主观判断所设定的合格标准较为一致[33,42-43],因此聚类分析结果也可以作为各地区考试部门进行标准设定决策的必要参考信息。综合CTT、GT和IRT对于我国中考试题的分析结果,本研究得出以下结论:1)当分类数较少(四或五级)时,标准设定的信度达到可接受水平,当分类数较多(六级)时,分类信度降低;2)对于高水平考生的分类信度低于低水平考生,主要由于试卷整体难度较低,对高水平考生的测量信度不高。因此,本研究建议在中考试题的命制中,提高试题质量,适当增加难度较高试题的数量,以提高对高水平考生的分类信度。另外,在使用聚类分析方法进行中考标准设定时,建议分类数控制在五级及以下。当然,聚类分析法虽然回避了对专家主观判断的完全依赖,但同样存在其局限性和不足。首先,聚类分析具有样本依赖性,需要样本具有充分代表性、测验编制良好等[44]。其次,聚类分析对数据量具有一定的要求,当被试样本数太少时,其聚类结果的稳健性较差[43]。再次,聚类分析的结果具有一定的强制性,即无论数据分布如何,它总能够将聚类对象分为指定的若干类。由于聚类分析具有的强制性和常模参照性,在对聚类分析结果进行解释时,教育实践者必须持谨慎态度,需要进一步借助内容专家进行判断和验证,最好能够获得外部效标以便全面评价聚类结果[29,32]。最后,聚类分析属于纯粹的数据驱动方法,未对测验的内容标准进行考量,在实际使用中还需要结合专家判断方法灵活使用,如将聚类分析得到的划界分数作为参考信息,让学科专家基于此信息对划界分数进行人工调整。参考文献略。
2024-09-04
原创 中国考试 中国考试 2024年 08月28日 16:03 北京引用格式:高帆, 赵志群. 大规模职业能力测评背景问卷的研制与检验[J]. 中国考试, 2024(8): 60-68.作 者高帆,女,浙江科技大学德语国家研究中心助理研究员。赵志群,男,北京师范大学教育学部教授,博士生导师。摘 要:大规模测评为循证导向的教育研究、实践和决策提供了数据基础。能力测评与问卷调查是大规模测评采集数据的主要方法。参考背景问卷研发的国际经验,本研究构建了我国职业院校学生职业能力发展影响因素的理论模型,整合了环境、活动、个人三个层次和学校、校企、企业三种类型的因素,提出由学生背景、活动特征、组织环境三部分构成的问卷框架。在此基础上设计了包括职业动机、实习实训支持等十二个量表的综合问卷。预测试和大规模测评的数据分析显示,问卷信度和效度良好。调查问卷可用于诊断技术技能人才培养过程中存在的问题和整体把握职业教育体系的状况与特征。关键词:大规模测评;背景问卷;学习背景;职业动机;职业能力大数据时代,教育评价范式发生了很大变化,国际大规模测评(international large-scaleassessment,ILSA)数据对循证导向的教育研究、实践和决策发挥愈加重要的作用。ILSA通常采用能力测评和问卷调查两种方法搜集数据,籍此全面、深入地分析现状、诊断问题并提出对策。与普通调查问卷不同,能力测评背景问卷功能复杂、内容多样、主题广泛[1]。为了提高测评质量,ILSA一般都有相对成熟的测评工具和背景问卷开发流程,积累了丰富的项目实践经验,并建立了庞大的数据库,为教育效能研究创造了条件。然而,国际上开展大规模职业能力测评的研究较少,相应的背景问卷调查相对滞后。在我国职业教育改革创新发展进程中,科学评价职业教育体系的效能,探究职业教育质量的影响因素,需要大规模测评提供数据基础,为研究、教学、管理提供科学依据。围绕职业能力开展的测评和调查不仅要符合职业教育规律,也要适合我国职业教育的实际需要。本研究借鉴国际学生评价项目(PISA)、国际数学与科学学习趋势项目(TIMSS)、国际阅读素养进展项目(PIRLS)的经验,结合大规模职业能力测评项目(competence measurement,COMET),研制适用于我国国情的职业能力测评背景问卷。COMET是世界上首个在多个国家得到实际应用的大规模职业能力测评工具[2]。本研究通过检验大规模测评背景问卷的质量,分析职业院校学生学习背景的基本特点,为拓展大规模职业能力测评的监测和诊断功能,开展职业教育效能研究提供支持。一、能力测评背景问卷的理论框架(一)能力测评背景问卷的基本框架社会建构主义学习观是ILSA设置背景问卷的理论基础,强调学习发生在人与环境相互作用的文化活动参与过程中,了解人与环境的作用机制有助于提升教育效能,因此背景问卷本质上是调查学生的学习背景[3]。以PISA为代表的大规模学生能力测评项目在设立之初就设置有背景调查问卷。随着评价技术的发展,特别是第三代评价理论提倡对评价结果进行判断和反馈,背景调查问卷不再满足于解释测评结果,也用于揭示教育体系要素的复杂关系。例如,教师教学国际调查(teaching and learning international survey,TALIS)就是一个完全由教与学相关背景因素构成,没有学业成就变量的项目,旨在了解参与国家或地区初中教师的背景情况。问卷内容取决于能力测评的目的、研究问题和测评框架。多元的测评目的、复杂的研究问题和拓展的测评框架使ILSA背景问卷包含的要素越来越广泛。问卷框架用于梳理各要素的关系,多采用以下三种结构[4]:一是根据不同问卷技术适应的问题类型,把测量内容分为事实类、态度类和行为类问题;二是当测评超越学科范畴的认知能力(非认知能力或者跨学科认知能力)时,学习背景作为学校教育和校外学习的交集,分为校内、校外和校内外三个部分;三是以国际比较和跨文化研究为目的的大规模测评借助更为复杂的框架进行不同层次的比较,如基于教育系统的多层次结构划分成个人、家庭和同辈、学校和班级、社区或地区要素,或者从学习过程角度出发把背景问题分成原因、过程和结果。ILSA常见的问卷内容要素包括学校和学生背景、教与学的过程、学校政策和教育管理、教育成果[3]。学校和学生背景包括学校的类型、规模、区域和资源,班级的规模、教师资质,学生的人口统计学特征和学情特征等,在问卷中主要采用封闭式问题。教与学的过程是背景问卷的核心要素,具体包括学校氛围、教师支持、出勤率、学习时间和课外学习等,涉及学生、教师、校长和家长等不同问卷,潜变量类采用量表,显变量采用封闭/半封闭式问题[5]。学校政策和教育管理包括教育体系特征、父母参与、教师职业发展等学校和地区层次的变量,常见于校长问卷。教育成果包含学校层面的升学/就业率、辍学率,学生层面的认知/非认知能力和素养。教育效能研究的背景-投入-过程-产出模型(context-input-process-output,CIPO)由美国国际教育成就评价协会(International Association forthe Evaluation of Educational Achievement,IEA)于20世纪60年代为研制大规模能力测评项目提出。其优点是涵盖学业成就及其广泛的背景因素[3]。无论测评认知或非认知能力、学科或跨学科能力,该模型都提供了概念框架。CIPO模型的缺点是不能直接作为影响机制探究的理论模型[3],此模型忽略了背景要素之间的相互联系,很难从纵向角度分析发展趋势。即便如此,CIPO模型仍是目前国际能力测评背景问卷普遍采用的概念框架,对PISA、TIMSS、PIRLS背景问卷的框架结构都产生了重要影响。PISA2009首次明确背景问卷应遵循教育体系的多层次结构[6],PISA2012引入CIPO模型,将投入、过程和产出作为横向维度纳入多层次结构(学生、班级、学校、国家/系统)形成矩阵式框架[7],PISA2015和PISA2018以学科相关和学科一般两类取代原来的多层次结构,结合学生背景、过程和非认知成果形成新的矩阵式框架[8]。鉴于CIPO模型简单分类带来争议,PISA2022在沿用纵向分类的同时,在横向维度上将指标分为学生背景、学生特征、教学与学习、学校环境与背景、系统环境与背景五类主题,共计21个模块[9]。TIMSS和PIRLS项目侧重监测教育趋势,背景问卷历年变化幅度不大。TIMSS1995基于CIPO模型提出学生被期望学习什么、谁来实施教学、如何组织教与学三个基本问题,结合学生、班级、学校、教育系统四个层次建立概念框架[10]。经不断完善,TIMSS2023明确了包含学生、班级、学校、家庭、社区及国家背景的五层次框架,并开发学生、家长、教师、校长和课程专家问卷搜集背景因素[11]。PIRLS项目以家庭、学校(班级)和社区及国家背景的交互模型形成概念框架[12-13]。2011年,PIRLS和TIMSS的问卷均开发了学生、家长、教师、校长和课程专家问卷搜集数据[14-15],同时PIRLS问卷增加了家庭背景主题。总的来说,PISA问卷比TIMSS和PIRLS问卷的结构更复杂,TIMSS和PIRLS问卷包含的学习背景要素比PISA问卷更精细[3],三个项目均遵循教育系统内部的多层次结构。(二)建构我国职业能力测评背景问卷框架职业能力测评背景问卷的基本任务是搜集解释职业能力差异的学习背景因素。职业能力是一种跨学科、与工作世界紧密相关的领域特殊性能力。ILSA经典项目多以学科能力或者核心素养为测评内容,很少有针对职业能力进行大规模测评的项目。大规模职业能力测评需要攻克跨职业的标准化、测量结果的职业效度、测评成本控制等难题[16]。COMET测评以诊断职业能力发展状况为目标,使用背景问卷搜集与职业能力发展相关的因素。COMET测评最先在德国实施,初始背景问卷基于德国双元制教育体系制定,以教与学的质量、人员支持、环境氛围、校企合作四个主题共八个维度形成双元制质量模型[17]。双元制质量模型鲜明的跨组织性,体现了双元制职业教育体系的特点。职业学校是我国职业教育体系的最重要组成部分,也是职前阶段职业教育的主要形式。探讨影响学生职业能力发展的背景因素不仅要遵循职业能力发展的规律,也要处理好学校学习与企业实习的关系。从社会建构主义和情境学习理论出发,职业学习是学生通过参与工作世界中的社会实践实现职业知识的社会化建构过程。CIPO模型的背景、投入、过程和产出分别对应主体条件、客体条件、教与学的活动和学生能力。德国的双元制质量框架侧重考查教与学的活动和环境条件,涵盖学校、企业、校企合作三种情况。两个模型都反映了过程因素,即教与学的活动是ILSA背景问卷的核心内容。我国职业学校学习和企业实习的场所、内容、组织、环境和条件,既相对独立又相互影响。职业能力测评背景问卷应考虑学校和企业的跨组织交互。本研究以情境学习理论为指导,以双元制质量框架为参考,结合教育体系的多层次结构,构建我国职校生职业能力发展影响因素的理论模型,见图1。本模型把影响因素分为环境/组织-活动-个人三个层次和学校-校企-企业三种类型,强调学校和企业协同育人的重要性。学生、教师、企业人员、校企合作构成的四角区域框定教与学的活动空间。学校和企业活动的媒介分别为课程和任务,学生在活动中的身份分别为学生和实习生。在学校,学生学习专业课程;在企业,实习生完成企业的工作任务。学生是ILSA测评问卷最重要的调查对象。鉴于职业教育体系的复杂性,以及平衡影响因素的广泛性和问卷调查的有限性,本研究专门开发学生问卷。根据理论模型,确定学生问卷框架由学生背景、活动特征、组织环境三个部分构成,见表1。二、职业能力测评背景问卷的开发(一)问卷设计问卷框架首先应明确相关变量,接着将变量逐一操作化处理[18]。显变量使用封闭式选择题,态度、看法、观点类潜变量则采用李克特五点量表,从“完全不认同”到“完全认同”依次记为1~5分。职业能力发展需要跨组织的学习环境,学生背景不仅包含学生个人、家庭、学校及班级背景,还增加了反映实习背景的变量,包括实习单位类型、实习时长和实习机会来源。活动特征包括主观条件(动机)和客观条件(教与学的特征)。内源性动机不仅是教与学活动的目标,也是条件。促使学生对职业形成稳定的意向和情感,是高质量职业教育的独特价值,因此,应重视职业情境促进人格发展的因素[17]。学生以“准从业者”身份学习或工作的动机,不仅源自绩效驱动和兴趣激发,也涵盖了对职业和企业的认同感与承诺。按照职业教育学研究的认同感、承诺和工作道德的扩展理论模型[17],以及工业组织心理学开发的“承诺”[19]和“动机”[20]量表,职业动机量表不仅包含与具体专业无关的、普遍性的工作兴趣和绩效导向,也涵盖基于“准从业者”身份的认同感与承诺。有组织的教与学是学生能力发展的重要基础。职校生不仅接受学校的专业教育,同时也在虚拟或真实的工作环境中通过工作实践学习[21]。相关变量包括理论与实践学习的人员支持与互动、教学组织和教学方式。理论学习变量参考PISA问卷和课堂环境调查问卷WIHIC[22],包括教师支持、教学创新、差异化教学、课堂互动;实践学习变量参考COMET测评德国背景问卷,包括实习实训支持、任务特征、工作过程导向。组织环境关注校企整体环境对职业能力发展潜移默化的影响,特别是学校对实践的鼓励和企业对学习的重视,这些跨界复合要求对创造力培养至关重要[23]。组织环境的变量有学校实践氛围、企业学习氛围和校企合作,量表设计主要参考组织创新氛围的成熟量表[24]和COMET测评德国背景问卷[25]。(二)预测试问卷质量控制包括信度和效度两个方面[18]。针对内容效度,邀请三位专门进行职业能力测评研究的教授、三位高职院校教师、五位职业技术教育学专业研究生共11人审阅问卷的相关性、全面性、科学性和合理性,并根据反馈意见进行修订。为进一步完善问题选项、检验量表信效度并避免表述歧义[5],采用方便性抽样,对广西等五个省份八所高职院校学生进行预测试,通过网络发放并回收问卷1323份,有效问卷861份(占65.1%),选取其中具备实习经历的441份(占47.7%)对所有量表进行项目分析,再对多维量表进行因子分析。把选取数据随机平均分成两份(220和221),对任务特征量表和校企合作量表分别进行探索性因素分析和验证性因素分析。任务特征量表的结果与基于工作特征理论的理想结构基本一致。为了提高“综合性”的聚合度,删除因子负荷较低的题项。虽然校企合作量表的探索性因素分析结果符合理论模型,但是验证性因素分析结果显示两个维度的区分效度不佳,因此取消了维度划分。其他单维度量表根据项目分析结果,删除表现不佳的题项,见表2。三、基于大规模测评的背景问卷调查工业和信息化部委托服务型制造研究院和北京师范大学对服务型制造业急需的五类专业32所职业院校1541名学生进行大规模职业能力测评,经预测试修订的问卷成为此次大规模测评背景调查的工具。调查采用网络问卷形式。鉴于毕业生具备更全面的实习实训经历,对影响职业能力发展的企业环境有更深入的了解,可以提供完整的背景问卷信息,本研究选择其中961名应届毕业生数据检验问卷质量,并分析学习背景特点。(一)信度检验经统计分析,职业动机和任务特征各维度内部一致性α系数分别在0.85和0.89以上。工作道德量表的信度为0.87,除此以外其他单维度量表的信度高于0.90。多维度量表的合成信度以及同质性系数可以反映分维度能否代表总概念[26]。职业动机各分量表的合成信度高于0.80,总量表合成信度为0.97,量表总体同质性系数为0.65;任务特征各分量表的合成信度高于0.90。总量表合成信度0.97,量表总体同质性系数为0.93,各项数据说明量表信度良好。(二)效度检验职业动机量表基于斜交因子模型得到的CFA结果最佳,RMSEA=0.081,CFI=0.93,TLI=0.92,SRMR=0.046。任务特征量表基于双因子模型得到的CFA结果最佳,RMSEA=0.080,CFI=0.97,TLI=0.96,SRMR=0.030。任务特征的全局因子影响大,故职业动机量表采用分量表报告法,任务特征采用总量表报告法。表3和表4说明以上量表的区分效度和聚合效度良好。所有单维度量表的CFA的结果为RMSEA=0.051,CFI=0.96,TLI=0.95,SRMR=0.025,整体结构效度良好。效标效度方面,以COMET测评总分为标准,分析了各变量与测评总分的相关性。不同个人、学校和实习背景学生的职业能力存在显著差异,校企合作与测评总分相关系数r为0.13,p<0.01,其他变量与测评总分相关系数r在0.27~0.46,p<0.01。工作道德、差异化教学、课堂互动、学校实践氛围与测评总分的相关不显著。除工作道德以外的其他四个反映学校环境的变量与职业能力不相关,这与理论设想不符。无论职业能力水平高低,学生对这些变量的评价普遍较低,说明当前职校环境非常缺乏这些要素,调查数据无法反映其影响。(三)特点分析职业动机对职业能力的发展至关重要。职业认同与承诺、企业认同与承诺、工作兴趣、绩效导向表示四种不同来源的动机,和工作道德一起,共同反映职校生在内外因素共同作用下的职业意向。图2是职业动机与工作道德构成的雷达图示例。其中每类专业的数据采用标准化Z分数,正值意味着该类专业拥有高于总体平均值的数值,反之则意味着该类专业数值低于总体平均值,这样处理可以让不同专业具有可比性。由图2可知,各专业学生对相关职业的意向呈现鲜明的差异:自动化类为绩效导向的动机特征,伴有低水平的工作道德;机械类为兴趣导向的动机特征,伴有高水平的工作道德;汽车类的职业动机和工作道德均属于样本总体的平均水平;计算机类为认同与承诺导向的动机特征,伴有低水平的工作道德。类似的差异也被COMET国际比较研究证实[17]。COMET测评将能力水平由低到高分为名义性能力、功能性能力、过程性能力和整体设计能力,能力水平越高,能力发展越全面,创造性地完成综合任务的能力越强。图3是不同能力水平学生对相关背景因素的评价情况。学生对差异化教学、学校实践氛围、课堂互动和校企合作的评价普遍偏低,反映了目前职校在这些方面投入较少。一线教师面对既定的教学安排,如果没有配套支持很难进行差异化教学和深度互动;学校缺乏建设工作导向的学习氛围的意识。学生缺少问题相关背景也会影响其调查效果,比如无实习背景的学生缺乏校企合作的直接经验,降低了相关题项的回答的信度。不同水平学生对教学活动过程的评价差异明显,高水平者对实习实训的活动特征、人员支持、工作导向的评价明显高于较低水平者。这次调查对象包含现代学徒制试点单位和职业教育创新项目院校,部分学生参与到有效的职业教育创新实践,其中高水平学生对专业课老师的支持和创新也给予较高评价。不过,在更复杂的多水平线性模型中,以行为频次为测量依据的“教学创新”对职业能力有负面影响[27],这提示人们只有当教学改革切实提升了学生学习质量时,才能发挥积极作用。在本次调查样本中,中低水平学生认为企业学习氛围较差,多数学生对学校实践氛围和校企合作的评价都较低,体现了学生对校企环境氛围的“隐性”合作感知较低,反映其对优质实习实训机会的渴望。四、研究展望COMET测评证明了背景问卷调查不仅能诊断技术技能人才培养过程中学生、教师、学校和企业等不同方面存在的问题,还有助于整体把握跨职业院校和职业教育体系的状况与特征。目前,大规模职业能力测评背景问卷的研究依然面临调查对象的群体多样性和利益相关方多种诉求的现实问题。职业能力测评面向高度异质性的学生群体,不同教育背景、培养模式都会导致学生对问卷调查相关信息的理解程度有巨大差异。比如,当前企业实习集中安排在高年级,低年级学生基本没有任何实习经历,无法完成问卷中有关实习的题项。而研究发现,实习经验对职业能力发展具有重要影响[27]。职业能力测评的背景问卷有必要提高精细化水平,即根据学生的总体分布特征划分子群,在确定背景问卷基本结构及内容前提下,增设适应特定子群体的专门题项,以提高问卷的针对性和灵活性。职业能力测评及背景问卷的调查结果不仅受到教育管理部门和职业院校的关注,也深受企业的关注。同为职业教育的利益相关者,他们对职业能力测评及背景调查的诉求有所不同。教育管理部门希望通过能力测评的纵向追踪功能掌握职业院校人才培养质量的变化趋势,而职业院校希望利用能力测评提供的横向诊断数据制定下一步改进计划,企业则希望借助能力测评横向诊断和纵向追踪的多方信息了解职业院校的人才培养质量及发展潜力。背景问卷为配合职业能力测评,应兼顾横向诊断和纵向追踪的双重功能,如大型国际教育质量监测项目一样,建立系统化和结构化的问卷框架,明确问卷调查的主要内容和关键维度,形成稳定的基础变量,在此基础上建立可持续观测的重点变量,为准确的统计分析提供数据基础。参考文献略。
2024-09-04
原创 中国考试 中国考试 2024年08月30日 14:51 北京引用格式:陈睿智, 谢晓雨, 罗莹. 科学教育测评中人机交互试题的发展、特征与启示[J]. 中国考试, 2024(7): 79-88.作 者陈睿智,北京师范大学物理学系在读硕士生。谢晓雨,北京师范大学物理学系讲师。罗莹,北京师范大学物理学系教授(通信作者)。摘 要:面对科学教育测评中素养和能力考查的新要求,传统测评工具的短板愈发明显。在信息技术快速发展的背景下,人机交互试题在科学教育测评领域得到广泛应用,成为备受关注的新型测评工具。相较于传统的书面试题,人机交互试题已具有明显的动态特征,表现在设问呈现方式、试题模拟环境和考查过程三个方面。将人机交互试题引入我国科学教育大型考试,不仅能够弥补传统测评工具的短板,更有助于科学教育智慧考试的开发与应用。关键词:人机交互试题;科学教育测评;教育评价改革测评是科学教育中不可或缺的重要环节。作为科学教育测评中广泛使用的测评工具,试题在基础教育阶段的科学教学中具有导向作用。目前,我国科学教育测评采用的试题以书面形式呈现的传统试题(以下称之为“书面试题”)为主,试题以文本、图表等形式展示给学生,要求其书写作答。然而,书面试题仅能够在静态环境中进行考查,已不能满足高质量评价中学生科学素养和能力发展状况的新需求。近年来,我国先后发布了一系列文件,力求推进教育测评工具的创新,提出利用人工智能、大数据等现代信息技术创新评价工具,充分运用人工智能等前沿技术方法开展人机交互测试等[1-2]。采用何种新型测评工具助力科学教育的高质量发展,已成为我国科学教育测评改革必须面对的重要问题。分析、借鉴国际经验并从中获得有益启示是破解该问题的有效途径之一。在信息技术高速发展的浪潮中,国际科学教育测评领域也孕育了新的变革。作为变革的标志性成果之一,人机交互试题不仅为动态考查学生在真实问题情境中的能力素养表现提供了新手段,还可以收集学生作答过程的丰富信息,大幅提高测评的信效度。人机交互试题是一种具有开拓性、能满足科学教育测评新要求的新型测评工具,更是科学教育测评实现数字化、智能化不可缺少的工具。本文对科学教育测评领域中人机交互试题的起源与发展进行梳理,通过分析、总结国际科学教育测评中人机交互试题的特征,以期为我国科学教育测评的改革与发展提供参考。一、人机交互试题的起源与发展将计算机技术引入教育测评领域的设想最早可追溯至20世纪60年代,如Green曾提出计算机具有作为学习和测评工具的潜力[3]。此后三十年间,研究者们的探索主要集中在开发、研究课堂环境下的计算机化测试系统,使用计算机考查学生的陈述性知识,此过程中计算机将提供适当的反馈,如作答正误判断与解析、在线学习材料、针对性的问题集[4-6]等。这些计算机化测试系统各具特色,但受技术和理念所限,没有充分发挥计算机的优势,试题主要限于选择题和填空题,学生与计算机间的交互限于简单的点击。自20世纪90年代起,随着计算机技术的迅猛发展,通过人与计算机交互开展测评的思想逐步走入科学教育领域。最初,研究者力图用计算机模拟真实世界中的任务,考查书面试题未深入考查或不易考查的能力或技能,如以计算机模拟电路“黑箱”问题的任务考查学生的科学思维、以计算机模拟显微镜的任务考查学生的显微镜操作技能[7-8]等。随着计算机逐步普及和相关研究成果的积累,美国教育考试服务中心(ETS)的Mislevy等于21世纪初提出用“证据中心的设计”(ECD)理论指导大规模测评中的计算机模拟任务开发的开创性方法[9]。自此,人机交互试题开始走入大规模科学教育测评项目。2006年,国际学生评估项目(PISA)率先尝试应用人机交互试题开展基于计算机的科学素养测评,当时只有丹麦、冰岛和韩国3个国家以附加测试的形式完成[10]。美国教育进展评价(NAEP)紧随其后,于2009年的科学成就测评中尝试引入人机交互试题[11]。人机交互试题在这两个大规模科学教育测评项目中的成功实践,标志着人机交互试题进入快速发展阶段。21世纪以来,科学教育研究人员对人机交互试题的研究逐步深入。以美国西教(WestEd)的Quellmalz团队、美国伍斯特理工学院的Gobert团队、我国台湾师范大学的吴心楷团队等为代表的科学教育研究团队,针对人机交互试题的效度验证、应用潜力、设计原则与方法等展开了多方面深入探讨。例如,Quellmalz等提出基于计算机模拟的新一代科学教育测评设计原则,基于该原则开发了72道涉及中学生物课程的人机交互试题,通过1836名学生参与的实证研究发现,相较于呈现静态图像或动画的试题,人机交互试题更能有效考查学生的科学探究能力[12];吴心楷等在基于多媒体的科学探究能力测评中开发了分别涉及中学物理、化学、生物、地理内容的共114道人机交互试题,并基于1066名学生参与的实测对这些人机交互试题进行了效度验证[13]。随着研究成果的不断丰富,人机交互试题逐步发展成为大规模科学教育测评工具的重要组成部分。PISA于2015年首次正式采用人机交互试题开展科学素养的大规模测评[14],并在PISA2018、PISA2022继续沿用该测评工具[15-16]。澳大利亚国家科学素养测评项目(NAP-SL)于2015年开始采用人机交互试题进行科学探究技能的测评[17],并于2018年对这些试题进行多方面的更新迭代,以满足测评的更高要求[18]。NAEP于2019年于全面引入基于情境(scenario-based)的人机交互试题[19]。国际数学与科学趋势研究(TIMSS)也于2019年向基于计算机的测评过渡,并探索人机交互试题的使用[20]。随着人机交互试题在大规模科学教育测评项目中的普及,这种试题的潜力和优势逐渐得到各领域研究者的认可与发掘。在新一代信息技术的加持下,人机交互试题正朝场景真实化、评判智能化、考查个性化的方向发展。有研究者已尝试设计三维界面、游戏化的人机交互试题,学生可在三维虚拟世界中自主探索与表达,其在完成任务过程中采取的行动、策略将作为评分的重点依据。例如,美国哥伦比亚大学的Baker等开发的“村庄出现了变异青蛙”试题要求学生在不同场景中自主开展科学调查,学生作答各问题的结果及操作过程可作为推断其科学探究能力水平的依据[21]。也有研究者尝试将自动评分技术引入人机交互试题,对开放性问题进行自动评分,如美国佐治亚大学的Zhai等开发了具有自动评分功能的科学建模人机交互试题[22]。还有研究者设计的人机交互试题能基于学生的反应提供自适应信息,学生每作答一问后,计算机即时对作答结果进行评分,并基于评分结果有针对性地提供额外提示信息或下一问[23]。从上述发展历程可见,人机交互试题已在国际科学教育测评领域的实践中获得认可,并有逐渐推广与普及的趋势。相较之下,我国对人机交互试题的研究与应用起步稍晚,除台湾师范大学吴心楷的研究团队外,目前只有少数研究者在本土化人机交互试题的设计、开发与应用上进行了初步尝试[23-24],且较为分散、未成体系。如何从国际上有关人机交互试题的研究与实践中汲取经验,设计、开发服务于我国科学教育测评的人机交互试题,亟须得到更多重视与投入。二、人机交互试题的动态特征在相关研究与大规模教育测评中,人机交互试题拥有多个名称,如交互式单元(interactiveunit)、问题解决与探究任务(problem solving andinquiry task)、交互式计算机任务(interactive computer task)和基于模拟的任务(simulation-basedtask)等。这也是科学研究在一个领域发展初期出现的必然现象。尽管名称不同,但其拥有共同的区别于书面试题的核心特征,即学生与试题间借助人机交互技术实现信息的动态交互。本文将这一核心特征称为人机交互试题的动态特征。动态特征充分体现了人机交互试题的优势,赋予其弥补书面试题短板的潜力。梳理国际科学教育测评项目中出现的种类丰富的人机交互试题,以及相关的人机交互试题研究,分析其中人与计算机动态交互的方式方法,可以将人机交互试题的动态特征归纳为逐步呈现设问、探索模拟环境、计算机模拟考查三个方面。(一)逐步呈现指向真实问题解决的设问书面试题的所有设问均印刷在同一张试卷上,学生可以随意调整阅读各设问的顺序。人机交互试题在设问呈现方式上具有动态特征,表现在围绕一个源于生产生活或科学技术工程的真实问题的解决过程设计多个设问,这些设问不同时呈现,具有逻辑和时间顺序[25-26]。在逻辑上,这些设问是循序渐进、密切关联的,共同指向问题的解决。在时间上,每个设问通常放置于一个页面中,学生在回答该页面的设问后,才能点击进入下一页面的设问,且通常不能返回查看或修改先前已提交的内容。回答这些设问的过程,犹如在按照指定顺序经历科学活动,并逐步解决真实问题。以TIMSS2019的“农场调查”(Farm Investiga tion)试题[20]为例,该试题要求学生按页面次序经历探究过程,帮助农场主人乔治调查哪种动物偷吃了花园里的植物,图1为试题的情境介绍界面。试题要求学生首先提出两条乔治应寻找的线索(如留下的毛发、留下的脚印、植物上的咬痕),之后按照试题提供的指定顺序逐个排查线索,最后确定是奶牛吃了花园里的植物。解题过程中,学生需要依次回答调查过程中涉及的问题。再如,NAEP2019的“自行车的材料”(Bicycle Materials)试题[19]也提供了明确的问题解决路径:要求学生依次探索不同金属的密度、硬度等属性,并根据探索的数据进行决策,选定应使用哪种金属作为自行车车架的材料。在设问呈现方式上,人机交互试题逐步呈现问题解决过程,且不允许随意返回修改作答。这使人机交互试题得以避免后续设问对前序设问的提示作用,从而能够考查学生面对真实情境问题解决的第一反应。(二)要求学生在对模拟环境的探索中获取解题信息如今的人机交互试题已嵌入具有强交互功能的计算机程序,不仅做到了提供仿真的模拟环境,更实现了让学生在模拟环境中进行探索。这使得人机交互试题具有另一个动态特征:试题要求学生对试题模拟环境进行探索,从而获取解决问题所需要的全部信息[27]。这样的信息提供方式与书面试题大为不同,学生需要依据题目的引导,从试题模拟环境的动画、视频或交互式控件中获取回答问题所需的全部信息。人机交互试题在模拟环境方面的动态特征有两种实现方式。一是要求学生自主展开探究与收集证据,且学生收集的信息是依据其反应而定的,可能获得有助问题解决的信息,也可能获得偏离问题解决的信息。例如,PISA2015的“在炎热天气下跑步”(Running in Hot Weather)试题[28]的第二问,要求学生判断饮水对跑步者发生脱水和热休克风险的影响,图2为该问题的界面及作答示例。学生需要依据题意在右侧交互式控件中选定气温、空气湿度以及是否饮水,点击“运行”按钮后,交互式控件将给出选定条件下跑步者的出汗量、失水量与体温的数据。经历上述探索过程后,学生才能获得答题所需的全部信息,由此判断得到饮水会降低脱水的风险而不会降低热休克的风险,从而完整回答该问题。二是要求学生操控模拟环境中的按键、控件等后,依据试题给出的反馈信息再进行作答。例如“在炎热天气下跑步”试题的第二问,在学生获取答题所需的全部信息后,不仅要在界面左侧的问题中选出正确选项,还需要从界面右侧的数据表反馈的数据中选出能支撑答案的数据。相较面对书面试题时学生仅需进行阅读、计算和书写等认知操作的局限,人机交互试题在模拟环境方面的动态特征极大丰富了学生的认知操作种类。学生需要在模拟环境中自主探索以获取信息、辨别信息的有效性,并依据获得的信息回答问题。认知操作种类的丰富让人机交互试题更贴近真实的问题解决过程,直面学生的真实能力与素养。(三)借助计算机模拟实验考查科学探究的动态过程为适应科学教育测评考查素养和能力的更高要求,人机交互试题特别在考查过程方面具有明显的动态特征:在试题的模拟环境中,借助计算机模拟实验考查学生在科学探究过程中的行为表现,重点关注其在实验设计、实验证据获得、实验数据分析等科学探究的关键步骤中的所有反应[29-30]。这些反应既包括学生在科学探究过程中的正确行为表现,还有学生的尝试性行为表现。试题对科学探究过程的考查类型可分为两类。一类是试题设计了一个或多个具体情境中的多变量系统模型,要求学生操作交互式控件,通过采取设置变量参数、运行模拟实验、观察实验结果等步骤探查系统中不同变量间的关系,从而深入考查其设计探究实验、获取实验证据、解释实验数据等的能力。图3为吴心楷团队开发的“照相机”试题[13]的第一问界面。该试题设计了一个由光圈范围、快门速度、拍摄照片亮度三个变量组成的系统模型,要求学生操作模拟照相机,探究光圈范围、快门速度对拍摄照片亮度的影响。再如,Quellmalz团队在“模拟科学家”项目中开发的一道试题[12]设计了一个由水藻、虾和鳟鱼的数量组成的系统模型,要求学生通过模拟实验探究湖泊生态系统中这些生物体的数量之间的相互关系。对科学探究过程的另一考查类型是借助交互式控件模拟科学仪器的使用,要求学生使用该模拟仪器完成探究过程的某些环节,以考查学生使用实验仪器、进行实验操作并得出实验数据的能力。例如,NAEP2019的“清澈的水体”(Clear Water)试题[19]模拟了一种用于测量水样的透明度的仪器“塞氏盘”的使用,图4为该试题其中一问的界面,学生可以在模拟量筒中添加或移出水样,并观察量筒读数和塞氏盘的变化情况。当量筒读数为“8cm”时,从水样上方恰好看不到塞氏盘上的黑白界限(如图4所示),因此需要在数据记录表中将该水样的透明度记录为“8cm”。再如,TIMSS2019的“农场调查”试题[20]分别模拟了刻度尺和显微镜的使用,前者要求学生使用屏幕上的刻度尺工具测量动物脚印的长度,后者要求学生调整显微镜的焦距以观察动物的毛发。这类计算机模拟实验极大拓展了实验情境,让数据采集和分析不局限于学校的实验室,而是通过计算机软件直接呈现结果和趋势,不仅为呈现实验室无法实际达成或直接观察的现象(如忽略阻力的现象、需要慢速或加速播放的现象、微观现象)提供了可能,而且为实操考查实验中读取数据、操作仪器等过程性能力提供了便捷途径。应用计算机模拟实验作为背景设计的人机交互试题能够跳出学生记忆中的实验空间,并结合过程性数据的采集真实反映其科学探究能力。三、借鉴与启示21世纪以来,在国际科学教育测评领域中人机交互试题快速发展的同时,我国也对计算机测评进行了诸多思考与尝试[31]。人机交互试题的起源与发展及其具有的动态特征,作为他山之石,对我国基础科学教育测评的改革与发展具有两个方面的启示。(一)人机交互试题有效弥补传统测评工具短板当前,书面试题仍是我国国家教育质量监测(NAEQ)[32]等基础科学教育大型测评项目使用的主要工具。然而,书面试题大多偏重于考查学生在知识层面的掌握情况,难以着眼于学生的高阶思维能力考查。原因在于学生在作答书面试题时拥有的自主探索空间非常有限,难以展现其在真实问题情境中的表现;且大多数学生在作答书面试题时只会在卷面上留下最终结果,只有少数会留下作答过程的推理痕迹[33],这些推理痕迹往往又较为模糊、潦草,对其进行分析具有一定难度,从书面试题采集的最终结果中难以探查学生在解决问题的过程中采取的策略和方法。人机交互试题的动态特征则为弥补书面试题的短板提供了潜在解决方案,可以作为书面试题的替代工具。针对书面试题限制学生自主探索空间的问题,人机交互试题的设问呈现方式与模拟环境向学生呈现了一个近乎真实的问题情境,为其提供了自主探索的机会。人机交互试题围绕同一问题的解决过程展开多个设问,学生在任务驱动下以目标为导向逐步完成试题,仿佛在经历一个解决真实问题的过程;同时,人机交互试题能基于学生的操作指令提供相应的反馈信息,其并非在一开始便向学生披露提供所需的全部信息,而是要求其自主探索收集信息,尤其对于试题中呈现的计算机模拟实验,学生不仅能在计算机屏幕前自主观察模拟自然世界或实验室环境下的科学现象,还可以重复进行实验与试错,经历完整且近乎真实的科学探究过程。人机交互试题在提供一个贴合真实的动态交互式场景的同时,也能以一种标准化、结构化的方式深入考查学生在真实问题情境中的表现。针对书面试题通常只能采集到最终结果的问题,学生作答人机交互试题的过程中,计算机可以自动采集学生所进行的操作与行为信息,并将这些数据全保留地记录在日志文件中[33]。过程性数据蕴含了丰富、多源的评价证据信息,以一种易获取、低成本的方式重现学生的思考与推理过程,具有打开问题解决过程“黑箱”的潜力,为深入评估学生的高阶思维能力提供了可能。目前,PISA、TIMSS、NAEP等大规模教育测评项目尚未将过程性数据纳入科学测试的评分证据中,但已有研究尝试使用过程性数据进行高阶思维能力的评估并证实了其可行性[29,34-37]。过程性数据也具备识别猜测获得答案的样本的潜力,如将作答时长低于平均作答时长10%的样本[38],或是未探索模拟环境便得出答案的样本判定为猜测获得答案的样本。对于错误作答或无作答的样本,过程性数据则可以帮助考查学生是否经历了尝试过程,如是否进行了相关的交互行为或是在问题界面用尽了所有时间[20]。此外,过程性数据还可以揭露学生回答问题过程中的错误环节,帮助分析、诊断学生的易错点。(二)智能化测评工具助力智慧考试发展当前,我国基础科学教育中实施考试的方式仍以组织学生集中作答书面试题为主。在信息科技革命席卷全球的背景下,推进与发展智慧考试是我国基础科学教育迫在眉睫的任务之一[39]。数字化、智能化的测评工具为智慧考试的推进与发展提供了重要途径,是智慧考试的重要组成部分,主要具有三个方面的优势与潜力。第一,在命制试题环节,智能化测评工具可以通过丰富的交互方式和多媒体资源降低命题主题的限制,拓宽范围角度,激发命题人员更多的灵感,引导其突破传统书面试题的限制进行试题命制。第二,在组织与实施考试环节,考试机构人员仅需将试题上传至指定网络平台,在指定时间开放作答,学校在相应时间组织学生用计算机登录平台进行作答,学生作答后,计算机自动进行评分。这种线上传输试题、计算机自动评分的方式可以省去印制和分发试卷、组织教师阅卷等流程,不仅能降低长周期、大规模开展考试的成本,提高考试的施行效率,还可以有效规避教师评分标准不一致、评分者漂移等问题,最大限度降低评分误差。第三,在评价学生环节,智能化测评工具不仅可以自动收集丰富的多模态过程性作答信息,为多维度、全方位、立体化分析、评价学生能力提供重要的数据支撑,同时也为自适应考试的引入和个性化评估的实现奠定基础,计算机根据学生作答情况自动匹配适合的下一设问或试题,并在学生完成考试后自动生成个性化结果报告与学习建议,使考试结果最大化地服务于学生学习的改进与提升。人机交互试题已成为当前国际科学教育测评领域迅速发展的研究热点,我国应借鉴国际科学教育测评领域的先进经验,结合我国实际情况设计、开发、应用人机交互试题。同时,全面开发数字化、智能化的测评工具,助力我国智慧考试的发展,实现对智慧教育的全方位服务。将人机交互试题引入我国本土,全面引进我国大型科学教育考试,可能还需要充分考虑与应对多方面的挑战。例如,在试题开发方面,人机交互试题的开发通常需要试题设计者和计算机编程者两个角色共同完成,开发过程不仅要求试题设计者在把握考查内容的基础上提出合理的交互需求,而且要求计算机编程者能够充分理解试题设计者的设想,双方往往需要多轮次的沟通才能得以确定,首次开发人机交互试题的时间周期可能较长、成本可能较高。在试题的稳定性方面,学生作答人机交互试题的表现可能受其计算机素养水平等因素的影响,如何尽可能减小这些无关因素的参差对测评结果的影响,提高考试公平性,还亟待更深入的研究。在测评工具的有效性方面,人机交互试题与传统书面试题的考查方式差异较大,如何确保人机交互试题与传统书面试题测量相同的心理特质,保障新型测评工具的效度,也是一项核心的技术问题。在数据分析与处理方面,学生作答过程产生的过程性数据体量庞大、形式新颖、结构复杂[40],如何充分合理地利用过程性数据,从中提取有效信息,从而实现对学生高阶思维能力的准确评估,是未来应长期关注的问题。在硬件支持方面,我国已初步完成各层次学校的计算机配备,但为保障开发的测试系统与计算机设备能良好适配,在网络带宽、电子设备更新等方面还需要加大支持与投入力度。参考文献略。
2024-08-28
原创 中国考试 2024年06月12日 北京引用格式:王辉. 新时代我国高校考试招生制度改革与实践[J]. 中国考试, 2024(6): 1-11.作 者王辉,男,北京师范大学中国教育与社会发展研究院研究员,教育部高校学生司原司长。摘要:进入新时代,党中央对考试招生制度改革进行顶层设计和重大部署。针对存在的突出问题,国家有关部门和地方政府以制度建设为核心,坚持育人为本,着力完善规则,强化综合改革,努力构建适应新时代要求的考试招生制度体系,积极稳妥推动高考改革。十年来,在促进学生健康发展、科学选拔各类人才和维护社会公平等方面取得重要成果,积累了宝贵经验。面对新形势、新挑战,考试招生制度改革依然任重道远。今后一段时期,要坚定改革方向,保持改革韧劲,增强改革的系统性、整体性、协同性,努力构建与教育强国和教育现代化相适应的现代教育考试招生制度。关键词:考试招生制度改革;制度建设;入学机会公平;职教高考;拔尖创新人才2014年9月发布的《国务院关于深化考试招生制度改革的实施意见》(以下简称《实施意见》)[1]开启新一轮考试招生制度改革。十年来,改革持续推进、迭代完善,成为恢复高考以来最全面、最系统、最深刻的一次考试招生制度改革[2]。回顾总结十年改革历程,厘清现象和事实,梳理成效和挑战,对于揭示规律和机理,以及面向未来构建与教育强国和教育现代化相适应的现代教育考试招生制度,具有重要意义和价值。一、改革背景与重要部署高考作为我国考试招生制度的重要组成部分,具有重要和特殊的政治功能、教育功能、社会功能和文化功能。1952年全国统一高考建制以来,高考制度的改革和完善就从未停止脚步。1977年,在邓小平同志的亲自推动下,高等学校招生考试制度得以快速恢复,改变了当时“读书无用论”的社会风气和“唯成分论”的制度羁绊,成为“文化大革命”后科教领域拨乱反正的开端,也是国家全面拨乱反正的突破口,具有重要意义和深远影响[3]。1985年,《中共中央关于教育体制改革的决定》指出,改革大学招生的计划制度,由单一的统招统分计划,改变为国家计划、委托招生和招收自 费生三种相结合的计划形式[4]。1993年,中共中央、国务院印发的《中国教育改革和发展纲要》提出,改革高校招生计划体制,学生实行缴费上学制度,毕业生就业实行学校与用人单位供需见面和一定范围双向选择的制度[5]。1999年,《中共中央国务院关于深化教育改革全面推进素质教育的决定》提出,进行每年举办两次高等学校招生考试的试点,高考科目设置和内容的改革应进一步突出对能力和综合素质的考查,逐步建立具有多种选择的、更加科学和公正的高等学校招生选拔制度[6]。2010年,中共中央、国务院印发的《国家中长期教育改革和发展规划纲要(2010—2020年)》(以下简称《教育规划纲要》)单列一章,就考试招生制度改革进行部署,提出以考试招生制度改革为突破口,克服一考定终身的弊端,推进素质教育实施和创新人才培养[7]。2012年,党的十八大胜利召开,中国特色社会主义进入新时代,考试招生制度改革进入崭新的历史阶段。党中央先后对考试招生制度改革进行了四次重大部署。(一)党的十八届三中全会对考试招生制度改革进行顶层设计2013年,党的十八届三中全会通过《中共中央关于全面深化改革若干重大问题的决定》(以下简称《决定》),要求深化教育领域综合改革。《决定》明确要求推进考试招生制度改革,探索招生和考试相对分离、学生考试多次选择、学校依法自主招生、专业机构组织实施、政府宏观管理、社会参与监督的运行机制,从根本上解决一考定终身的弊端,逐步推行普通高校基于统一高考和高中学业水平考试成绩的综合评价多元录取机制[8]。(二)国务院印发《实施意见》2010年《教育规划纲要》颁布实施后,教育部着手进行考试招生制度改革调研,开展改革试点。党的十八届三中全会后,教育部组织专门小组,进行广泛深入调研,认真总结有关地方改革试点经验,系统研究美国、日本、韩国、俄罗斯、英国、法国、德国、瑞士、新加坡等国家考试招生制度改革情况,深入分析改革发展趋势,着手起草具体改革方案。在调研和认真吸纳各方面意见的基础上,对考试招生制度改革面临的形势和问题进行了总体研判,得出主要结论如下:1)1977年恢复高考制度以来,我国考试招生制度不断完善,为学生成长、国家选才、社会公平作出重要贡献;2)我国考试招生制度相对公平,必须坚持;3)从人才选拔培养和国家发展的长远要求来看,现行考试招生制度存在一考定终身、唯分数等突出问题,集中反映出考试评价标准、选拔方式、入学通道等方面存在的弊端,难以适应学生全面发展、个性发展、健康发展的需要,难以适应高等学校多样化办学、特色办学的需要,难以适应国家对多样化高素质劳动者的需要,难以适应拔尖创新人才选拔培养和国际竞争的需要,深化改革势在必行。基于上述结论,提出了改革的基本思路:立足基本国情,通过综合改革,完善和发展具有中国特色的现代教育考试招生制度,为实现“两个一百年”奋斗目标和中华民族伟大复兴的中国梦提供坚实的人才保障。一是突出素质教育导向,把促进学生全面发展作为改革的出发点和落脚点,切实扭转应试教育倾向;二是满足经济社会发展需要,建立多样化高素质人才的选拔培养机制;三是坚持公平公正,大力促进入学机会公平,保障考试规范有序、招生公开公正;四是注重改革的综合性,统筹考虑学生成长发展过程的连续性和考试、招生、管理等各环节改革的关联性;五是正确处理继承与借鉴的关系,既要借鉴吸收国外考试招生及其改革的有益做法,又要充分考虑我国的基本国情,继承弘扬我国考试招生制度的优良传统。改革方案形成后,分别征求了部分全国人大代表、政协委员、专家学者及中央有关部门的意见。习近平总书记先后主持召开中央全面深化改革领导小组会议、中央政治局常委会议、中央政治局会议审议改革方案。2014年国务院印发《实施意见》,标志着新一轮考试招生制度改革全面启动。这次考试招生制度改革是第一次由中央全会谋划部署,第一次由中央最高决策层经过一系列中央重要会议审定改革方案,也是进入新世纪第一次以国务院名义印发教育考试招生改革文件,充分体现了党中央对考试招生制度改革的高度重视和坚定决心。(三)全国教育大会对考试招生制度改革进行重要部署2018年,习近平总书记在全国教育大会上强调,健全立德树人落实机制,扭转不科学的教育评价导向;要坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,从根本上解决教育评价指挥棒问题,扭转教育功利化倾向;考试招生制度的指挥棒要改,真正实现学生成长、国家选才、社会公平的有机统一;高考改革牵一发而动全身,各级党委和政府要做到亲自把关、亲自协调、亲自督查,加大统筹协调力度,确保这项备受关注的高风险改革平稳落地[9]。(四)中共中央、国务院印发《深化新时代教育评价改革总体方案》2020年中共中央、国务院印发的《深化新时代教育评价改革总体方案》(以下简称《总体方案》)明确提出,在考试内容上,构建引导学生德智体美劳全面发展的考试内容体系;在试题形式上,改变相对固化的试题形式,增强试题开放性;在招生录取上,逐步转变简单以考试成绩为唯一标准的招生模式;在职教高考方面,完善高等职业教育“文化素质+职业技能”考试招生办法;在规范管理上,各级各类学校不得通过设置奖金等方式违规争抢生源,严禁公布、宣传、炒作中高考“状元”和升学率等[10]。进入新时代,党中央先后颁布《决定》、审议《实施意见》、召开全国教育大会、出台《总体方案》,对考试招生制度改革进行了四次重大部署。习近平总书记关于教育的重要论述为新时代考试招生制度改革提供了根本遵循,为推进这项敏感但具有深远意义的重大改革指明了前进方向。综合起来,新一轮考试招生制度改革提出,全面贯彻党的教育方针,坚持社会主义办学方向,落实立德树人根本任务,着力解决社会反映强烈的突出问题,从有利于促进学生健康发展、科学选拔各类人才和维护社会公平出发,改进招生计划分配方式、改革考试形式和内容、改革招生录取机制、改革监督管理机制、启动高考综合改革试点,形成分类考试、综合评价、多元录取的考试招生模式,健全促进公平、科学选才、监督有力的体制机制,基本建立中国特色现代教育考试招生制度。二、制度建设与实施成效制度建设是党的十八届三中全会部署全面深化改革的核心要求。《决定》指出,要完成提出的改革任务,形成系统完备、科学规范、运行有效的制度体系,使各方面制度更加成熟、更加定型[8]。考试招生制度改革作为《决定》确定的重要改革内容,也必须从制度建设入手。理念是制度的先导。《实施意见》提出“四个核心”的改革理念:一是把促进学生健康发展作为重要目标,作为改革的出发点和落脚点;二是把促进公平作为重要追求,作为改革的基本价值取向;三是把科学选才作为重要导向,进一步提高选拔水平;四是把综合改革作为重要手段,统筹实施从基础教育到高等教育考试招生制度改革,促进普通教育、职业教育衔接沟通,统筹实施考试、招生和管理制度综合改革[1]。为了贯彻落实《实施意见》和中央有关决策部署,把改革理念体现到具体制度政策中,教育部会同有关部门陆续出台完善高中学业水平考试和综合素质评价、规范高考加分、实施“强基计划”、完善高职分类考试等20多项重要配套政策,各省区市根据实际情况研究制定改革实施方案及配套文件,基本构建起适应新时代要求的考试招生制度体系的四梁八柱。同时,积极稳妥推动改革政策实施,29个省份分五批启动高考综合改革,相关改革举措平稳落地,《实施意见》确定的五方面改革任务基本完成,中国特色现代教育考试招生制度基本建立[2]。(一)建立健全促进区域、城乡入学机会公平制度,在更高水平上维护教育公平一是实施支援中西部地区招生协作计划,即由录取率相对较高、高教资源相对丰富的省份,在不降低本省高考录取率的前提下,面向高考录取率较低且高教资源不足的中西部省份增加招生计划。二是实施重点高校招收农村和原贫困地区学生专项计划。教育部持续实施重点高校招收农村和原贫困地区学生专项计划,累计录取学生110万余人[2],形成保障农村和贫困地区学生上重点高校的长效机制。专项计划为实施区域农村学生上重点高校开辟了特殊通道,大大促进了社会纵向流动;同时,为原贫困地区县域中学留住了部分优秀学生和教师,对营造当地良好教育生态发挥了积极作用。三是完善随迁子女在流入地参加高考制度。根据教育部等有关部门要求,各地进一步完善和落实相关政策,2013—2023年累计有207万余名随迁子女在流入地参加高考[2]。四是建立完善防范和打击“高考移民”的制度机制。2016年,教育部会同公安部联合发文要求:1)地方各级教育行政部门开展学籍核查和实际就读情况核查,重点发现和纠正人籍分离、空挂学籍、学籍造假的现象;2)各地公安机关进一步严格户口迁移办理程序,全面实行户籍管理首接责任制和终身责任制;3)地方各级招生考试机构严格进行高考报名资格审查,对发现有弄虚作假等违规违法行为的,要取消考生报名资格;4)高中阶段学校规范办学行为,加强招生和学籍管理工作,如实进行新生学籍注册[11]。近年来,“高考移民”现象得到有效遏制,综合治理取得积极成效。(二)建立健全更加科学的考试评价制度,促进学生全面而有个性地发展一是完善高考命题质量标准,探索形成具有中国特色的考试评价理论和实践体系。2019年发布的《中国高考评价体系》从高考的核心功能、考查内容、考查要求三个方面回答了为什么考、考什么、怎么考的基本问题[12],是深化新时代高考内容改革的理论支撑和实践指南。高考命题实践中探索价值引领、素养导向、能力为重、知识为基的综合考查模式,不断增强试题的应用性、探究性、开放性,把考查的重点放在学生的思维品质和综合应用所学知识解决实际问题的能力上。十年来,高考命题改革实现了三个转变:落实立德树人,实现高考由考试评价工具到全面育人载体的转变;服务科学选才,实现高考由解题到解决问题的转变;有效引导教学,实现高考由以纲定考到教考衔接的转变[13]。二是建立计入高考总成绩的部分考试科目可选制度。新高考省份采用3+3或3+1+2的选考模式,除语文、数学、外语作为必考科目外,考生根据报考高校要求和自身特长,自主选择考试科目。选考科目改革促进了学生选科自主性[14],在更大范围实现学生文理融通,促进因材施教和学生兴趣特长发展。三是完善高中学业水平考试制度。学业水平考试是保障教育教学质量的一项重要制度,将国家规定的高中课程全部纳入学业水平考试,促进学生认真完成国家规定的各门课程学习,防止学生严重偏科[15]。目前,各省份已普遍建立高中学业水平考试制度。四是完善高中综合素质评价制度。客观记录学生成长表现,注重学生思想品德、学业水平、身心健康、艺术素养和社会实践等方面的过程性评价,反映学生德智体美劳全面发展情况[16]。目前,各省份已普遍建立综合素质评价制度,有关高校制订综合素质评价使用办法,并在“强基计划”等特殊类型招生中将综合素质评价结果作为重要参考。五是完善艺术体育类考试招生制度。大力推进艺术类专业省级统考科目全覆盖,严控组织校考的高校及专业,不再跨省设置校考考点,完善考评人员遴选机制;强化体育专项全国统测,严格考试标准;完善“文化素质+专业能力”的评价模式,稳步提高文化课成绩要求[17-18]。艺术体育类考试招生相关改革政策已于2024年落地实施。(三)健全完善职教高考制度,助力高等职业教育特色发展高职院校分类考试是高校考试招生工作的重要组成部分。为满足经济社会发展对多样化人才的需求,适应高等教育分类发展、职业教育特色发展和学生个性化发展的需要,教育部探索建立职教高考制度,将高职院校考试招生与普通高校相对分开,实行“文化素质+职业技能”的评价方式[19]。一是完善普通高中毕业生录取制度。对于普通高中毕业生,依据高中学业水平考试成绩和职业适应性测试结果,参考学生综合素质评价择优录取。二是完善中职学校毕业生录取制度。对于中职学校毕业生,依据文化基础考试和职业技能考试成绩,参考学生综合素质评价择优录取。三是建立中高职贯通培养制度。在学前教育、护理、家政、养老、健康服务、先进制造业、现代服务业等专业领域,采取“五年一贯制”等方式进行贯通培养。四是建立技能拔尖人才保送制度。符合条件的技能大赛获奖学生等,可保送至高职院校或普通高校就读。职教高考制度实施取得积极成效,改变了过去“一把尺子”衡量所有学生的弊端,按照不同的标准将学生输送到不同类型的高校。职教高考录取人数占高职院校招生规模的比例从2014年的约20%增至2023年的60%以上,职教高考成为高职院校招生的主渠道[2]。(四)探索建立拔尖创新人才选拔培养制度,为服务国家重大战略提供人才支撑一是启动实施“强基计划”。为服务国家重大战略需求,加强拔尖创新人才自主选拔培养,2020年教育部在部分高校开展基础学科招生改革试点工作。在保证公平公正的前提下,探索建立多维度考核评价考生的招生模式,为通过“强基计划”录取的学生制定单独人才培养方案和激励机制,探索建立本-硕-博衔接的培养模式[20]。2000—2023年,通过“强基计划”共录取新生2.4万余人。有关高校普遍反映,通过“强基计划”确实选拔了一批对基础学科研究有志向、有兴趣、有天赋的优秀学生[13]。二是探索拔尖创新人才超常规、多样化选拔培养通道。建立高校选拔、免高考模式,包括保送生、清华大学数学科学领军人才培养计划、北京大学物理卓越人才培养计划等;建立高校选拔、参加高考模式,包括北京大学、清华大学数学英才班、中国科技大学少年班等。(五)健全完善高校招生录取制度,进一步提高选拔水平一是规范高考加分。教育部会同有关部门于2014年和2019年先后两次发文要求进一步减少和规范高考加分,各地陆续出台实施办法,取消五类全国性高考加分项目,逐步取消所有95类地方性加分项目,进一步降低加分分值;同时,精准确定少数民族加分范围[2]。二是改进招生录取方式和投档录取模式。推进所有省份实行高考成绩公布后填报志愿,减少志愿填报的盲目性。推进录取批次改革,目前所有省份合并二本、三本批次,其中14个省份本科招生不再设置批次。实行多种模式的平行志愿——在原来平行到院校的基础上,增加平行到专业(或专业类)和平行到专业组,形成三种平行志愿形态并存的格局。开发与新高考相适应的网上录取系统,确保系统科学高效、平稳运行。有关研究表明,新高考录取机制改革提升了本科录取匹配质量[21]。三是建立高校校长签发录取通知书制度。强化高校主体责任,进一步明确校长对录取结果的责任。(六)建立健全监督管理制度,进一步提升考试招生治理能力和治理水平一是完善相关法律法规。教育部会同公安部提请全国人大常委会在2015年《刑法修订案(九)》中将国家教育考试中的严重舞弊行为入刑,为维护国家教育考试的安全与秩序提供法律保障[22];在已出台《国家教育考试违规处理办法》的基础上,2014年制订《高校招生违规行为处理暂行办法》,进一步完善制度体系,提高考试招生法制化水平[23]。二是完善信息公开制度。深入实施高校招生“阳光工程”,进一步扩大信息公开范围和内容,制定并落实“十公开”制度要求,接受考生、家长、学校和社会的监督。据教育部统计,2023年公示各类特殊类型考生信息达到96万人次。三是健全考试诚信制度。加强考生诚信教育和诚信档案管理,教育和引导考生自觉抵制违纪、舞弊、失信等行为。四是强化考试安全管理。完善国家教育考试部际联席会议机制,建立并落实考试安全责任制,强化考试环境综合治理,严密防范高科技舞弊,建立人防、技防、物防考试安全标准化体系。有关研究表明,新一轮考试招生制度改革,促进了教育治理体系的完善和教育治理能力的提升[24]。(七)促进普通高中育人方式改革,统筹推进普通高中新课程新教材新高考改革一是建立新课程、新教材、新高考“三新”联动机制。2018年,教育部发布指导意见,要求按照实事求是、积极稳妥、分步实施、自主申请的原则,从2019年秋季学期起,全国各省(区、市)分步实施新课程、使用新教材[25]。2022年秋季学期,进入高考综合改革的29个省份均实现新课程、新教材、新高考“三新”同步。二是完善选课走班教学管理机制。新高考背景下,高中学校因校制宜实施不同程度的选课走班,改变了传统行政班级授课的教学组织形式。有关地方指导学校加大对班级编排、学生管理、教师调配、教学设施配置等方面的统筹力度,提高教学管理水平和资源使用效率。三是健全普通高中资源投入和保障机制。针对中西部省份推进考试招生制度改革面临的办学条件不足等问题,国家连续实施普通高中改造计划和教育基础薄弱县普通高中建设项目,中央财政投入带动地方各级政府进一步加大学校建设投入,显著改善学校办学条件。大班额比例大幅下降,全国普通高中56人及以上大班额占比由2012年的47.8%降至2021年的4.8%;普通高中专任教师总数大幅增加,生师比由2012年的15.47∶1优化至2022年的12.84∶1,普通高中办学条件显著改善,有效缓解选课走班面临的师资紧张问题[13]。近年来,普通高中学校积极投入,实施普及攻坚计划,采用新课程新教材,推进中高考改革,有力地激发了学校办学活力,推动普通高中教育事业发展呈现新格局,整体办学水平迈上新台阶[26]。按照党中央的部署,考试招生制度改革实施十年来,建构了一系列重大制度、推进了一系列改革实践,实现了一系列工作进展,取得了一系列重要成果。考试招生制度改革紧紧围绕学生成长、为国选才、社会公平三个目标,进行系统性、整体性改革,推动教育领域产生格局意义上的变化[13],各主体(高中生、大学生、中学教师、高校教师、家长与关心高考改革的社会人士)对新高考改革的成效评价整体较高[27],对新高考改革的满意度也较高[28]。在改革过程中,上下一心,攻坚克难,有效应对诸多困难和风险挑战,以奋发有为的精神状态不断推进改革,积累了宝贵经验。一是高度重视,建立高效统筹的改革领导体制。党中央高瞻远瞩、谋划部署,中央领导同志亲自推动,教育部会同有关部门密切配合、协同发力,地方党委政府重视支持、主动担当,各地教育部门、招生考试机构和学校奋发作为、推动落实。二是系统推进,建立“一张蓝图绘到底”的改革推进机制。部省校紧紧围绕党中央对考试招生制度改革的总体部署和《实施意见》要求,明确推进改革的时间表、路线图和任务书,克服改革涉及面广、环节多、周期长等困难,历任领导驰而不息、接续推进,广大基层一线工作人员和教师勇挑重担、积极参与,确保考试招生制度改革落地生根,展现了推进改革的坚定决心和意志。三是攻坚克难,建立统筹协调的改革保障机制。针对改革过程中遇到的办学条件不足、师资结构性不足、省级考试机构命题能力急需提升等问题,政府部门出台配套政策,加强统筹和资源投入,为改革实施提供了有力保障。四是跟踪反馈,建立多方参与的改革完善机制。教育部组织专家对所有启动改革的省份逐一开展评估,组织各有关方面密切跟踪改革进展,加强对改革的督导反馈,尤其是针对改革过程中出现的问题及时优化政策。例如,针对部分试点省份改革初期出现的部分学生功利化选科等问题,教育部要求有关地方做好学生发展指导工作,并在2018年、2019年和2021年陆续出台三版普通高校本科招生专业选考科目要求指引,引导高校根据人才培养需要,提出专业选考科目要求;针对中西部省份高考综合改革面临的办学条件不足、教师结构性缺编等挑战及部分省份选科出现的问题,教育部指导后续改革省份及时调整选考科目设置,在最大可能保证学生选科机会的同时降低改革难度。总体上,按照“时间服从质量、进度服从效果”的原则,稳妥把握改革节奏。在“大稳定、小调整”的框架下,形成“边改革、边建设、边总结、边完善、边推进”的改革工作机制。三、面临的困难、问题与挑战习近平总书记指出,在认识世界和改造世界的过程中,旧的问题解决了,新的问题又会产生,制度总是需要不断完善,因而改革既不可能一蹴而就、也不可能一劳永逸[29]。考试招生制度改革是一项世界性、历史性、实践性难题。当前,考试招生制度改革虽历经十年,取得积极成效,但与党中央建设教育强国和实现教育现代化的要求相比,与经济社会发展对多样化高素质人才的需求相比,与人民群众希望接受更加公平、更高质量教育的期待相比,还存在差距和不足,改革仍然任重道远。(一)中西部地区高考综合改革保障有待进一步加强目前,仍有10个省份高考综合改革尚未落地,主要集中在中西部地区。尽管国家和地方持续加强对教育资源的投入和政策保障,但资源配置的区域、城乡、校际差异依然存在[30],尤其是中西部省份教育经费、教师队伍、办学条件等方面依然面临困难。有的中学教室、教学资源不足,尚未有明显改善;有的中学教师结构性短缺,尚未及时补充;有的教师工作量显著增加,相应的激励机制尚未建立;有的省级考试机构命题能力和基础设施不足,亟待提升和加强。(二)高中育人方式改革有待进一步深化考试招生制度改革给学生带来多样化选择,同时也对中学的教育和教学管理工作提出更高要求。在教学组织方面,与固定班级模式相比,选课走班增加班级编排和学生管理的难度,给师生沟通了解、学生建立归属感带来不小的挑战;在课程安排方面,一些中学未能严格按照课程标准实施教学,在高二年级前“提前抢跑”组织学生选科备考,高中仍然普遍存在压缩正常教学进度的现象;在学生发展指导方面,部分中学生涯规划教育发展滞后,指导教师缺乏专业化培训,课程资源不够丰富,生涯规划教育的针对性、有效性不强,难以满足学生发展的需要;在学业水平合格考试方面,一些省份高中学业水平合格考试难度未能完全达到高中课程标准要求,考试内容覆盖不够全面,不利于学生全面发展和高校人才选拔;在志愿填报指导服务方面,一些中学未能充分发挥主阵地、主渠道的作用,相关指导和服务难以满足考生和家长的需求。(三)综合评价考试招生办法有待进一步完善和落实高中学生综合素质评价是促进学生德智体美劳全面发展的重要抓手,将综合素质评价结果作为招生录取的参考是新一轮考试招生制度改革打破唯分数论的重要探索,但推进综合评价考试招生也面临着一些深层次的难题。在综合素质档案形成方面,一些地方对综合素质评价重视不够,客观写实记录执行不到位,综合素质档案质量亟待提升;省际之间标准和操作规范不一,使得不同地区、学校之间的学生难以横向比较。在综合素质档案使用方面,高校应根据自身办学定位和专业培养目标,研究提出综合素质评价使用办法,将综合素质评价作为招生录取的参考,但目前除了在“强基计划”等部分特殊类型招生中使用之外,综合素质评价结果尚未充分使用[24]。高校招生录取如何落实好“两依据一参考”,在更大范围将综合素质评价结果作为招生录取的参考,仍需进一步研究和探索。(四)拔尖创新人才选拔培养机制有待进一步完善当前,高校招收具有拔尖创新潜质学生的通道已基本建立,但是尚未形成系统、科学、成熟的拔尖创新人才教育生态体系。在思想认识方面,对拔尖创新人才重要性的认识仍然不足,不同主体对是否需要为拔尖创新人才提供特殊渠道和优质资源存在不同看法;对拔尖创新人才的成长规律,还有待进一步研究和把握。在制度建设方面,拔尖创新人才发现、选拔、培养、评价的一体化设计较为欠缺,选育衔接不够紧密,国家和地方层面拔尖创新人才选拔培养的相关法律法规和政策保障有待完善。在实践探索方面,如何避免拔尖创新人才的选拔成为变相“掐尖”,如何避免引发家长教育焦虑、损害教育生态,是拔尖创新人才选拔培养实践中亟待解决的难题。(五)职教高考有待进一步优化在“文化素质+职业技能”评价方面,有的地方和院校对学生文化素质要求较低,不利于学生长远发展和学校提高职业教育水平。对于职业技能测试,一些地方多校联考、高校校考的规范性、针对性和有效性还有待提高。在发展通道方面,由于职业本科院校数量和招生计划较少,技术技能人才本科学历上升通道较窄,不够通畅。(六)营造良好改革环境还需进一步发力树立正确教育评价导向还需要落实落地,一些地方和学校还存在给学校、教师下达升学指标、将升学率与教师评优评先及职称晋升挂钩、变相违规宣传高分考生和升学率的现象,考试培训机构虚假宣传、价格欺诈、干扰考试招生秩序的问题还时有发生。四、期待与展望2023年,习近平总书记在主持中央政治局第五次集体学习时指出,深化新时代教育评价改革,构建多主体参与、符合中国实际、具有世界水平的教育评价体系[31]。继续深化考试招生制度改革[32],要服务于实现中国式现代化的需要,服务于推进教育、科技、人才一体化战略的需要,适应发展新质生产力和人的全面发展的需要,落实立德树人根本任务,坚定改革方向,保持改革韧劲,增强改革的系统性、整体性、协同性,不断开辟新时代考试招生制度改革的新境界。(一)强化改革配套和保障措施一是拓展普通高中办学资源。要加大财政支持力度,按照高中学校办学标准,配备教室、实验室、活动场所等资源,保障与选课走班相适应的办学条件。二是加强高中师资队伍建设。保障与改革相匹配的高中教师数量,尤其是加强新课程、新教材、新高考背景下高中教师的专业能力提升。三是加强考试机构能力建设。充实学科秘书、命题教师队伍,提升命题科学化、规范化水平,加快后续改革省份命题基地建设。四是适度扩大中央部属高校招生规模。引导高校扩大理工农医本科招生计划,进一步满足人民群众接受优质高等教育的需求和国家高质量发展的需要。(二)完善综合评价考试招生制度一是提升综合素质评价的客观性、科学性、准确性,优化综合素质评价指标体系,探索利用人工智能、大数据等现代信息技术手段提升省级平台建设质量。二是在更大范围实现综合素质评价的使用,探索从低利害性考试向高利害性考试的逐步递进。例如,可以在中考录取中探索采用综合评价招生录取模式,不断积累经验,继而逐步实现综合素质评价在高校招生录取参考中的有效突破。(三)深化考试内容和形式改革一是进一步强化高考命题的育人功能,健全引导学生德智体美劳全面发展的考试评价体系,引导学校实施素质教育。二是进一步提升命题的科学性,科学设置试卷结构、题目形式和难度结构,加强对学生关键能力、学科素养和思维品质的考查。三是完善职教高考的内容和形式,完善“文化素质+职业技能”评价方式,增强文化素质评价的规范性和统一性,探索实现职业技能考试内容的标准化和考试组织主体的多样化。四是开展数字化赋能考试评价改革研究,进一步提升教育考试评价的科学性和公平性。(四)健全拔尖创新人才选拔培养机制一是完善拔尖创新潜质学生的早期识别培养机制,开展差别化教学和个性化培养,推进基础教育、高等教育统筹衔接,形成拔尖创新人才早期识别、安置、选拔、培养的一体化制度安排;在部分特殊类型考试中,先行开展改革高考总分录取模式的实践探索。二是加大对相关教师培养培训的支持力度,建立多层次、多形式的拔尖创新教育从业人员培养培训和支持体系。三是开展拔尖创新人才选拔培养项目的效果跟踪评价,强化对学生志向、动机、兴趣及成就的考查,加强对拔尖创新人才发现、选拔、培养、评价规律的研究。(五)深化普通高中育人方式改革一是统筹推进新课程、新教材、新高考,加强对国家课程方案实施情况的督导监测,规范学校课程及教学进度安排。二是完善并落实学生发展指导制度,将学生生涯规划教育贯穿于高中教育全过程,强化高校对高中生涯规划教育的支持,提高高中生涯规划教育的专业性、针对性和有效性。三是完善选课走班运行机制,因地制宜,实施“大走班”“中走班”和“小走班”模式。(六)营造良好改革环境一是坚持正确教育政绩观,切实扭转教育功利化倾向,为每个学生健康成长提供机会;增进社会共识,合理引导改革预期。二是加强考试招生法治建设,在吸纳有关地方立法经验的基础上,加强国家教育考试立法研究,加快完善教育考试招生法律法规。三是加强对涉考培训机构的综合治理,严防干扰学校教育教学和考试招生秩序。营造诚信考试环境,完善守信激励和失信惩戒机制,严厉打击有组织考试舞弊行为。五、结束语十年树木,百年树人。考试招生制度改革是一项长期艰巨的系统工程,既需要与时俱进、只争朝夕,也需要保持定力、久久为功,从更宏大的历史视角来审视和期待。建设教育强国和实现教育现代化,需要持续探索推进考试招生的理念现代化、制度现代化、体系现代化、手段现代化、服务现代化和治理现代化,期待中国高校考试招生制度改革持续深化、行稳致远。参考文献略。
2024-08-23
罗强 陆云 又一村聊地理 2024年08月20日【转载说明】以下文献仅作学习交流使用。若有侵权,麻烦通知公众号后台删除!【文献来源】《中国考试》2023年第10期中考省级统一命题的现实困境与对策探析罗强 陆云(苏州市教育质量监测中心,江苏 苏州 215006)摘要:中考省级统一命题有助于严格落实国家课程标准、规范中考命题管理、提升中考命题质量,为推进基础教育优质均衡发展发挥积极作用。在中考统一命题实施过程中,面临着组织管理难度大、试题保密任务艰巨、难以兼顾各地教育水平差异、可能助长“唯分数”应试倾向等诸多困难。为保证中考省级统一命题政策有效实施,应从规范命题组织管理、采取多重命题模式、加强命题队伍建设、完善评卷工作机制、改革招生录取方式等方面着手深化改革。关键词:中考命题;省级命题;锚题技术;考试命题改革;教育评价改革参考文献[1]中共中央 国务院关于深化教育教学改革全面提高义务教育质量的意见[EB/OL].(2019-07-08)[2023-01-15].https://www.gov.cn/zhengce/2019-07/08/content_5407361.htm.[2]教育部办公厅关于做好2022年中考命题工作的通知[A/OL].(2022-03-29)[2023-01-15].http://www.moe.gov.cn/srcsite/A06/s3321/202204/t20220406_614237.html.[3]国务院关于深化考试招生制度改革的实施意见[A/OL].(2014-09-03)[2023-02-10].https://www.gov.cn/gongbao/content/2014/content_2750413.htm.[4]教育部:全国29个省份已启动高考综合改革全国统一命题省份已达27个[EB/OL].(2022-09-15)[2023-03-22].http://www.moe.gov.cn/fbh/live/2022/54835/mtbd/202209/t20220915_661438.html.[5]浙江省高等学校招生委员会关于做好2023年普通高校招生工作的通知[EB/OL].(2023-05-05)[2023-03-22].https://www.zjzs.net/moban/index/8a11f2fd87e8d5b20187ea0713120001.html.[6]续梅:明年高考广东使用全国试卷考试大纲和难度不会变[EB/OL].(2015-03-11)[2023-02-10].http://www.scio.gov.cn/ztk/xwfb/jjfyr/10/mtbd/Document/1442765/1442765.htm.[7]张卓玉.为什么要推进中考省级统一命题[J].人民教育,2022(6):12-13.[8]李萍.为教学改革赋能为学生成长奠基:推进省级中考统一命题改革的山西经验[N].中国教育报,2022-04-15(9).[9]教育部组织开展全国中考命题评估反馈工作[EB/OL].(2019-03-29)[2023-03-10].http://www.moe.gov.cn/jyb_xwfb/s5147/201903/t20190329_375915.html.[10]教育部关于加强初中学业水平考试命题工作的意见[A/OL].(2019-11-20)[2023-08-30].http://www.moe.gov.cn/srcsite/A06/s3321/201911/t20191128_409951.html.[11]《关于稳步推进初中学业水平考试省级统一命题的建议》的答复[A/OL].(2020-03-17)[2023-08-30].http://edu.shandong.gov.cn/art/2020/3/17/art_107086_10076463.html.[12]福建省教育厅关于做好2018年中考中招工作的通知[A/OL].(2018-01-04)[2023-02-21].http://jyt.fu⁃jian.gov.cn/xxgk/zfxxgkzl/zfxxgkml/zcwj/201801/t20180104_3658436.htm.