采用多面Rasch模型提高英语运用测试的评分质量
当前位置:首页英语论文英语教学论文 → 文章内容

采用多面Rasch模型提高英语运用测试的评分质量

减小字体 增大字体 作者:杨睿  来源:本站整理  发布时间:2012-3-6 11:09:06


778论文在线编辑整理全文
摘要:目前电大系统英语考试的口试和作文部分多采用语言运用测试的方式。语言运用测试由于引入评分者而使评分的主观性变大。如何控制评分者差异对考生分数的影响成为保证语言运用测试评分质量的重要环节。本文在比较了行为测试中评分质量控制方面常用的三种理论的基础上,着重介绍了多面Rasch模型在提高评分质量方面的贡献,并探讨了在电大系统如何采用该模型对英语运用测试中的评分者进行培训,以控制评分质量和提高考试信度。

关键词:多面Rasch模型,评分者差异,评分者培训,行为测试

问题的提出

语言运用测试(Language Performance Assessment)近年来已取代传统的以多项选择题为主的标准化考试成为第二语言测试领域里口试和写作的主要测试方式。在第二语言测试中,这种行为测试方法主要是通过要求考生完成一些与日常生活或工作相关的任务来考查并推断考生的实际语言运用能力(McNamara,1996)。例如,TOEFL(托福)和IELTS(雅思)的口语考试要求考生口头描述所看到的图片或根据考题阐述自己的看法;写作考试则多要求考生根据所给题目写出一篇议论文。现在,不仅TOEFL和IELTS这类大型国际化语言测试采取语言运用测试,我国普通高校和成人高校的外语口语及写作考试也大多采用了这种形式。

语言运用测试的发展源于人们对传统的标准化测试的不满(孔文等,2007)。以多项选择题为主的标准化考试在测试考生的语法和阅读理解等知识方面具有高效性,但却因其测试方式单一无法有效考查考生的知识运用能力而受到批评。而语言运用测试在信度方面能更准确反应考生在真实语境中的第二语言运用能力。同时,语言运用测试良好的反拨效应更是为教学提供了宝贵的反馈信息。语言运用测试通常是由评分者根据设计好的评分量表对考生的表现进行打分。例如,英语写作考试的评分量表通常从语法正确度、结构完整性、内容相关性、用词和拼写准确度等方面来评判。英语口试评分中还会包括语音语调和表达流利程度等因素。所以,在教学方面,Brown(2004)认为语言运用测试能够展示学生的优点和弱点。教师可以根据学生在考试中显现出的问题有针对性地总结下一步教学重点。在学生自主学习方面,学生可以根据自己在考试中暴露出的具体问题,制订切实可行的学习目标。

然而,语言运用测试在提高语言考试的信度和提供更好的反拨效应的同时,其特有的主观评分方式则带来很多问题。在传统的以多项选择题为主的客观评分中,考生的分数可从考试中直接得出,不需要评分者的直接参与。而在语言运用测试中,评分者需要根据评分量表对考生在测试中的行为表现进行等级评定或打分(孔文等,2007;McNamara,1996)。这种主观考试的评分基本上依赖于评分者的主观印象,容易受到评分者的知识水平、评分经验、爱好、情绪、疲劳等因素的影响。因此,主观考试的评分者之间一般都存在着主观差异,而且同一个评分员在不同的时间段的打分也可能不稳定。研究证明,一个评分者在评分初始阶段和最后阶段的严厉程度会随着评分者的疲劳程度和前面批改过的考生情况有所差异(田清源,2007;Lumley & McNamara,1995)。国外文献将这种有关评分者的现象称为评分者效应(Rater Effects)。由于评分者效应直接影响到考生分数的公正性和考试的信度,如何控制评分者效应并减少其对考试的影响,是语言运用测试中的一个重要环节。

本文拟从语言运用测试中的评分者效应方面探讨广播电视大学系统英语运用考试评分中存在的问题,并介绍多面Rasch模型在控制评分者效应方面的效用,以及在电大系统中如何利用这一模型提高评分质量。之所以选择以电大英语运用测试的评分为研究对象,主要是基于两个原因:一是和普通高校相比,电大系统在英语运用测试乃至行为测试中有关评分质量的研究很少。笔者利用搜索关键词“Rasch模型、项目反应理论、评分培训”在国内最大的期刊全文数据库——CNKI期刊全文数据库中检索了远程教育领域内的主要期刊,没有发现在远程教育中利用Rasch模型进行评分质量的研究。而且,这些期刊里有关现代测量理论的介绍也很少。检索的期刊包括《开放教育研究》、《现代远距离教育》、《中国远程教育》、《远程教育杂志》、《电化教育研究》、《中国电化教育》。二是和普通高校相比,电大远程教育系统独特的教学考试模式决定了其英语运用测试中的评分者效应对考试的信度影响更大而且更难控制。因此,也就更需要找出适合自身特点的控制评分质量的方法。

电大英语运用测试中的评分

和传统高校相对集中的教学管理相比,电大系统的教学管理具有“统一领导和分权管理相结合”的特点(方青云等,2009)。从中央电大、地方电大(省电大)到所属分校,各级电大承担着不同的职责。就考试而言,大部分中央电大开设的统设课程由中央电大统一命题,地方电大根据中央电大规定的统一的考试时间和要求来组织考试和评分。以开放教育本科的“高级职业英语”课程中的口语和写作部分为例,这门课程的期末考试由中央电大统一命题。其中的口试题和写作题都是开放式考题(Open-ended Questions)。口试题要求两个学生组对就所给问题进行讨论。地方电大教师负责组织考生进行口试并参照中央电大设计的统一的评分量表给考生的表现打分。写作部分也是由地方电大组织相关教师来打分。

电大系统这种独特的管理模式对于控制英语运用测试中的评分质量造成了一定困难。首先,由于经济水平的不同,各地的师资水平有所差异。魏顺平等人(2010)针对电大系统的教师在1999年至2008年所发表的期刊论文情况所做的研究发现,各地电大教师的科研水平发展很不均衡。招生规模、办学条件和教师的科研水平存在相关性。江苏、浙江、广东等经济发达的东南部地区的电大教师科研成果远远好于贵州、海南和宁夏等经济发展薄弱的地区。教师科研水平发展的不均衡反映了各地电大教师的专业知识技能有很大的差异。而教师的专业知识技能在评分主观性较强的英语运用测试中起着重要作用。例如,“高级职业英语”课程考试的写作题要求评分者从文章是否切题、内容是否充实、行文是否流畅、结构是否严谨等方面做出判断。评分者对于评分量表中这些不同方面的理解把握和评分者的专业素养是紧密相关的。此外,由于师资的短缺和考试评分时间的紧张,很多电大会聘请普通高校或其他系统的教师来参加期末的考试评分。这些评分者在专业背景和工作经验方面存在较大差异,这样的差异也会导致评分误差的产生。所以,评分者在电大英语运用测试评分中的差异对考分的公正性会有很大影响。

其次,由于办学条件等局限,各地电大对评分者的培训和评分过程的监管存在差异。据笔者了解,有些电大会在评分考试前要求评分者认真研读评分量表的内容,而有的电大则仅由学校有关主管人员在评分前简单阅读一下中央电大制定的考试要求就开始期末评分。到目前为止,很少有地方电大会对评分人员进行评分前的培训并根据培训结果来决定是否所有参与评分的人都应该参与正式评分。而且,因为需要尽快完成评分任务,评分者往往加班加点地工作。这种情况下,评分者疲劳效应(Fatigue Effect)对于评分质量就会产生负面影响。

目前,电大系统英语运用测试的评分工作存在的问题与电大这种“统一领导和分权管理相结合”的特有的办学模式不无关系。虽然中央电大对考试形式有统一要求,并派出大批经过培训的巡考人员到地方电大协助监管考试的进行,但各地电大由于办学条件和师资力量的局限往往不能对评分过程和评分质量做到严格有效的管理和控制。这种非集中管理模式给英语运用测试评分带来的潜在问题就更要求电大系统要探索出一套适合自己的评分模式来提高考

[1] [2] [3] [4]  下一页