SAT在线考试机考新题开发与算分研究

从2022年3月份开始,SAT终于要迎来第一场机考。我和研发团队的战友们,从年初知道SAT机考改革的消息开始,就翘首以盼官方释放的物料多一点,再多一点,让我们的新物料贴合真题近一点,更近一点。 我们的想法很多,学生能有题可练、有词可背,有分可依,就好。

我们做的也很多,机考系统、讲义、练习册、词表,一个都不能少。我们的很多物料,大家都会在寒假班用到,今天先讲一讲物料设计的理念,让大家用着更放心。

有题可练

01 自适应考试

新机考将阅读和语法合并成一个科目(以下简称“英文”),保留数学科目。在每一个科目中,又包含两个部分。每个科目在第一个部分的考题一样,称为routing module,第二个部分的考题,就要根据考生在第一个模块的表现确定了。考试的流程也就是这个样子:

简而言之,考生在第一部分routing module的错题太多(太多的标准会在后面进行说明),第二个部分就会自动匹配一套easy(简单)的题目,最后的分数不会太高。如果错题个数在一定的标准之内,第二个部分就会自动匹配一套hard(难度大)的题目,就有获得高分的可能。

所以在考场上,题目越难,考生应该越开心。在此要补充一点,这次机考改革,除了纯粹的机考是adaptive(自适应),还有一种纸考版是nonadaptive(非自适应),是给特殊考生准备的,考点和题目设计完全一样,但仍然是纸考,题量稍有区别,而且每个科目两个部分的题是固定的。

02 研发的数据

目前官方公布的物料只有8套样题,其中包括4套自适应机考题、4套非自适应题。我们的考生虽然不会参加非自适应的考试,但是因为这8套题从考点、题目设计、难度等等各个维度都是一样的,所以它们都是我们研究的对象。

从内容角度看,这次改革,有几个明显的变化:

1)文本长度变短

我们看到机考题,最直观的感受就是文本变短了,从原来的一篇长文章搭配十几道题,变为多个段落,每个段落仅搭配一道题。貌似降低了阅读量,实则需要考生不断的在各种文本、话题、题材中切换。文本长度变化,读者可以参考下表:

解构SAT机考:新题开发与算分研究

虽然文本总长度缩短,但文本还是要保证复杂度和信息的丰富度。为此,我们又做了另一个测算。这一次,我们将2016年前的旧SAT、现行SAT、机考SAT的文章都拿来,做一个横向对比,看一下他们在Lexile(蓝思指数)、平均句子长度、平均词频等方面的差别。蓝思指数的数值越高,文本难度越高,数值越低,文本难度越低。下图给大家浅尝一下:

解构SAT机考:新题开发与算分研究

跳过冗余的测算过程,直接说结论: 从文本的难度上看,现行SAT文本最低蓝思指数为1200L,对应美国9年级学生的水平,最高的难度没有明确的封顶。而机考SAT,最低蓝思指数为1030L,对应美国6年级学生的水平。

而且,机考SAT在文本难度上做出了更明确的限定,文本难度对应的年级包括6-8年级、9-10年级、12-14年级共3个阶段。考生如果第二个部分进入到简单题模式,大概率会遇到6-8年级难度的文本,如果进入到困难模式,大概率会遇到12-14年级难度的文本,所以,考生在考场上会很直观的判断出自己是否进入了难题模式。

机考SAT句子的平均长度变短,单词难度降低,主要是因为easy部分的文本拉低了数据,hard部分的文本和现行SAT基本持平。单从数据上看,考生阅读文本应该会感觉轻松了不少。

2)不考察历史文献

考生终于要和最头疼的历史文献说再见了,CB经过7年,终于也想明白了,考生在历史文献上的表现,不能说明他们是否为大学学习做好了准备。历史文献题目的缺失,也是机考SAT单词难度降低的一部分原因。

3)增加诗歌内容

目前,官方公布的诗歌素材不多,而且在11月19日的小范围测试中,考生反馈没有考到诗歌的题目。简单说,诗歌的赏析主要有两种题型,一种题目,原文是诗歌,题目考察诗歌中部分语句的功能、作者的意图、作者的主要思想。

另一种题目,原文是作者的主要思想,选项是诗歌,考生需要判断,哪个选项能体现作者的主要思想。诗歌赏析的难度主要体现在用词、修辞,会成为考生备考的一个重点,也是我们研发的重点。

03 研发的成果

我们研发的初衷是,尽量贴近官方考试难度的同时,适当拔高。首先,根据我们研发团队的直观感受,机考SAT要求考生能够根据段落的逻辑关系,找到证据和结论的对应,所以我们在研发新题的过程中,对于段落的把控,除了字数要求,还要保持文本前后逻辑的自洽。

我们研发团队的外教,熟谙托福、SAT、ACT、GRE等各类标化考试的套路,我们研发团队的老师,是历经SAT两次改革的元老,我们研发团队的数据,来自于测算了上千次托福、ACT模考数据的分析员。对于有参考价值的题目,我们在原题基础上,再次改编,从长度、难度、做题思路上,尽可能贴合真题。

比如,机考SAT的填空题、文学赏析的内容,在现行SAT里没有考察,所以我们参考了一部分旧SAT的题目。同时,考虑到要做出简单题和难题的区分,要给学生适当拔高,我们也参考了一部分GRE填空的题目。而那些没有考过的题型,完全靠我们原创。

比如诗歌,我们选取了美国、英国部分重点诗人的名作,进行题目的编写。再比如语法部分的观点表达类题目,我们也参考了外刊文献、《Very Short Introductions》系列的文件,完全原创。经过对easy和hard两部分题目的对比,我们发现,在文本长度上,难题比简单题多出约20个单词,行文逻辑上更不宜判断。

所以,编写过程中,我们自动给每一道题目贴上难度标签,划分出易、中、难三类题目。我们新题的开发,在编写之后,要经历一轮又一轮的校对、试做、再校对。截止到目前,我们经过校对、确定可以使用的题目,已经达到2000+。练习题的范围包括诗歌专项练习、阅读短篇练习、语法知识点专项练习、数学知识点专项练习等等,覆盖了考生备考的各个方面。

有词可背

01 机考词汇难点

在上文提到,机考的单词难度降低,但这个降低仅限于文本中。也就是说,考生看到文章的时候,第一感觉文章不难读懂。

那么机考SAT的单词难在哪呢?难在选项里,更准确的说,是hard难题的选项里。下图是个直观的比较:

解构SAT机考:新题开发与算分研究解构SAT机考:新题开发与算分研究

简单题部分词汇题展示&难题部分词汇题展示

考生会有比较直观的感受,如果词汇题的选项都认识,基本上是进入简单题模式了,如果词汇题的选项,不认识的居多,那大概率是难题模式了。

02 词汇书设计原理

对于单词书的设计,我们更加谨慎,单词的选择并不是越难越好,而是要找到相对贴近的词库。CB官方对于单词的说明也给我们提供了一部分提示。单词难度可以分为3个层级:tier one, tier two, tier three. Tier one的单词是学生在孩童时代,通过日常交流就掌握的简单词,比如fun, table等,所以这类单词,不是SAT考察的内容。而Tier three的单词是学术类词汇,只会在特定学科中用到,比如manifest destiny,membrane,这类词汇也不是重点。

最后,Tier two的词汇,就是CB的重点词汇了,比如influence,exclusive。这些词汇经常出现在学生日常的学习中,比学科词汇使用范围更广,但美国学校老师通常容易忽略这类词汇,认为学生应该已经掌握了。结合前面提到的,机考SAT文本的难度覆盖了6-12年级文本的难度,所以这部分文本对应的词汇,就是我们词表的大范围了。

有分可依

相信很多考生和家长,在做完题目以后,更关注的是,能有一个相对有效的评分标准,判断学生目前的水平。这也是我们从年初就启动的一项工作。 自适应的系统,因为具备自动学习和自动调整的功能,所以比固定的题目更灵活,更能拉开差距。而且也因为每个学生做到的题目不太一样,可以更好的预防作弊。但这也给我们的研发带了了更大的挑战。

截至目前,我们已经有一套媲美官方软件的模考系统。但,官方机考的算分规则是不可能透露的,我们甚至不知道在每一个部分的考生中,易、中、难三类题目的配比,所以,我们只能用现有4套机考题一遍遍的进行测算。

目前,我们已经形成了一个初步的算分模式。直接说几个结论:

1.英文部分,Routing模式最少要做对14道题(错13道题),才能进入hard模式,稳妥起见,最好做对17道题(错10道题);

2.如果第二个部分进入到easy模式,分数的上限就基本确定了,考生很难超过600分,具体这个上限是多少,我们模考系统见吧;

3.简单题会更“值钱“,错简单题扣掉的分数会更多,而不是单纯的按题型、错题个数去扣分。所以对于基础不扎实的考生来说,这不是个好消息;

4.第一个模块做的好,第二个模块进入困难模式,题型更多的是难题,也就是区分度大的题,比如阅读的修辞目的类题目,语法的观点总结等等。高手PK的重点会发生变化;

5.扣分更加严格,最直观的原因就是,题量减少了,分配到每道题上,承载的分数就高了。

这一点,我们通过官方非自适应的题目的算分表,可以更直接的感受到。

解构SAT机考:新题开发与算分研究

非自适应的题目,有两个难度,lower是简单题,upper是难题,我们假设考生数学满分800。如果想上1500分,lower的题目,英文部分只能错5个,upper的题目,英文部分只能错7个。现行的SAT,英文部分如果达到700分,我们假设阅读340分,可以错7~9道题,语法360分,可以错3、4道题,那么英文部分加起来,可以错10~13道题。

但是,我们在测算过程中也发现,官方的机考系统也是存在bug的,比如第一个部分对了17道题,进入了难题,但对了18道题,反而进入了简单题,这里,我们排除了题目难度的因素外,仍然是这样。所以官方的系统、题目,在实考中仍然是会变化的。我们也会紧随其后不断完善。

我们的研发团队,历经各标化考试的多次改革,托福、GMAT、SAT、ACT,研发的物料、出版的书籍不计其数。每一次标化考试的改革,都是我们对以往教学物料大换血的机会。

我们知道官方想考什么,明白家长担忧什么,了解考生需要什么。应对改革,我们研发一直都在。 

上一篇

什么是成绩通胀?哪些大学实行这种做法?

下一篇

IB经济学课程IA Evaluation应该怎么拿高分?

你也可能喜欢

评论已经被关闭。

插入图片
微信咨询 微信咨询
微信咨询
在线咨询 在线咨询
在线咨询
返回顶部