10月13日,我代表深圳机构去参加了托福官方(ETS)举办的“托福体验日”活动。这个活动的本质就是官方希望召集一些从业者,给我们同步关于改革后的一系列信息更新和答疑,进而通过我们向广大考生传递更多信心。
整体而言,我的参会感受很好。会议安排紧凑且都是干货,工作人员也非常详尽地回答了来自各个机构老师的提问。即便遇到他们当场回答不上来的问题,他们也会邀请我们写到一个公共的白纸处,以便收集并后续反馈。以下是一些现场图片。
场馆设在一个酒店的大会议室,里面摆放了5个“摊位”,每个摊位由一位ETS工作人员负责。他们分别介绍新托福的听、说、读、写以及设计理念。每次介绍结束后,都有几分钟的自由提问时间。
关于托福改革的基本信息,我们已经写过若干篇介绍文。
本篇文章将聚焦在我们最新获得的信息上。信息来源包括托福体验日工作人员的介绍,以及10月16日官方首次放出的“技术手册”(以下简称“手册”)。
托福iBT技术手册
1、改革目标
根据“手册”,改革有6大目标,其中4个值得展开解释:
01、衡量由低到高不同水平的考生
翻译一下意思就是新托福能更好地衡量各个水平段的学生的具体语言能力。举个例子,在现行的托福考试中,阅读的两篇文章虽然在难度上有些许的差异,但即便是相对简单的那一篇,难度也很大。这会导致一些有一定基础、但整体英语水平还不够高的考生在做完一套题之后所得的分数,和一个基础很弱的考生相差无几。
显然,改革后的托福希望通过“自适应”的考试模式来更好地确定个体考生的水平,最终和“欧标”对应。
新版托福分数与欧标对应
02、同时衡量学术场景和日常场景下的语言能力
现行托福虽在一定程度上考察了日常英语使用的语境,如托福听力中的conversation题型,但这类所谓的日常英语由于仍然局限于校园场景,实际上并不够日常。
相比之下,改革后的听力将会出现关于购物话题的二人对话,真正实现了“日常”;此外,此前一直以学术难度著称的托福阅读也大量减少了学术篇章的数量及篇幅,并加入了一道字数从15至150不等的“日常短文”,话题包括但不限于广告、通知、甚至是收据。
没错,考生可能读到的就是一张只有15个词的收据,这极大地弥补了此前对相关语境考察不足的问题。
03、提供北美口音以外的场景
现行托福中的所有录音都只呈现北美口音,改革后将加入英国、澳大利亚、新西兰3种口音,更全面地测试考生对不同发音特色的适应能力。放心,不会出现印度口音。
04、在72小时内完成批改与出分
这对临近申请的考生或其他急着要分数的考生来说,无疑是天大的好消息。再也不需要等5天出分了,官方甚至透露了这72小时是包含周末在内的,也就是说,如果考生周六去考试,最快周二就能出分。这一点我们等改革后看看是否属实。
2、题目数量详情
01、新版托福的听力阅读两部分会分成Stage 1(中等难度)和Stage 2(低难度或高难度)。
此前我们以为两个阶段的题型是一样的,但根据“手册”,阅读低难度Stage 2不考学术长文而高难度Stage 2不考日常短文、听力低难度Stage 2不考讲座而高难度Stage 2不考通告。
听力阅读题目数量
02、听力的总题量是35-45,阅读是35-48;这个差异此前一直让人困惑,目前我们得知的最新消息是:多出来的题目俗称“加试题”,官方随机在实考中散布这些题目来看看考试的作答情况,以此确定其质量;这些题目只会出现在Stage 1;
03、考生可以通过Stage 1的作答倒计时来推测自己是否被加试;加试题不会算分,但考生并不知道哪些题是加试题,所以务必把所有题目都做完;
04、最后,并非所有考生都有加试,也并非一旦有就一定会加10道或13道,有可能小于该题量。
3、关于评分
01、听力阅读部分是客观题,所以一定是统一由机器打分,但关于口语和写作的评分业内一直有不同的说法,比如有人认为官方已经完全弃用人工改用AI打分。但根据各个官方渠道,目前已经确认口语写作仍然通过“AI+人工”来打分。
评分相关介绍
此外,我们在体验日现场问到如果AI和人工打分差异过大官方会如何处理,得到的解答是会有“第三方”介入,这个第三方是一位人工考官(我猜是“手册”中提到的“scoring leader”)或者是整个人工评分组。
02、不少考生和家长会担心改革后口语写作题型的难度好像不高,会不会测试不出真实的水平?
首先,改革后的题目难度真的被大大低估了,就拿口语的第一道题Listen and Repeat来看,许多考生甚至是从业者都认为这就是个“鹦鹉学舌”的游戏,实则不然,大家感觉题目难度低只是因为该题型的设置很简单,但凡做过题目之后就会发现实现100%跟读的难度极大(要求发音准确、表达无误)。
其次,官方这样设计有两个考虑:一是这类题目方便官方出题,二是能够直观地反映考生的纯口语输出能力(即无需表达自身观点和解释),和第二题Interview形成互补。
03、如果部分题目偏简单,是否会导致评分标准会变得严苛从而不好拿到高分?
根据“手册”,4个科目的最终得分并非是原始分数的线性对应。简单来说,系统会科学地考虑题目难度和考生表现来综合评定,无需担心评分不够客观,以下是具体的技术解释。
听力阅读的评分会采用一个叫等值过程(Equating Process)的机制将某考生的原始分转化为最终分。
例如,某考生的听力在没有加试、顺利进入较难Stage 2的情况下做了35题,做对其中的30题,此时考生的原始分是33,但这不意味着考生的最终听力得分就一定是5.5分;实际情况是,若本场考试听力难度很高,那即便该考生错了2题,那依然有可能拿到6分;反之,若本场考试听力难度正常,那可能就对应5.5;但若难度极低,甚至可能只能获得5分。
等值相关介绍
而口语写作的评分也类似,官方会采用一个加权等百分位等值(Weighted Equipercentile Linking)的机制将某考生的原始分转化为最终分。
例如,改革后托福口语的原始分满分为55分,在难度高的A考试中,原始分数45分排在第80百分位(即比80%的考生考得好)。在难度低的B考试中,原始分数50分也排在第80百分位。
那么,尽管原始分数不同,系统会认为A考试的45分与B考试的50分是等值的,因为它们代表了相同的相对水平。那这两位考生最终得分就是相同的,也许是5.5分。
口语写作题目数量及原始分区间
不得不说,这次改革所涉及到的变化特别多、特别大,这也给考生和各位家长带来了很多不确定性。但基于多年行业经验,且亲历了各种不同形式的考试,我们认为无论怎么改革都万变不离其宗——核心仍然是考察英语能力。只要先把托福当英语学,就一定能顺利应对。