【栖言栖语】托福官方的效度营销会奏效吗?

北美时间4月23日，ETS官方博客发布文章Inside the TOEFL iBT Updates: Validity by Design一文(https://www.ets.org/toefl/blog/ibt-validity-by-design.html)。基于新版考试已经施行3月有余，该文所呈现的“效度营销（validity marketing）”令笔者有些许担忧。接下来，我们从文中抽取不分部分关键信息来进行深度解读。

一

“一项用于招生目的的英语能力考试，必须包含以下任务：(1) 覆盖听说读写四项语言技能；(2) 反映大学学习中典型的综合语言运用；(3)包含真实语言使用的特征。考试所产生的分数，还必须能够可靠地估计整体语言能力，并在所要求的能力范围内保持适当的精确度，同时在不同水平之间都能稳定、准确地反映能力差异。对于语言能力测试而言，考试结果还必须能够真实反映考生在多样化学术环境中运用语言取得成功的能力。”

单纯从这一段无法看出这是托福的优势。目前其主要竞品IELTS，PTEA和DET等也都满足所说三大任务，直白点说，“我们托福考试是一门符合现代效度理论的英语考试”。但问题是大家都是，并不能说明它比别家更优秀。

稳定准确反映能力差异方面，当前版托福应落于下风。至少按照目前全球满分俱乐部人数激增的角度来说，显得弱爆了（天花板效应ceiling effect），原本114-120还能分出子丑寅卯来，现在大家一起向6。新版托福完全复制了CEFR标准，A1-C2六个等级对应1-6分。过于粗糙的分数区间，使得“准确反映能力差异”在当前无法真正实现。了解CEFR的人都知道，CEFR本身B阶段能力跨度巨大，且多数考生的实力应覆盖在B-C1阶。

二

然而，考试开发者面临一个常见挑战：

与现实高度相似的任务，往往耗时很长，却提供有限的测量信息。

相比之下：

更多任务 + 更多题型 = 更全面、更可靠的能力测量。

按照ETS这一论述，各竞品又是基本可用同一套路来说表示自己是践行者。雅思听力和阅读出了名的题型众多，填空题、选择题、配对题、是非无题各有千秋。当然按照ETS的叙事逻辑，PTE比新版托福更“ETS化”，题量够大，题型够多，自动评分更全面，单题权重也更低。多邻国近年来也开始摆脱“测得快未必测得深”的魔咒，开始出现一些较高效度和信度的题型来。

当前的托福的战略是：保留学术场景；引入高信息量小任务；控制考试时长等，本体OS应是：比雅思更稳定、比PTEA更真实、比DET更权威。

容若栖认为“更多题型≠更高效度”，有效新增可以独立测量不同能力，提供额外信息，这点可参照DET的Interactive系列和PTEA的Summarize Group Discussion and Respond to a Situation。无效新增则会重复已有构念并增加噪音。换言之，题目多不代表信息多。否则学生做一千道选择题，岂不是天下无敌了？

三

在容若栖眼中，托福真正的护城河并非是“更多题型”，也不是自说自话的“效度理论”，而是北美学术英语的标准化模拟，也是AI时代下学术沟通的试验田。

新版托福能否成功，取决于三大因素：

1. 满分率是否回归正常；

2. 4, 4.5, 5, 5.5, 6能否有效拉开 (好好反思在澳洲的TOEFL Essential的研究，并跟随PTE和DET的题型不定期更新传统，几乎可以预见几年不更新AI时代下的新题型，吊车尾基本是板上钉钉)；

3. 大学是否继续信任其排序能力。

如果做不到，

a. 高端市场会被雅思继续占据 (IELTS Next Generation在路上)；

b. 效率市场会被PTEA和DET严重侵蚀。

参考文献

1. Examining the Relevance of TOEFL Essentials Test Tasks for Migration Purposes. https://arts.unimelb.edu.au/language-testing-research-centre/research/projects/test-of-english-as-a-foreign-language-project-2022-2025

2. Davis, L., & Norris, J. (2021). Developing an innovative elicited imitation task for efficient English proficiency assessment (TOEFL Research Report No. 96). ETS.

3. Isbell, D. R., & Crowther, D. (in press). Investigating the real-world relevance of an academic English speaking test: Extrapolating subjective evaluations and linguistic performance characteristics. Language Testing.

4. Levelt, W. J. M. (1989). Speaking: From intention to articulation. MIT Press.

5. Pearlman, M. (2008). Finalizing the test blueprint. In C. A. Chapelle, M. K. Enright, & J. M. Jamieson (Eds.), Building a validity argument for the Test of English as a Foreign Language (pp. 227-258). Routledge.