序言

桂诗春

由浙江大学何莲珍教授主持完成的国家社科基金项目“计算机自适应语言测试模型设计”优秀结题成果以专著的形式问世，是一件令人兴奋和鼓舞的事。该项目不仅是建立了一个模型，而且还做了许多效度验证，其结果是可信的，为我国的外语考试改革探索提供了一条思路，很值得进一步探讨和完善。

众所周知，我国的考试制度经历了1300多年的实践，科举制度经历过盛衰，然后进入民国时期和中华人民共和国成立后的时期，近年来又出现了对考试的社会性（亦称批评性）思考。考试面临的许多问题都跟经济和文化教育发展不平衡有关，而不是考试本身造成的问题；不从根本上解决这些问题，任何措施都是苍白无力的。考试仅是一种测量工具，其责任就是公平地、准确地测量出被测量者的学识、能力和水平。它们无法缓解经济发展不平衡问题。把社会发展中一些未能解决的矛盾都归咎于考试，是一个错误命题。就考试本身而言，试题的保密也是一个始终困扰着大家的问题。在现代技术支持下的自适应考试所要解决的，就是每一个考生所做的试题在信度、难度和区分度等方面都是一致的，但同时又是来自题库里的不同题目，而且是具有自适应性的。这就是根据其自身水平编制而成，而且是在电脑上完成的。

何莲珍教授所主持的项目包括听力和阅读的题库，而且做了效度检验，验证了：1）计算机自适应语言测试与其他模式语言测试的等效性；2）计算机熟悉度对考生在计算机自适应语言测试中表现的影响；3）计算机自适应语言测试构念在男女考生群体中的一致性。这应该说是首次尝试对计算机自适应语言测试进行较为系统的效度验证，而且尝试在测试分数解释方面使用“评估使用论据”框架，有利于促进基于论据的效度验证方法在语言测试领域的广泛应用，同时提供了一种研究范式，有利于在未来的研究中更好地探讨基于计算机自适应语言测试分数所作推论的公平性。这些研究对当前一些“假、大、空”的研究具有示范意义。

就研究本身而言，也有一些可以继续努力的地方：1）继续了解“听”和“读”之间的关系，它们都属于接受性能力。2）对产出性能力如“说”和“写”，也也可以做适应性测试的尝试。它们对建库来说，难度不算很大，无非是储存一些题目，但是对评估而言却有很多困难。是人工评估还是计算机评估？机器改作文，目前还不很成熟；机器评估口语，还牵涉到转写或是直接评估的问题。3）目前使用的是项目反应理论的双参数模型，可以尝试同时使用单参数模型与之比较——前者多了一个区分度指数，但后者更节约时间。