増田有華さんを応援しながら英語学習+α

増田有華ファンが英語学習に悪戦苦闘する日記

TOEIC TEST test equating???

TOEIC TESTのtest equatingは,ETSの企業秘密で,断片的に,いくつかのことが
漏れ伝わってくるのみです。

Googleで検索すると,順天堂大学の小泉利恵先生の過去の学会のプレゼンテーション
資料が引っかかりますので,これをひとつの手がかりに,考察していきます。
TOEICスコアの算出方法と 解釈方法ここ

4ページに「TOEICスコアの算出方法」として,「項目応答理論を使ってフォームを 
等化し、点数を変換」とあります。TOEICが項目応答理論(Item Response Theory:IRT)を
使っているのかどうかは実は確定的ではないのですが,一部の方々が主張されています。
6ページにIRTそのものの説明はありますが,その後の「TOEICの等化方法」と題された,
9ページから12ページには,まったくIRTの話はでてきません。この9ページから12ページは,
Michael J. Kolen and Robert L. Brennan, Test Equating, Scaling, and Linking: Methods and 
Practicessecond edition, Springer, 2004, pp.19-20(1.4.5 Common-Item Nonequivalent Groups 
Designの一部分)のCommon-Item Nonequivalent Groups Designについての説明です。
Kolen and Brennan(2004)のオリジナルの該当箇所には,TOEICという言葉はでていません。
この方法は,別々の受験者が受ける複数のフォームに,共通のテスト項目(アンカー項目;
通称名「リサイクル問題」)を入れて実施して,アンカー項目を利用して,test equatingをするものです。
ETSの文書では,Non-Equivalent-Groups Anchor Test (NEAT) Designという用語が使われています。
小泉先生のプレゼン資料では,Kolen and Brennan(2004)にあるオリジナルの数値例が,そのまま
利用され,説明が進行していますが,ここでは,少し数値を変えて,説明します。
なお,“This example is an oversimplification of how equating actually would be accomplished,
and these result would hold only under very stringent conditions. ... This example is
intended to illustrate that a major task in conducting equating with the nonequivalent
groups design is to separate group and form differences.”(p.20)とあるので,注意が必要だ。

メジャーフォーム(4JICXX)とマイナーフォーム(4JICXY)の2つのフォームを使ったTOEIC 
TESTが行われた。受験者は,メジャーかマイナーかどちらかのフォームを受験した。
問題数(L or R)は全部で100問で,アンカー問題は40問。
(L or Rの)素点(正解数)での平均点は,次の通りだった。

Form 4JICXX 100問中 72点 アンカー問題40問中 28問(70%) 
Form 4JICXY 100問中 75点 アンカー問題40問中 30問(75%)

アンカー問題の正解率を比べると,マイナーフォームの受験者のほうが,能力が高いと
判断でき,5%ほど高い得点を取っている。ここで,マイナーフォームの受験者が,
メジャーフォームを受験していたら,どのようになるのかを考える。アンカー問題で5%高く
得点していたので,メジャーフォームを受験すると5%高く得点するだろう。
72+5=77点取るのではないか。
マイナーフォーム受験者を基準に2つのフォームを評価すると,メジャーフォーム77点,
マイナーフォーム75点となる。メジャーフォームは2点分簡単と判断する。
残念ながら,スコア換算表の作り方については,小泉先生のプレゼン資料には記述がない。
(スコア換算表そのもののイメージは,10ページにあります。)

TOEIC TESTのtest equatingについて,少しだけ説明されている,Mark Chapman, 
“Insights in Language Testing: An Interview with Kazuhiko Saito,”(ここ)によると,
“A series of computations are used to equate the test forms. The equating computations are 
applied to a hypothetical sample, known as the “equalized group.” The equalized group contains 
two Japanese subgroups from the first secure administration of new test forms, those candidates
who are affiliated with a company (Affiliates) and those who are not affiliated with a company
 (Non-Affiliates). The relative number of Affiliates and Non-Affiliates changes with each 
administration, hence, the groups must be equalized in order to properly equate. 
TOEIC test scores are reported on a scale which was instituted on the first TOEIC test 
administration.”とあるから,単純な集団全体の平均が使われていないのは,明らかですわ。
しかし,どのようにして,このふたつの集団を,「正確に」把握するんだろうか?
この部分の前の部分に,
“Each TOEIC test form is equated back to two older TOEIC test forms by incorporating 
a block of items from each old form in the new test form. ”とある。
これを単純に過去の2つの同じアンカー問題群を含んだフォームと比較して,スコア換算されていると
考えちゃっていいのかどうかは私にはわからないですわ。

にゃもし