Full text

Несмотря на продолжающиеся до сих пор дискуссии о целесообразности тестирования, тесты прочно вошли в образовательный процесс и стали важным компонентом в оценивании уровня подготовленности испытуемых [1–7]. Весомыми достоинствами тестирования являются объективность и точность оценивания, которые зависят от многих параметров тестирования. Накоплен большой опыт исследования факторов, влияющих на точность измерения уровня подготовленности испытуемых: число тестовых заданий, их коррелированность, учет частично правильных ответов и многие другие [8–14].

Одним из таких аспектов является использование параллельных вариантов теста. Необходимость в параллельных вариантах тестов обусловлена необходимостью исключения списывания и подсказок во время тестирования. В идеале все параллельные варианты теста должны иметь одинаковую трудность. Однако это практически недостижимо, поскольку варианты теста состоят из разных тестовых заданий. На практике параллельные варианты тестов часто формируются следующим образом. Каждому испытуемому случайным образом выбирается одно и то же определенное число заданий из банка тестовых заданий. Поэтому возникает вопрос: а в какой степени сформированные таким образом варианты имеют одну и ту же трудность? Очевидно, что оценка уровня подготовленности испытуемого зависит от варианта теста.

В данной работе исследуется степень параллельности вариантов теста в зависимости от параметров тестирования. Исследуемыми факторами являются диапазон варьирования и число тестовых заданий в банке заданий, число тестовых заданий в тесте и число вариантов теста.

Для достижения поставленной цели необходимо решить следующие задачи.

  1. Сгенерировать банки тестовых заданий с заданными параметрами.
  2. Сформировать варианты теста с заданными параметрами.
  3. Провести анализ параллельности вариантов тестов в зависимости от параметров банка заданий и параметров вариантов теста.

Исследование проводилось на основе имитационного эксперимента в рамках теории латентных переменных.

Откликом Y является размах варьирования вариантов теста по трудности, который характеризует степень параллельности вариантов теста.

На параллельность вариантов теста исследовалось влияние следующих факторов:

-          фактор А – диапазон тестовых заданий банка – варьировался на трех уровнях [-1, +1], [-3, +3], [-5, +5] в логитах;

-          фактор В – число тестовых заданий в банке – варьировался на трех уровнях 200, 500 и 1000 заданий соответственно;

-          фактор С – число тестовых заданий в тесте – варьировался на трех уровнях 20, 30 и 50 заданий соответственно;

-          фактор D – число вариантов теста – варьировался на трех уровнях 20, 30 и 50 вариантов соответственно.

Тестовые задания равномерно распределены по трудности в банке тестовых заданий. Тестовые задания выбираются в тест случайным образом из банка тестовых заданий. Трудность теста вычисляется как средняя трудность тестовых заданий, выбранных в тест. Оценка параллельности вариантов теста вычисляется как размах варьирования вариантов теста по трудности. Каждая комбинация уровней исследуемых факторов была реализована в трехкратной повторности.

В качестве метода статистической обработки использовался многофакторный дисперсионный анализ, реализованный в диалоговой системе SPSS.

Результаты четырехфакторного дисперсионного анализа имитационного эксперимента представлены в табл. 1.

Интерпретируем полученные результаты. Прежде всего, из четырех факторов значимы только три фактора: факторы А, C и D.

Фактор А значим (р < 0,001). Значимость фактора А означает, что диапазон варьирования тестовых заданий в банке влияет на параллельность вариантов теста. Значения уровней фактора А вычисляются как усредненные значения по всем остальным факторам (см. табл. 2). Аналогичным образом вычисляются средние значения остальных факторов.

Таким образом, при прочих равных условиях чем выше диапазон варьирования тестовых заданий в банке, тем больше отличаются друг от друга варианты теста.

Таблица 1

Результаты многофакторного дисперсионного анализа

 

Источник дисперсии

Сумма

квадратов

Степени свободы

Средний квадрат

Fэксп

р

Фактор А

92,030

2

46,015

595,223

< 0,001

Фактор В

0,136

2

0,068

0,880

0,417

Фактор С

10,367

2

5,183

67,048

< 0,001

Фактор D

4,513

2

2,256

29,188

< 0,001

Взаимодействие АВ

0,262

4

0,065

0,847

0,497

Взаимодействие АС

3,499

4

0,875

11,315

< 0,001

Взаимодействие АВ

0,037

4

0,009

0,119

0,976

Взаимодействие АВС

0,377

8

0,047

0,610

0,769

Взаимодействие АD

1,553

4

0,388

5,021

0,001

Взаимодействие ВD

0,628

4

0,157

2,030

0,093

Взаимодействие АВD

0,864

8

0,108

1,396

0,202

Взаимодействие CD

0,547

4

0,137

1,769

0,138

Взаимодействие АCD

0,964

8

0,120

2,684

0,170

Взаимодействие ВCD

0,775

8

0,097

1,253

0,272

Взаимодействие АВCD

1,016

16

0,064

,822

0,660

Ошибка

12,524

162

0,077

 

 

Всего

130,787

242

 

 

 

 

Таблица 2

Размах вариантов теста по трудности

в зависимости от диапазона варьирования тестовых заданий банка

 

Диапазон банка заданий (логит)

Размах вариантов теста (логит)

Стандартная ошибка

(логит)

95% доверительный интервал

Нижняя граница

Верхняя граница

[-1; + 1]

0,376

0,031

0,315

0,437

[-3; + 3]

1,166

0,031

1,105

1,227

[-5; + 5]

1,883

0,031

1,822

1,944

 

Фактор В незначим (р = 0,417 > 0,05), это означает, что число тестовых заданий в банке не влияет на параллельность вариантов теста.

Фактор C значим (р < 0,001), что свидетельствует о влиянии числа тестовых заданий в тесте на размах вариантов теста (табл. 3).

Таблица 3

Размах вариантов теста в зависимости от числа тестовых заданий

 

Число тестовых заданий

Размах вариантов теста (логит)

Стандартная ошибка

(логит)

95% доверительный интервал

Нижняя граница

Верхняя граница

20

1,400

0,031

1,339

1,461

30

1,133

0,031

1,072

1,194

50

0,894

0,031

0,833

0,955

 

Таким образом, при прочих равных условиях чем больше тестовых заданий в тесте, тем выше параллельность вариантов теста.

Фактор D значим (р < 0,001), что свидетельствует о том, что число тестовых заданий в тесте влияет на трудность теста (табл. 4).

Таблица 4

Размах вариантов теста в зависимости от их числа

 

Число тестовых заданий

Трудность теста (логит)

Стандартная ошибка

(логит)

95% доверительный интервал

Нижняя граница

Верхняя граница

20

0,958

0,031

0,897

1,019

30

1,185

0,031

1,124

1,246

50

1,283

0,031

1,222

1,344

 

Как и следовало ожидать, при прочих равных условиях чем больше вариантов теста, тем в меньшей степени они параллельны.

Важными источниками дисперсии, влияющими на параллельность вариантов теста, являются взаимодействия факторов.

Как видно из табл. 1, существуют два значимых источника дисперсии AC и AD. Значимость взаимодействия факторов свидетельствует о том, что эффект одного фактора зависит от того, на каком уровне находится другой фактор.

На рис. 1 представлен эффект взаимодействия факторов АС (диапазона варьирования тестовых заданий в банке и числа заданий в тесте).

 

 

 

Рис. 1. Эффект взаимодействия фактора А (диапазона варьирования тестовых заданий в банке)

и фактора С (числа тестовых заданий в тесте)

 

Как видно из рис. 1, эффект взаимодействия АС состоит в том, что различие между вариантами теста увеличивается как при увеличении диапазона варьирования тестовых заданий в банке, так и при увеличении длины теста.

На рис. 2 представлен эффект взаимодействия AD.

 

 

Рис. 2. Эффект взаимодействия фактора А (диапазона варьирования тестовых заданий в банке)

и фактора D (числа вариантов теста)

 

Эффект взаимодействия этих факторов состоит в том, что различие между вариантами теста увеличивается как при увеличении диапазона варьирования тестовых заданий в банке, так и при увеличении числа вариантов теста.

Проведенный статистический анализ показал, что число тестовых заданий в банке, по крайней мере от 200 до 1000, не влияет на различие вариантов теста по их трудности.

Различие между вариантами теста увеличивается с увеличением числа вариантов тестов. При существующей технологии тестирования (тестовые задания для каждого испытуемого выбираются случайным образом) чем больше студентов в группе, тем больше различие между вариантами тестов.

Неоднородность вариантов теста увеличивается также при увеличении диапазона варьирования тестовых заданий в банке тестовых заданий. Поэтому нецелесообразно увеличивать диапазон варьирования тестовых заданий.

Важным фактором, влияющим на параллельность вариантов теста, является число заданий в тесте – чем больше тестовых заданий в тесте, тем меньше различие между вариантами теста.

В целом получены следующие результаты.

  1. Представлена методика проведения имитационного эксперимента для исследования факторов, влияющих на параллельность вариантов теста.
  2. Определено влияние факторов, характеризующих технологию тестирования. Показано, что число тестовых заданий в банке не влияет на параллельность вариантов теста. Увеличение числа тестовых заданий в тесте уменьшает различие между вариантами теста; с этой точки зрения число тестовых заданий в тесте равное 50 является предпочтительным.
  3. С увеличением диапазона варьирования тестовых заданий в банке увеличивается различие между вариантами теста, поэтому нецелесообразно конструировать тестовые задания с большим диапазоном варьирования. При существующей технологии тестирования (задания выбираются случайным образом) чем меньше вариантов теста, тем меньше они различаются между собой.