Применение методов статистической обработки данных к оценке валидности тестовых материалов единого государственного экзамена

Библиографическое описание статьи для цитирования:
Буров А. В. Применение методов статистической обработки данных к оценке валидности тестовых материалов единого государственного экзамена // Научно-методический электронный журнал «Концепт». – 2014. – № 1 (январь). – С. 81–85. – URL: http://e-koncept.ru/2014/14017.htm.
Аннотация. Статья посвящена изучению некоторых возможностей применения методов статистической обработки при оценке тестовых материалов единого государственного экзамена. Вопрос об объективности тестирования как способа проверки знаний и умений обучающегося актуален, как для системы образования, так и для общества в целом. Для оценки валидности тестовых материалов единого государственного экзамена применяется один из вариантов измерения валидности тестов с помощью аппарата статистической обработки данных и показывается применение предложенной методики к результатам выполнения учащимися тестовых заданий по русскому языку и математике.
Раздел: Отдельные вопросы сферы образования
Комментарии
Нет комментариев
Оставить комментарий
Войдите или зарегистрируйтесь, чтобы комментировать.
Текст статьи
Буров Андрей Васильевич,магистрант ФГБОУ ВПО «Смоленский государственный университет», г. Смоленскburov_andrei@inbox.ru

Применение методов статистической обработки данных к оценке валидности тестовых материалов единого государственного экзамена

Аннотация.Статья посвящена изучению некоторых возможностей применения методов статистической обработки при оценке тестовых материалов единого государственного экзамена. Вопрос об объективности тестирования как способа проверки знаний и умений обучающегося актуален,как для системы образования, так и для общества в целом. Для оценки валидности тестовых материалов единого государственного экзамена применяется один из вариантов измерения валидности тестов с помощью аппарата статистической обработки данных и показывается применение предложенной методики к результатам выполнения учащимися тестовых заданий по русскому языку и математике.Ключевые слова:единый государственный экзамен, оценка, валидность, тест, статистическая обработка данных.Раздел: (01)педагогика; история педагогики и образования; теория и методика обучения и воспитания (по предметным областям).

Организация и проведение единого государственного экзамена (ЕГЭ) –многоплановая и трудоемкая задача, основная цель которой –оценка уровня знаний выпускников, освоивших образовательные программы среднего (полного) общего образования, при помощи контрольноизмерительных материалов (КИМ), представляющих собой набор заданий примерно одинаковой трудности для каждого варианта теста, выполнение или невыполнение которых позволяет установить (оценить) уровень освоения федерального государственного образовательного стандарта. Но для достижения этой цели необходимо, чтобы полученная на ЕГЭ отметка была адекватной, то есть объективно отражала степень овладения учащимися материалами школьной программы.Значимость объективного оценивания на едином государственном экзамене определяется следующими условиями.1.Использование результатов ЕГЭ при конкурсном отборе в вузе, имеющем значение не только для выпускника, но и прежде всего для общества, развитие которого зависит от качества профессиональной подготовки. 2.Необходимостью оценки и совершенствования образования, ведь по результатам единого государственного экзамена все чаще делают вывод об уровне общеобразовательной подготовки школьников, о направлениях развития образования в Российской Федерации.3.Это трудоемкая задача, требующая привлечения научного аппарата.Оценка формируется по результатам выполнения заданий контрольноизмерительного материала экзамена. Следовательно, вопервых, оценка должна быть независима от предложенного варианта КИМ (т. е. выставленная отметка при выполнении одного варианта заданий должна приближенно совпадать с оценкой, полученной при решении другого варианта контрольноизмерительных материалов по этому же предмету на одном и том же уровне знания предмета) и, вовторых, при выполнении одного и того же варианта тестовых заданий учениками разной степени подготовленности полученные баллы должны различаться, отражая уровень подготовки учащихся.В Российской Федерации широко распространена четырехбалльная (2, 3, 4, 5) шкала оценивания знаний. Данная шкала является порядковой и позволяет сравнивать между собой уровни знаний учащихся. Используемые цифры можно заменить на «неудовлетворительно», «удовлетворительно», «хорошо» и «отлично» или буквенными обозначениями A, B, C, D. Но нельзя говорить о том, что «2» + «2» = «4», т.е. сумма знаний двух двоечников равна сумме знаний ученика, занимающегося на «4», т.к. ранговая шкала не обладает метрическими свойствами.Для реализации поставленной задачи (объективного оценивания) возникает потребность введения новой шкалы, способной отражать результаты измерений знаний. При этом новаяшкала должна обладать метрическими свойствами. «Сырые» баллы за выполнение заданий без дополнительной интерпретации лишены должной информативности. Сказать, что ктото верно решил 10 задач математического теста или 30 заданий теста по русскому языку –ничего или почти ничего не сообщить о том, насколько успешно выполнен тест в целом. Баллы, начисленные за правильное выполнение заданий ЕГЭ, являются результатом измерения с определенной точностью уровня подготовленности испытуемых по соответствующему предмету школьной программы. Например, если испытуемый А получил 95 баллов, а испытуемый В получил 85 баллов, то можно говорить, что уровень подготовленности А больше уровня подготовленности В на 10 конкретных единиц. Смысл этой разницы одинаков на разных частяхшкалы [1]. Следовательно, введенная балльная шкала обладает метрическими свойствами.Наряду с введением качественно новой шкалы нужно обсудить проблему валидности теста. Валидность –понятие, характеризующее то, на сколько хорошо тест измеряет изучаемое явление. Содержательная валидность теста обеспечивается благодаря отбору соответствующих заданий на основе систематического просмотра учебников и учебных программ, консультаций специалистовпредметников, учета опыта составления и применения тестовых процедур в нашей стране и за рубежом, применения научно обоснованных процедур отбора заданий. В представленной статье обосновывается один из вариантов измерения валидности тестов на основе статистической обработки данных и показывается применение полученной методики при анализе некоторого конкретного случая.Валидность тестов по русскому языку и математике устанавливалась методом внутренней согласованности, для оценки которой использовался метод контрастных групп [2]. Группы формировались из испытуемых с самыми высокими и самыми низкими показателями (баллами) по результатам теста. Результаты выполнения каждого задания теста группой с высокими баллами сравнивались затем с соответствующими результатами группы с низкими баллами. КИМ по русскому языку состоит из трехчастей. Часть А –задания с выбором ответа. К каждому из них даны 4 варианта ответов, из которых только один правильный. Часть В –задания с ответом в краткой форме, ответ нужно сформулировать самостоятельно. Часть С –состоит из одного задания и представляет собой небольшую письменную работу по приведенному тексту (сочинение). КИМ по математике до 2009 года также состоял из трех частей, но с 2010 года разработчики убрали блок заданий части А.При сопоставлении значения исследуемого признака (валидности заданий теста) двух групп (задания части А и части В оцениваются по принципу «верно» –«неверно», кроме задания В8 экзамена по русскому языку) были построены двухвходовые таблицы с последующим вычислением коэффициента корреляции Gamma(rγ). Для сравнения результата выполнения заданий части С был вычислен коэффициент корреляцииrγ. Степень корреляционной связи определяется по величине коэффициента корреляции. Будем говорить, что степень корреляционной связи сильная (или тесная), если значение коэффициентакорреляции больше 0,70 [3].Ниже представлен фрагмент таблицы корреляций результатов выполнения заданий по русскому языку 2004 года для двух групп (рис. 1).Если абсолютное значение коэффициента получалось меньше 0,70 (задания А11, А15, А18), то это значение рассматривалось как незначимое и задание считалось невалидным (требующем переработки или исключения из теста).

Рис.1. Фрагмент таблицы корреляций результатов выполнения заданий по русскому языку

Итоговые данные представлены в табл.1, в скобках указано количество заданий теста.Таблица 1Количество невалидных заданий тестов по предметам

Русский языкМатематикаГод сдачиКоличествоневалидных заданий(rγ0, 75)

Год сдачиКоличествоневалидных заданий (rγ0, 75)20047 (41)20041 (27)20053 (38)20050 (26)20065 (40)20060 (26)20073 (40)20071 (26)20082 (40)20082 (26)20092 (39)20091 (26)20101 (39)20100 (18)20110 (39)20110 (20)20120 (39)20121 (20)20131 (39)20131 (20)

Из таблицы видно, что количество невалидных (требующих переработки или исключения из теста) заданий с течением времени уменьшается, что позволяет сделать вывод об улучшении качества тестовых материалов.Регрессионный анализ является одним из наиболее распространенных методов обработки эмпирических данных при изучении зависимостей между величинами в различных научных областях, а задача исследования существующих связей –одна из важнейших задач статистического анализа данных. Процедура регрессинного анализа состоит в определении аналитического выражения, объясняющего влияние нескольких независимых переменных (факторов) на зависимую компоненту (результативный признак). При этом множество случайных факторов, оказывающих влияние на результативный признак рассматриваются как нормально распределенные случайные величины с нулевым математическим ожиданием и дисперсией.Для значений средних баллов единого государственного экзамена по русскому языку выпускников общеобразовательных учреждений построим линейную регрессионную модель (рис. 2). Величина коэффициента детерминацииR2=0,9225говорит о том, что изменчивость значений переменной около линии регрессии составляет1–0,9225от исходной дисперсии. Другими словами, 92% исходной изменчивости в данной модели могут быть объяснены влиянием независимых факторов (в данном случае валидность теста), а 8% остаточной изменчивости остаются необъясненными, т.е. подвержены влиянию случайных факторов (волнение, незнакомая обстановка и участники экзамена, особый контроль за процедурой сдачи и др.).

Рис. 2. Линейная модель распределения тестовых баллов по русскому языку

При обосновании статистического вывода следует решить вопрос, являются ли найденные различия существенными или нет. Введем понятие уровня статистической значимости. Уровень статистической значимости –это вероятность того, что мы сочли различия существенными, а они на самом деле случайны. Когда мы указываем, что различия достоверны на 5%ом уровне значимости, или приp≤0,05, то мы имеем в виду, что вероятность того, что они всетаки недостоверны, составляет 0,05.Исторически сложилось так, что низшим уровнем значимости является уровеньp≤0,05, достаточным –уровеньp≤0,01и высшим –уровеньp≤0,001[3].В дальнейшем, говоря о значимости коэффициентов, будем иметь в виду статистическую значимость на уровнеp≤0,05.Коэффициенты в уравнении регрессии статистически значимы и это позволяет сделать вывод о том, что построенная модель адекватно описывает распределение средних баллов.Полученное уравнение задает возрастающую функцию. На графике хорошо видно, что эмпирические значения приближаются к теоретическими можно сказать, что уровень обучения школьников соответствующему предмету стабилизируется и требования, предъявляемые как к школьному образованию, так и к содержанию тестовых материалов приближаются друг к другу. Распределение средних тестовых баллов поматематике лучше всего описывает не линейная модель(R2=0,2227), а полиномиальная(y=0,2413x2–2,6075x+50,642)степени 2(R2=0,4667). На графике видно (рис. 3), что до 2009 года наблюдается снижение уровня сдачи экзамена по математике, а с 2010 года увеличение результата. Несомненно, на уровне знаний выпускников отразилась не только грамотность составления экзаменационных материалов. На это оказали влияние и другие, внешние, причины, которыми могут быть сложность предмета, социальнополитические факторы и др.

Рис. 3. Модель распределения тестовых баллов по математике

Нужно отметить, что коэффициенты в полиномиальном уравнении регрессии статистически значимы, величина коэффициентаR2=0,4667говорито том, что построенная модель на достаточно хорошем уровне описывает распределение средних баллов по математике. Понятно, что в формирование окончательного балла единого государственного экзамена вносят свой вклад выполнение всех заданий всех частей теста. Попытаемся выяснить, какой вклад какая из частей вносит наибольший вклад в формирование итогового балла. В таблице 2представлены доли выполнения участниками экзамена каждой из частей теста по русскому языку и математике и средние баллы по предметам. Построим линейную регрессионную модель зависимости итогового балла от результатов выполнения заданий частей теста.Таблица 2Средние результаты выполнения частей КИМ и средний балл по предмету

Русский языкМатематикаГод сдачиАВСБаллГод сдачиАВСБалл20040,6080,2840,54249,220040,6200,1830,04147,620050,6630,4220,52749,720050,6310,2780,04646,720060,6820,3620,49548,720060,6820,2630,05746,220070,6940,3870,5655020070,7250,2750,0364620080,6890,3730,53657,620080,7230,3140,04139,320090,6980,4230,55058,820090,8140,2870,03844,120100,7300,4660,565602010

0,5470,2214420110,5660,3750,29262,32011

0,7270,07548,120120,7580,5740,62463,62012

0,6890,04845,220130,7410,6500,65965,32013

0,6820,06648,7В уравнении регрессии построенной модели свободный член равен 0 и уравнение регрессии имеет видBall=k1∙A+k2∙B+

k3∙C, где k1, k2, k3–коэффициенты при независимых переменных. В данной модели влияние коэффициентов в уравнении регрессии на формирование итогового балла можно увидеть на рисунке 4(столбец Beta). Если расположить коэффициенты в порядке убывания влияния, то наибольшее влияние оказывает коэффициент при независимой переменной решения задач части А, затем части С и В. Сами же коэффициенты указаны в столбце В.

Рис. 4. Коэффициенты уравнения регрессии зависимости среднего балла

от выполнения заданий частей теста по русскому языку

В построенной регрессионной модели зависимости балла по математике от выполнения заданий отдельных частей теста на формирование итогового результата оказало влияние выполнение заданий части В (рис. 5). Напомним, что, начиная с 2010 года разработчики КИМ убрали часть А из тестов по математике. Задания же части С оказывают влияние на формирование итогового балла намного меньше, что связано, в первую очередь, с их сложностью –не всякий выпускник приступает к выполнению заданий части С по математике.

Рис. 5.Коэффициенты уравнения регрессии зависимости среднего балла

от выполнения заданий частей теста по математике

Итак, в работе мы применили метод внутренней согласованности и коэффициентов корреляции Gamma(rγ)для оценки валидностизадании тестовых материалов по математике и русскому языку. Установили, что количество невалидных заданий, выявленных с помощью представленной методики, уменьшается с каждым годом, что позволяет говорить об улучшении качества тестовых материалов.Пытаясь оценить влияние выполнения заданий отдельных частей экзаменационной работы на итоговый результат сделали соответствующие выводы. Но не стоит забывать, что эти выводы сделаны для достаточно большой выборки, что характеризует саму выборку (в среднем), но не отдельный элемент данной группы.Построили регрессионные модели для значений средних баллов единого государственного экзамена, рассчитанных по результатам выполнения выпускниками тестовых материалов по математике и русскому языку в 2004–2013 годах и на основании соответствующих расчетов можно сделать вывод о том, что уровень обучения школьников по этим предметам стабилизируется и требования, предъявляемые как к школьному образованию, так и к содержанию тестовых материалов приближаются друг к другу.

Ссылки на источники1.НейманЮ.А., ХлебниковВ.А.Как оценивается уровень подготовленности учащихся по результатам единого государственного экзамена.–М.: Центр тестирования Минобразования РФ,2003 –48 с.2.Анастази А., Урбина С. Психологическое тестирование.–СПб.: Питер,2007.–688 с.3.Сидоренко Е.В. Методы математической обработки в психологии.–СПб.: ООО «Речь». 2003 –350 с.

Andrey Burov,master student, Smolensk State University, Smolenskburov_andrei@inbox.ruApplication of data statistical processing methods for estimation items validity at universal state examAbstract.The paper is dedicatedto the study of data statistical processing methods for estimation items validity at universal state exam. The question of objectivity testing as a means of assessment of knowledge is topical question for society. For estimation of validity testing items at universal state exam we apply some methods of statistical processing of data. And in this article we propose one of mechanism for processing and control data of deliverables testing items by pupils at universal state exam.Keywords:universal state exam, estimation, validity, test, statistical processing of data.References:1–3 –RussianSources.

Рекомендовано к публикации:УсачевымВ.И.доцентомкафедры прикладной информатикиФГБОУ ВПО «Смоленский государственный университет»;ГоревымП.М., кандидатом педагогических наук, главным редактором журнала «Концепт»