Применение однофакторного дисперсионного анализа к оценке надежности тестовых материалов единого государственного экзамена

Выпуск: № 12 (декабрь)

ART 14341

УДК 371.261 : 519.254

Автор:

Библиографическое описание статьи для цитирования:

Буров А. В. Применение однофакторного дисперсионного анализа к оценке надежности тестовых материалов единого государственного экзамена // Научно-методический электронный журнал «Концепт». – 2014. – № 12 (декабрь). – С. 41–45. – URL: http://e-koncept.ru/2014/14341.htm.

Аннотация. Статья посвящена изучению некоторых возможностей применения однофакторного дисперсионного анализа для оценки надежности тестовых материалов Единого государственного экзамена. Вопрос об объективности тестирования как способа проверки знаний и умений обучающегося актуален как для системы образования, так и для общества в целом. Для оценки надежности тестовых материалов Единого государственного экзамена применяется один из вариантов измерения надежности тестов с помощью аппарата статистической обработки данных, и показывается применение предложенной методики к результатам выполнения учащимися тестовых заданий по русскому языку.

Ключевые слова: тест, оценка, надежность, единый государственный экзамен, статистическая обработка данных

Похожие статьи

Применение методов статистической обработки данных к оценке валидности тестовых материалов единого государственного экзамена

Текст статьи

~ 1~ART 14341бДК371.261:519.254Буров Андрей Васильевич,магистрант ФГБОУ ВПО «Смоленский государственный университет», г. Смоленскburov_andrei@inbox.ru

Применение однофакторного дисперсионного анализа к оценке надежности тестовых материалов Единого государственного экзамена

Аннотация.Статья посвящена изучению некоторых возможностей применения однофакторного дисперсионного анализа для оценки надежности тестовых материалов Единого государственного экзамена. Вопрос об объективности тестирования как способа проверки знаний и умений обучающегося актуален как для системы образования, так и для общества в целом. Для оценки надежности тестовых материалов Единого государственного экзамена применяется один из вариантов измерения надежности тестов с помощью аппарата статистической обработки данных, и показываетсяприменение предложенной методики к результатам выполнения учащимися тестовых заданий по русскому языку.Ключевые слова:Единый государственный экзамен, оценка, надежность, тест, статистическая обработка данных.Раздел: (01)педагогика; история педагогики и образования; теория и методика обучения и воспитания (по предметным областям).

Важнейшим аспектом любой педагогической деятельности являются оценки, которые выставляют преподаватели и разного рода экзаменаторы своим ученикам, абитуриентам, студентам и пр. Последствия таких оценок могут быть самыми различными –от чисто морального эффекта до определения судьбы человека. Тем не менеевсе прекрасно понимают, что оценки эти субъективны и часто приблизительны. Даже в рамках такой малочувствительной системы оценок, какой является традиционная для России пятибалльная (а по существу,лишь трехбалльная –«3», «4», «5») система, не удается сформулировать конкретные стандарты, определяющие, за что следует ставить «3», а за что можно ставить «4» или «5». Теоретически полезное увеличение чувствительности шкалы вряд ли было бы оправданным при существующем порядке проведения текущего контроля успеваемости и экзаменов, так как на практике привело бы лишь к увеличению влияния субъективизма и его последствий. Проведение контрольных мероприятий в письменной форме требует существенных временных и других затрат, но нисколько не меняет сути дела [1].Проблема измерения и оценивания результатов обучения является одной из самых важных в педагогической теории и практике. Решение этой проблемы необходимо для оценки эффективности педагогических инноваций и технологий.Сегодня в качестве инновационных средствиспользуют тестирование, рейтинговую и модульную системы оценки качества знаний, учебные портфолио,мониторинг качества.Тестирование является одной из наиболее технологичных форм проведения автоматизированного контроля с управляемыми параметрами качества. В этом смысле ни одна из известных форм контроля знаний учащихся с тестированием сравниться не может. Тесты контроля уровня знаний применяются на всех этапах дидактического процесса. С их помощью эффективно обеспечивается предварительный, текущий, тематический и итоговый контроль знаний, умений, учет успеваемости, учебных достижений.~ 2~ART 14341бДК371.261:519.254Однако не все тесты могут дать желаемый результат. Пользоваться необходимо соответствующими тестовыми измерителями, разработанными и проанализированными в соответствиис правилами и требованиями тестологии, на уровне мировых стандартов. При этом в настоящее время такой тестовой продукции пока слишком мало. В нашей стране только создаются службы сертификации тестовых материалов. Недостаточно квалифицированных специалистов, способных обеспечить высокое качество создаваемых тестов, всвязи с чем целесообразно каждому педагогу, школе создавать свой тестовый банк заданий по разделам образовательных программ на основе требований, предъявляемых к данному виду контроля в современной теории конструирования тестови критериям для проведения внутреннего тестового контроля знаний по всем предметам и направлениям подготовки выпускников.Вообще, тест(англ. test –проба, испытание, исследование) в психологии и педагогикестандартизированные задания, результат выполнения которых позволяет измерить психофизиологические и личностные характеристики, а также знания, умения и навыки испытуемого;педагогический тест–это инструмент оценивания уровня подготовленности учащихся, состоящий из системы тестовых заданий, стандартизованной процедуры проведения, обработки и анализа результатов;педагогическое тестирование–это форма измерения знаний учащихся, основанная на применении педагогических тестов. Включает в себя подготовку качественных тестов, собственно проведение тестирования и последующую обработку результатов, которая даёт оценку уровня подготовленности тестируемых.Эксперимент по введению Единого государственного экзамена (ЕГЭ), начатый в 2001 г., открывает новую страницу в развитии отечественной системы образования и имеет инновационный характер не только по замыслу, но и по форме проведения, по масштабам и отсутствию жесткой регламентации со стороны органов власти [2].Эксперимент имеет две цели: повышение доступности высшего образования и качества среднего школьного образования, реализация которых достигается одновременно за счет совмещения в одной процедуре школьного выпускного экзамена и вступительного экзамена в высшие учебные заведения [3;4].К числу основных задач, решаемых с помощью ЕГЭ, можно отнести:–создание объективной и чувствительной шкалы оценки качества образования;–повышение доступности профессионального образования;–снижение психологической нагрузки на выпускников общеобразовательных учреждений;–совершенствование системы государственного контролякачестваобщего образования на основе независимой оценки уровня подготовки выпускников.На ЕГЭ тестовый балл формируется по результатам выполнения заданий контрольноизмерительного материала (КИМ) экзамена. Следовательно, вопервых, оценка должна быть независима от предложенного варианта КИМ (т. е. выставленный балл при выполнении одного варианта заданий должен приближенно совпадать с баллом, полученным при решении другого варианта контрольноизмерительныхматериалов по этому же предмету на одном и том же уровне знания предмета) и, вовторых, при выполнении одного и того же варианта тестовых заданий учениками разной степени подготовленности полученные баллы должны различаться, отражая уровень подготовки учащихся.~ 3~ART 14341бДК371.261:519.254Под обобщенным термином «уровень подготовленности» понимают уровень обученности испытуемых по указанным разделам, совокупность их умений и соответствующих навыков. Уровень подготовленности участников тестирования является латентным параметром (то есть недоступным для непосредственного измерения),и, чтобы «добраться» до него, необходимо привлечь серьезные научные методы составления тестов и совместной математической обработки результатов тестирования.Чтобы оценить уровень подготовленности тестируемого в конкретной области знаний,нужно проверить правильность выполнения им достаточно большого количества заданий различной трудности. Это множество заданий можно называть генеральной совокупностью заданий для данной области знания. Понятно, что всякий тест состоит лишь из конечного количества определенных заданий, представляющих собой некоторую выборку из указанной генеральной совокупности.Таким образом, педагогический тест, в отличие, например, от обычной контрольной работы, можно рассматривать как своеобразный измерительный инструмент определенной разрешающей способности и точности. Нельзя только забывать, конечно, что объект измерения здесь чрезвычайно специфичен, и потому результаты существенно зависят от возможностей разумно формализовать этот объект[5].Составление качественных тестов требует использования научных методов отбора содержания, теории педагогических измерений, применяемых для проверки соответствия тестов обоснованным критериям качества. Одним из таких критериев является надежностьтестовых материалов. Под надежностью понимается устойчивость (или согласованность) результатов теста, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, при использовании разных наборов эквивалентных заданий или же при изменении условий обследования [6]. Такое понимание надежности лежит в основе вычисления ошибки измерения отдельного показателя, благодаря чему мы можем предсказывать диапазон случайных колебаний тестового балла у конкретного человека, возникающих, вероятно, под действием посторонних или неизвестных факторов.Другими словами, мы должны быть уверены, что тест адекватно отражает генеральную совокупность заданий и дает устойчивые результаты при повторном использовании его вариантов. Надежность теста должна показать, в какой мере результаты теста можно считать реальными, а в какой –приписанными влиянию случайных факторов. В качестве количественной меры надежности будем рассматривать коэффициент (надежности) �∈[0;1], определяющий долю дисперсии «истинного» балла в общей дисперсии.В данной работе поставлена задача оценить уровень надежности заданий базового уровня контрольноизмерительных материалов по русскому языку Единого государственного экзамена разных лет. Для определения коэффициента надежности воспользуемся идеей однофакторного дисперсионного анализа.Контрольноизмерительные материалы по русскому языку состоят из трех частей. Часть А–задания с выбором ответа. К каждому из них даны 4 варианта ответов, из которых только один правильный. Часть В–задания с ответом в краткой форме, ответ нужно сформулировать самостоятельно. Часть Ссостоит из одного задания и представляет собой небольшую письменную работу по приведенному тексту (сочинение). Результаты выполнения заданий части А теста по русскому языку занесены в таблицу –матрицу ответов. Результат выполнения каждого задания оценивается по ~ 4~ART 14341бДК371.261:519.254дихотомическому принципу –ставится 1, если задание выполнено верно,и 0 в противном случае. Ответы всех участников на все задания вариантов образуют прямоугольную таблицу –матрицу размера �×݇(�–количество тестируемых, ݇–количество заданий). Обозначим матрицу ответов через �=(ܽ௜௝). Рассматривая имеющиеся баллы как реализации случайной величины, выполним дисперсионный анализ таблицы. Основная идея состоит в выделении «факторной дисперсии», порождаемой в данном случае влиянием тем и участников тестирования, и «остаточной дисперсии», обусловленной случайными причинами.Рассмотрим частичные суммы элементов матрицы Апо строкам и столбцам. Назовем первичным баллом iго участникасумму элементов iй строки матрицы �(т. е. количество верно выполненных заданий варианта участником с номером i):

ܾ௜=∑ܽ௜௝௞௝=1,݅=1;�̅̅̅̅̅

и, аналогично, первичным баллом jго заданияназовем сумму элементов столбца с номером j, т. е.

с௝=∑ܽ௜௝,݆=1;݇̅̅̅̅̅�௜=1.

Разность �−ܿ௝отражает меру трудности jго задания при выполнении его группой из �участников тестирования. Понятно, что чем выше первичный балл задания, тем оно легче.Пусть, по определению,

��общ=∑∑(ܾ௜௝−ܾ̅)2௞௝=1�௜=1–

общая сумма квадратов отклонений наблюдаемых значений от их общего среднего;

��тем=�∑(1�ܾ௝−ܾ̅)2௞௝=1–

факторная сумма квадратов отклонений средних значений по столбцам от общего среднего, характеризует рассеяние между темами;

��исп=݇∑(1ܾ݇௜−ܾ̅)2–�௜=1

факторная сумма квадратов отклонений средних значений по строкам от общего среднего, характеризует рассеяние между участниками тестирования;

�ост=�общ−�тем−�исп–

остаточная сумма квадратов, характеризует внутреннее рассеяние.По этим результатам легко оценить соответствующие несмещенные оценки дисперсии. Их получают делением сумм квадратов отклонений на соответствующее число степеней свободы:~ 5~ART 14341бДК371.261:519.254�тем=�тем௞−1;�исп=�исп�−1;�ост=�ост(�−1)(௞−1).

Извлекая квадратный корень из последней оценки, получаем среднеквадратичную ошибку измерений �.Для вычисления коэффициента надежности теста примем во внимание, что задания всех вариантов одинаковы по темам и трудности. Следовательно, спецификация заданий дополнительного возмущения в результаты не вносит. Поэтому дисперсия среди испытуемых состоит из дисперсий реально существующего рассеяния баллов тестируемых и случайной ошибки измерений. Тогда коэффициент надежности находится по формуле [7]:

�=�исп−�ост�исп.

Коэффициенты надежности и оценки соответствующих дисперсий, вычисленные для контрольноизмерительных материалов по русскому языку, приведены в таблице. Анализируя таблицу, можно сделать вывод о том, что коэффициент надежности заданий теста базового уровня сложностидостаточно высок и постоянен, уровень дисперсии, обусловленной влиянием случайных факторов,со временем уменьшается.Для данных ЕГЭ по русскому языку (блок заданий, оцениваемых по дихотомической шкале) имеем:

Оценки дисперсий и коэффициенты надежности контрольноизмерительных материалов Единого государственного экзамена по русскому языку

20052006200720082009�исп0.9561,0691.0611,0681,059�ост0.1870,1760.1720,1700,175коэффициент надежности r0.8030,8350.8380,840,846ошибка измерений �0.4330,4190.4140,4130,418

20102011201220132014�исп1.0490,9710,9340.9470,911�ост0.1600,1660,1600.1570,152коэффициент надежности r0.8470,8290,8280.8340.830ошибка измерений �0.4000,4080,4000.3960,389

Вообще, количество открытых проблем в теории педагогического тестирования в настоящее время, повидимому, гораздо больше, чем тех, которые уже получили в той или иной мере удовлетворительное решение. Тем не менее использование тестирования в реальной педагогической деятельности и сейчас позволяет заметно повысить детальность и точность оценивания результатов этой деятельности со всеми вытекающими отсюда последствиямии потому привлекает все большее количество сторонников. В основе недооценки тестирования лежит, как правило, только недостаточная информированность. Последний фактор имеет, к сожалению, реальную почву, поскольку почти вся содержательная литература по тестированию опубликована в основномна иностранных языках.~ 6~ART 14341бДК371.261:519.254Ссылки на источники1.Нейман Ю.А., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. –М., 2000.–168 с. 2.Звонников В.И., Челышкова М.Б. Современные средства оценивания результатов обучения. –М.: Изд.центр «Академия», 2007.–224 с.3.Болотов В.А. Единый государственный экзамен: на пути к созданию системы независимой оценки качества образования // Единый государственный экзамен: сб. ст. –М., 2004.4.Болотов В.А. Основные подходы к созданию общероссийской системы оценки качества образования // Единый государственный экзамен: сб. ст. –М., 2005.5.Нейман Ю.А., Хлебников В.А.Указ. соч.6.Анастази А., Урбина С. Психологическое тестирование. –СПб.: Питер, 2007. –688 с.7.Нейман Ю.А., Хлебников В.А.Указ. соч.

Andrey Burov,Master student, Smolensk StateUniversity, Smolenskburov_andrei@inbox.ruApplication of data statistical processing methods for validity estimation of tests for the Universal state examAbstract.The paper is dedicated to the study of data statistical processing methods (oneway ANOVA test) for validity estimation of tests for the Universal state exam. The question is topicalbothfor societyand education. For validity estimation of testing itemswe apply some methods of statistical processing of data and propose themechanism for data processing and control of testing items at the Universal state exam.Key words:Universal state exam, estimation, reliability, test, statistical processing of data.References1.Nejman,Ju. A.&Hlebnikov,V. A. (2000) Vvedenie v teoriju modelirovanija i parametrizacii pedagogicheskih testov, Moscow,168 p. (in Russian).2.Zvonnikov,V. I.&Chelyshkova,M. B. (2007) Sovremennye sredstva ocenivanija rezul'tatov obuchenija, Izd. centr “Akademija”, Moscow, 224 p.(in Russian).3.Bolotov,V. A. (2004) “Edinyj gosudarstvennyj jekzamen: na puti k sozdaniju sistemy nezavisimoj ocenki kachestva obrazovanija”, Edinyj gosudarstvennyj jekzamen: sb. st., Moscow(in Russian).4.Bolotov,V. A. (2005) “Osnovnye podhody k sozdaniju obshherossijskoj sistemyocenki kachestva obrazovanija”, Edinyj gosudarstvennyj jekzamen: sb. st.,Moscow(in Russian).5.Nejman,Ju. A.&Hlebnikov,V. A. (2000)Op. cit.6.Anastazi,A.&Urbina,S. (2007) Psihologicheskoe testirovanie, Piter, St. Peterburg, 688 p.(in Russian).7.Nejman,Ju. A.&Hlebnikov,V. A. (2000) Op. cit.

Рекомендовано к публикации:

Горевым П. М., кандидатом педагогических наук, главным редактором журнала «Концепт»Утёмовым В. В., кандидатом педагогических наук