Повышение адекватности и достоверности модели обработки ненормированных массивов данных в исследованиях образовательных систем методом планирования эксперимента

Международная публикация

Предыдущая статья Следующая статья

Выпуск: № 07 (июль)

ART 14178

УДК 378.147 : 658.512.2

Авторы:

В. П. Алексеев,

В. В. Степаньян

Библиографическое описание статьи для цитирования:

Алексеев В. П., Степаньян В. В. Повышение адекватности и достоверности модели обработки ненормированных массивов данных в исследованиях образовательных систем методом планирования эксперимента // Научно-методический электронный журнал «Концепт». – 2014. – № 7 (июль). – С. 26–30. – URL: http://e-koncept.ru/2014/14178.htm.

Аннотация. Статья посвящена вопросам повышения точности статистических математических моделей, применяемых для исследования эффективности образовательного процесса. Авторы предлагают изменить типовые подходы к обработке информационных ненормированных по величине массивов данных с использованием метода планирования эксперимента. При этом учитываются особенности информационных массивов, характерных для педагогических процессов. Используя эти предложения, можно повысить адекватность и достоверность модели обработки, а следовательно, точность обработки.

Ключевые слова: образовательная система, статистическая математическая модель, уравнение регрессии, адекватность и достоверность, нормальный закон распределения, медиана, мода

Текст статьи

Алексеев Валерий Павлович, кандидат технических наук, доцентНОУ ВПО «Международный инновационный университет», г. Сочиalekseev.valeri@yandex.ru

Степаньян Владимир Владимирович,студент экономикотехнологического факультета НОУ ВПО «Международный инновационный университет», г. Сочиstep.wo@mail.ru

Повышение адекватности и достоверности модели обработки ненормированных массивов данных в исследованиях образовательных систем методом планирования эксперимента

Аннотация. Статья посвящена вопросам повышения точности статистических математических моделей, применяемых для исследования эффективности образовательного процесса. Авторы предлагают изменить типовые подходы к обработке информационных ненормированных по величине массивов данных с использованием метода планирования эксперимента. При этом учитываются особенности информационных массивов, характерных для педагогических процессов. Используя эти предложения, можно повысить адекватность и достоверность модели обработки, аследовательно, точность обработки.Ключевые слова:образовательная система, статистическая математическая модель, уравнение регрессии, адекватность и достоверность, нормальный закон распределения, медиана, мода.Раздел: 01 педагогика; история педагогики и образования; теория и методика обучения и воспитания по предметным областям.

ВведениеВ [1] проведены исследования влияния индивидуальных личностных факторов на эффективность обучения студентов по дисциплине «Информатика». Исследования проводились с использованием оригинального метода обработки ненормируемых по величине массивов статистических данных на основе теории планирования эксперимента. Особенностью таких массивов является их относительная субъективность, обусловленная наличием вероятности правильно угаданного ответа при тестировании. Преодоление субъективности и составляет проблематику настоящей статьи. Далее предлагаются возможные пути повышения адекватности и достоверности обработки массивов, полученных в ходе обработки результатов тестирования.Нами апробирована следующая методика исследования образовательных систем. Пусть мы имеем образовательную систему с главным выходным параметром Y(x, где x‬факторы, влияющие на величину Y(x. Примерами главного выходного параметра могут быть успеваемость, качество знаний, количество дипломов с «отличием» и т.п. Факторамимогут быть средний балл ЕГЭ, посещаемость, средние затраты на одного обучаемого, стоимость материальной базы и многие другие, реально влияющие на образовательный процесс. Как факторы, так и выходные параметры могут быть взяты из статистических данных,илиопределены методом тестирования, экспертных оценок,или измерены в ходе исследований. Приэтомкак выходные параметры, так и факторы будут иметь закон распределения и его статистические величины, такие как среднее квадратичное отклонение, математическое ожидание, мода, медиана, диапазон разброса и другие. Результат исследования однозначно представляется в виде адекватного уравнения регрессии, которое связывает выходной параметр Ycфакторами xcпомощью коэффициентов регрессии [2], рассчитанных компьютеромв соответствии с теорией планирования эксперимента ТПЭ [3]. Однакопри исследованиях образовательных систем невозможно задавать значения факторов на заранее назначенных уровнях значений, называемых нормированными, так как эти факторы отражают субъективные стороны обучающихся и индивидуальны. В [4] нами предложена теория и методика обработки результатов вычислительного эксперимента с использованием ненормированных значений факторов. При этом основные правила обработки информационных массивов, характерных для ТПЭ, остаются прежними, в частностиподчинение нормальному закону распределения массива значений выходного параметра. Массивы значений факторов на соответствие нормальному закону не проверяются. В этом случае оказалось, что при проверке на адекватностьуравнения регрессии очень часто расчётное значение Fкритерия Фишера близко к табличному, т.е. условие адекватности находится на пределе допустимого или адекватность не обеспечивается. Суть предложенийВ нашем случае используется ненормированный массив экспериментальных данных ‬массив, в котором вектор столбец представляет собой неограниченный поток данных, полученных в ходе тестирования. В таком столбце, не исключены грубые ошибки, как и в векторестолбце выходного параметра, так как зачастую такие данные снимаются автоматизированными системами, не имеющими возможность исключать такие ошибки, а обучаемые могут вводить заведомо некорректные или непроверенные данные.Нами предложено обрабатывать исходный массив ненормированных данных правилом три сигма для каждого векторстолбца, включая выходной параметр. Линдебергом и Леви было доказано, что если независимые случайные величины ξ1, ξ2, … имеют все одно и то же нормальное распределение вероятностей и если каждое ξnимеет среднее значение m1и стандартное отклонение σ1, то сумма ξ= =ξ1…ξnасимптотически нормальна [5]. В данной теореме предполагается, что каждая из случайных величин подчиняется нормальному закону распределения. В нашем случае конечная линейная математическая модель, уравнение регрессии и есть не что иное, как сумма величин распределенных асимптотически нормально, т. е. каждая случайная величина распределена асимптотически нормально. Практика показала, что такие случаи встречаются нередко. Так, например, в обработанном нами ранее массиве данных о результатах исследования влияния индивидуальных личностных факторов студентов на результативность обучения дисциплине «Информатика» [6] каждый фактор и выходной параметр представляли собой случайные величины, распределенные асимптотически нормально.

При распределении асимптотически нормально случайных величин факторовтакже асимптотически нормально распределена и случайная величина выходного параметра. Таким образом, при обработке результатов если как можно ближе подвести распределение величин факторов к нормальному закону распределения, то распределение величины выходного параметра будет больше соответствовать нормальному закону распределения. Для этого необходимо обработать каждый столбец по правилу три сигмаи тем самым исключить более грубыеошибки с большей вероятностью. На практике это означает, что при исследованиях образовательных систем необходимо набирать как можно большее количество значений факторов, чтобы выбрать из полученного информационного массива реплику значений каждого фактора, наиболее соответствующую нормальному закону распределения. В этом случае повышается вероятность подчинения этому закону векторастолбца выходного параметра, значит, и адекватность конечного уравнения регрессии.Обработав два полученных массива с помощью программы обработки массивов ненормированных данных методом планирования эксперимента [7], мы получили два уравнения регрессии:Y1= 3,9 + 0,13×q1+ 0,55× q2+ 0,25× q3, (1)Y2= 3,9 + 0,14× q1+0,54× q2+ 0,26× q3, (2)где Y1‬уравнение регрессии, полученноепосле обработки массива данных по правилу три сигма только по выходному параметру;Y2‬уравнение регрессии, полученное после обработки массива данных по правилу три сигма по всем столбцам векторам.Из уравнений 1 и 2 видно, что качественная оценка влияния факторов на выходной параметр не изменилась, а количественная изменилась существенно.При этомлинейная модель второго уравнения регрессии более адекватна:Fрасч 1 = 2,9,(3)Fрасч 2 = 1,7, (4)где Fрасч 1 ‬расчётное значение критерия Фишера для Y1;

Fрасч 2‬расчётное значение критерия Фишера для Y2.При этом максимальная относительная погрешность первого уравнения составила 14,7%, а второго уравнения ‬6,5%.Таким образом, показано, что случайная величина выходного параметра распределена асимптотически нормально и тогда, когда случайные величины факторов также распределены асимптотически нормально. Кроме того, предварительная обработка массива данных по правилу три сигма не только выходного параметра, но и всех факторов дает нам более адекватную модель, что позволяет повысить точность при оптимизации системы. При компьютерном моделировании обработка больших массивов численных значений факторов не представляет больших затруднений с точки зрения временных и материальных затрат.

При обработкебольших массивов возникает ещё одна проблема. В практике статистической обработки данных значительное внимание уделяется определению при заданной вероятности попаданию значения полученных величин в интервал α xβ. Это необходимо для исключения из рядаизмерений грубых ошибок с заданной вероятностью. Для такого исключения существует известное правило трех сигм, в котором говорится, что с вероятностью, близкой к единице 0,993, случайная величина, подчиняющаяся нормальному закону распределения, не выходит за пределы интервала [mx‬3σ, mx+ 3σ] [8].

В нашем случаепри обработке ненормированных массивов данныхметодом теории планирования экспериментаколичество тестовых значений величин может достигать десятков тысяч, вероятностное распределение такого массива для исследования другой образовательной системы изображено на рис.1.

Рис.1. Исходный массив данныхМатематическое ожидание в этом случае принимает вид стандартного среднего арифметического: .При использовании автоматических систем для снятия измеренийзачастую допускаются грубые ошибки ‬резкие выбросы за пределы нормального распределения рис. 1. Такие ошибки задают значительное смещение математического ожидания относительно центральной точки нормального распределения. Следовательно, обработка массива по правилу трех сигм неприменима для таких случаев.Для такого случая необходимо ввести другую величину, которая определяла бы центральную точку нормального распределения случайной величины, темсамым охарактеризовать расположение значений случайной величины в данном распределении с помощью некоторого типичного значения этой величины. Наиболее важными характеристиками такого рода являются математическое ожидание, мода и медиана. При широком диапазоне данных математическое ожиданиеприменять для нашего случая нецелесообразно. Мода ‬это точка максимума плотности вероятности f(x. Единственная мода существует только в случае, когда кривая плотности y= f(x имеет один максимум, т. е. распределение является унимодальным. В нашем случае кривая плотности имеет три максимума, т.е. мультимодальна. Следовательно, мода,также как и математическое ожидание,не может определить точно центральную точку асимптотически нормального распределения оптимизируемого параметра [9].

Медианой распределения μназывается такая точка x0, которая разделяет распределенную массу на две равные части, каждая из которых содержитмассу 1/2. Таким образом, медиана есть любой корень уравнения F(x  1/2. Медиана обладает следующим свойством: первый абсолютный момент принимает минимальное значение, когда сесть медиана. Момент имеетодинаковое значение при любом возможном значении медианы с[10]:

(5)

Следовательно, целесообразней будет взять за типичный параметр, характеризующий асимптотически нормальное распределение, медиану.

Действительно, если взять асимптотически нормально распределенную случайную величину с резким выбросом см. рис. 1, то медиана будет лежать наиболее близко к центральной точке нормального распределения рис. 2.

Рис.2. Графическое представление различия математического ожидания от медианыТаким образом, чем больше по количеству и по качеству грубых ошибок, тем дальше значение среднего арифметического будет лежать от истинного. После обработки по правилу трех сигм с учетом медианыданный массив стал соответствовать нормальному закону распределения на 78% рис. 3, а с учетом математического ожидания ‬на 71% рис. 4.

Рис.3. Распределение случайной величиныпосле обработки с учетом медианы

Рис.4. Распределение случайной величиныпосле обработки с учетом математического ожидания

Выводы1.Предложен способ обработки ненормированных статистических массивов данных, полученных в ходе автоматизированного тестирования при исследованиях образовательных систем с использованием теории планирования эксперимента, отличающийся повышенной точностью. 2.Предложенный способ отличается обработкой по правилу трёх сигмне только массива выходных параметров, но и массивов всех факторов, а также расчётом не среднего арифметического, а медианы массивов измеренных величин. 3.Применение данного способа позволяет повысить точность обработки в 2раза в зависимости от однородности, протяжённости массива данных и количества грубых ошибок и промахов.

Ссылки на источники1.Степаньян В.В. Исследование влияния индивидуальных личностных факторов студентов на результативность обучения дисциплине «Информатика» // Концепт. ‬2014.‬№ 03 март. ‬ART14070. ‬0,3 п. л.2.Там же.3.Адлер Ю. П., Маркова Е. В., Грановский Ю. В. Планирование эксперимента при поиске оптимальных условий. ‬М.: Наука,1976. ‬139 с. 4.Алексеев В. П., Кузнецов А. В. Алгоритм и программа обработки массивов непрерывных данных методом планирования эксперимента. // Вестник ТГПУ. ‬2005. ‬№ 51.5.КрамерГ.Математические методы статистики / под ред.акад.А. Н. Колмогорова. ‬М.: «Мир»,1975. ‬648 с.СтепаньянВ. В. Указ. соч.7.Тамже.8.КрамерГ. Указ. соч.9.Тамже.10.Тамже.

Valery Alexeev,Candidate of Engineering Sciences, Associate Professor, International Innovative University, Sochialekseev.valeri @ yandex.ruVladimir Stepanian,Student of economics and technology department, International Innovative University, Sochistep.wo @ mail.ruImprove of the adequacy and reliability of no standardized processing model datasets in studies of educational systems method of experiment planningAbstract.The article is devoted the questions of improvement of the accuracy of statistical mathematical models, used to investigate the effectiveness of the educational process. The authors suggest changing standard approaches to information processing large datasets, using the method of experiment planning. This takes into account features of data sets characteristic of pedagogical processes. Using these proposals one can improve the accuracy of the model and the value processing, and hence the accuracy of machining.Key words:educational system, statistical mathematical model, regression equation, the adequacy and accuracy, normal distribution, median, mode.References1.Stepan'jan,V.V. (2014 Issledovanie vlijanija individual'nyh lichnostnyh faktorov studentov na rezul'tativnost' obuchenija discipline ‘Inforatika’”,Koncept, № 03 art. ART 14070. 0,3 p. l.in Russiаn.2.Ibid.3.Adler, Ju.P., Markova, E.V. & Granovskij, Ju.V. (1976) Planirovanie jeksperimenta pri poiske optimal'nyh uslovij,Nauka,Moscow, 39 p. in Russiаn.4.Alekseev, V.P., Kuznecov, A.V. 2005 Algoritm i programma obrabotki massivov nepreryvnyh dannyh metodom planirovanija jeksperienta”,Vestnik TGPU, № 51in Russiаn.5.Kramer,G. & Kolmogorov, A.N. (ed.) (1975) Matematicheskie metody statistiki, Mir”,Moscow,648 p.(in Russiаn.6.Stepan'jan, V.V. (2014) Op. cit.7.Ibid.8.Kramer, G. & Kolmogorov, A.N. (ed.) (1975) Op. cit.9.Ibid.10.Ibid.

Рекомендовано к публикации:Горевым П.М., кандидатом педагогических наук, главным редактором журнала «Концепт»