Full text

Введение

 

Быстро набирающая темп четвертая «образовательная» революция требует пересмотра традиционного образовательного императива, который подразумевает переосмысление таких понятий, как «эффективное обучение», «предметное изучение», а также выход за рамки образовательной модели передачи знаний от учителя к ученику. Согласно результатам исследования Российской академии образования, следует отметить, что увеличивающуюся категорию учащихся составляют «особые» дети, в том числе одаренные, дети с особо развитым мышлением, лидеры, «золотые руки», художественно одаренные дети и дети, обладающие двигательным талантом [1]. Оба этих фактора инициируют развитие образовательной системы, актуализируя потребность в технологиях, способных делать обоснованные выводы о необходимости изменения подходов или предпринимаемых действий в образовании. Одной из таких технологий может стать технология оперирования большими данными (Big Data) [2].

Оперирование большими данными (Big Data) в образовании – это технология аналитики образовательной системы, включающей измерение, сбор, анализ и представление структурированных и неструктурированных данных огромных объемов об обучающихся и образовательной среде с целью понимания особенностей функционирования и развития образовательной системы.

Исторически система образования накопила значительный объем данных. Вопрос о том, как доступно начать обрабатывать большой объем данных, снимется благодаря появлению и расширенному использованию информационно-коммуникационных технологий.

В сфере образования выделяются пять основных типов данных:

-     персональные данные;

-     данные о взаимодействии студентов с электронными системами обучения (электронными учебниками, онлайн-курсами);

-     данные об эффективности учебных материалов;

-     административные (общесистемные) данные;

-     прогнозные данные.

На основе анализа множества подходов и моделей в своих выступлениях И. Д. Фрумин выделяет три крупных направления Big Data [3]:

1) связанные с мышлением (прежде всего критическим и креативным мышлением);

2) связанные со взаимодействием с другими (коммуникация и коллаборация);

3) связанные со взаимодействием с самим собой (саморегулирование, рефлексивность и самоорганизация).

Но результаты аналитики в данных направлениях наиболее ценны, когда выявляют аномальные и пограничные состояния образовательной системы. Меры регулирования как реакция на отрицательные состояния наиболее полезны для работы по развитию образовательной системы.

 

Обзор отечественной и зарубежной литературы

 

Исследования в отечественной и зарубежной литературе по вопросу использования Big Data в системе образования достаточно разрозненны.

Сегодня Big Data становится языком общения для образовательных организаций, которые стремятся улучшить свои стратегические и тактические технологии принятия решений [4]. Стоит обратить внимание на контент-анализ названий более трех тысяч научных статей по отрасли «Компьютеры и образование», проведенный О. Заваки-Рихтером и С. Латчемом. Анализ позволяет сделать вывод, что в течение последних 40 лет информационные поводы можно сгруппировать по четырем хронологическим этапам: развитие и рост компьютерного обучения (1976–1986 годы); мультимедийное обучение (1987–1996 годы); сетевые технологии для организации совместного обучения (1997–2006 годы); онлайн-обучение (2007–2016 годы). Таким образом, сегодня можно отметить большое внимание научного сообщества к вопросам онлайн-обучения, способам повышения его эффективности, которые не могут быть найдены без разностороннего анализа Big Data, собираемых по результатам обучения [5].

С. Виейра, П. Парсонс, В. Берд описывают результаты анализа литературы по интеллектуальному анализу данных в образовании [6]. Результаты исследования показывают, что уделяется минимальное внимание инструментам визуальной обучающей аналитики на уровне одного класса/группы; редким параметром анализа данных является демография и предыдущие учебные успехи. Н. Бунийамин, У. Б. Мет, П. М. Аршад провели анализ наиболее часто используемых методов классификации в области интеллектуального анализа образовательных данных для прогнозирования академических успехов учащихся [7].

Группа ученых под руководством Дж. Окумпау при анализе Big Data делает вывод, что выявленные закономерности, взятые в основном из одной демографической группы, не обобщают результаты, взятой преимущественно из других демографических групп, хотя эти группы населения могут считаться частью одной и той же национальной или региональной культуры [8]. В частности, закономерности, выявленные на городских учениках, не схожи с закономерностями, построенными на сельских учениках.

Другим аспектом исследования Big Data является инфраструктура собираемых данных. Так, Ф. А. Де Алмейда Нето и А. Кастро, учитывая онлайн-платформы, в которых размещаются образовательные мероприятия, разработали модель, где данные, созданные из взаимодействия между пользователями и между пользователями и самой платформой, выбираются, собираются и хранятся в локальных базах данных [9]. Затем локальные базы собираются и группируются в глобальную базу.

Встречаются сравнительные исследования инструментов прогнозирования учебных успехов. Так, Д. Буэненьо-Фернандес и С. Луан-Мора приводят анализ трех инструментов с открытым исходным кодом (RapidMiner, Knime и Weka), используемых в интеллектуальном образовании [10]. X. Ю и С. Ву говорят о группах целевых пользователей и участников, участвующих в создании Big Data в образовании, а также дифференцируют для них цели использования собираемых данных [11].

М. Фарохмер, С. О. Фатеми описывают требование к Big Data по формуле 3V: большой объем, скорость обработки и разнообразие параметров [12].

Отдельными аспектами данного направления исследования являются вопросы, связанные с достижением образовательных результатов. EDM (Educational Data Mining) описывается как средство повышения эффективности электронного обучения. Так, М. Насири, Б. Минаи, Ф. Вафаи рассматривается модель для прогнозирования академической успешности за счет мониторинга и поддержки студентов первого курса [13]. В трудах О. Москозо-Цеа, М. Фицкайно, С. Луйáн-Мора проведена оценка методов Big Data по двум показателям учебной эффективности: выбывание учащихся и выпуск учащихся [14].

И. Юго, Б. Ковачич и В. Славуй описывают опыт создания адаптивных систем электронного обучения, в которых интегрируются инструменты интеллектуального анализа данных для повышения адаптивности системы обучения [15]. Р. Асиф, анализируя Big Data, установил, что концентрация педагогических усилий на аналитике и учете результатов обучения по небольшому количеству профильных учебных дисциплин может способствовать эффективности обучения [16]. В трудах К. Кхаре, Х. Лам, А. Кхаре рассматривается аналитика успешности обучающихся при использовании массовых онлайн-курсов, что позволяет ученым прогнозировать вероятность отказа от обучения по данному курсу [17].

Другими вопросами в исследованиях ученых становятся аспекты Big Data, связанные с взаимодействием субъектов обучения. Г. Мобашер, А. Шавиш, О. Ибрахим описывают структуру большой базы данных в образовании, которая среди прочего содержит демографические данные учащихся, психологические характеристики студентов, учителей и родителей [18].  В работах В. Тем описан подход к организации совместного обучения, позволяющий выявлять образовательные закономерности, основанные на разнообразном наборе образовательных онлайн-ресурсов [19]. С. Двиведи, В. С. К. Рошни на основе аналитики описывают технологию подбора обучающимся наиболее приемлемых элективных курсов [20].

Еще одним важным направлением исследований являются вопросы, связанные с внутренним взаимодействием. Прогнозирование академической успеваемости – одна из ключевых тем исследований в области Big Data в образовании. Б. Го делает вывод, что оценка успеваемости является сложной задачей, поскольку успеваемость учащихся зависит от различных факторов. Взаимосвязь между параметрами успеваемости и факторами для прогнозирования производительности участвует в сложных нелинейных связях, поэтому направления сбора данных должны быть всеохватывающими [21]. Так, для охвата направлений О. Москосо-Зеа в своих трудах описывает структуру управления большими данными. Управление дает возможность обработки информации для анализа ключевых показателей учебной эффективности [22]. В. Ксинг в свою очередь приводит модель прогнозирования успеваемости учащихся, в которой отражается шесть параметров: темы, правила, инструменты, труд, сообщества и объект [23]. Еще в 2005 году А. Мерсерон, К. Ясеф описали TADA-Ed как инструмент для расширенного анализа данных в образовании. Эта платформа предназначена для учителей и позволяет визуализировать результаты обучения в режиме онлайн с целью изучения педагогически значимых закономерностей [24].

Таким образом, в настоящее время развитие технологии Big Data в образовании описывается через множество подходов и моделей, что мешает систематическому накоплению данных о Big Data для развития системы образования.

 

Материалы и методы исследования

 

Методологической базой нашего исследования становится формализация технологии оперирования большими данными (Big Data), направленной на развитие образовательных систем через выявление сформированных закономерностей в системе образования.

Приведем отличительные признаки Big Data в образовании от других выборок данных. Характеристики Big Data могут быть описаны по правилу «5V»:

‒     1V (volume): объем физических данных значительный; например, более 95% данных о родителях учащихся конкретной школы содержатся в единой базе.

‒     2V (velocity): скорость сбора данных и скорость обработки результатов сравнительно высокая; например, данные об оценках за урок вносятся не позднее окончания дня их получения; учитель после внесения данных почти сразу может познакомиться с аналитикой успеваемости.

‒     3V (variety): вариативность алгоритмов обработки различных типов собранных результатов; например, результаты выполнения домашних заданий по ученикам школы могут быть представлены в разрезе параллели, пола, возраста, группы здоровья, полноты семьи и т. д.

‒     4V (veracity): высокая достоверность собранных данных, позволяющая формулировать репрезентативные результаты; например, после проведения национального исследования качества образования (НИКО) по математике в 2015 году можно сделать вывод, что пятиклассники имеют значительно выше оценки, чем семиклассники (рис. 1).

 

 

 

Рис. 1. Отметки НИКО по математике в 2015 году

 

‒     5V (value): ценность накапливаемых данных должна быть заключена в возможности на их основе формулировать полезные разноаспектные зависимости системы образования; например, можно заметить, что при увеличении номера класса количество отличников и хорошистов по математике уменьшается, вместе с тем наблюдается равное изменение доли оценок при изменении класса, что может говорить о поэтапном усложнении школьного материала; с другой стороны, количество троечников в девятом классе достигает половины, что может говорить о наличии системных проблем с качеством методики преподавания математики в 9-м классе, в частности проблемы завышения уровня требований к математической подготовке обучающихся (рис. 2).

 

 

 

Рис. 2. Распределение школьных отметок по математике в 2015 году (по результатам НИКО)

Для структуризации процессов управления Big Data в образовании может быть выделено пять взаимосвязанных групп процессов (рис. 3):

1)        целеполагание: определение цели и задач исследования;

2)        планирование: подбор источников информации, процедур получения данных, алгоритмов обработки информации;

3)        сбор данных: организация сбора данных в единую базу;

4)        анализ показателей: анализ полученных данных, определение способов представления результатов;

5)        корректировка: разработка практических мер регулирования;

6)       

Сбор данных

Анализ показателей

Корректировка

Подбор источников информации

Целеполагание

Завершение


завершение: фиксация закономерности.

 

Рис. 3. Схема процессов управления Big Data в образовании

 

Приведем обобщённый пример учета групп процессов управления Big Data в образовании на примере проведенного в 2016 году исследования.

1. Целеполагание

Цель – экспертно-аналитическая оценка кадрового потенциала образовательных организаций Кировской области [25].

Задачи:

-     выявить возрастные характеристики педагогов;

-     определить наличие объективных вакансий или перенасыщенности рынка труда педагогами;

-     дать оценку квалификации действующих педагогов.

2. Планирование

Источники информации:

-     годовая форма федерального статистического наблюдения № ОО-1 «Сведения об организации, осуществляющей подготовку по образовательным программам начального общего, основного общего, среднего общего образования»;

-     анкетная форма для добора недостающих сведений от образовательных организаций.

Процедура получения данных:

-     анализ информации, содержащейся в региональной базе данных, собранной по форме федерального статистического наблюдения № ОО-1;

-     сбор данных от образовательных организаций по анкетной форме через региональное министерство образования.

Алгоритм обработки данных: для анализа существующих кадровых проблем в разрезе преподаваемого предмета анкета участника исследования содержала детализированную информацию об учителях-предметниках. По результатам исследования возрастной структуры региональных педагогических сообществ, проведенного Мининским университетом, построим распределение педагогов региона по возрасту в сравнении с нормальным распределением [26]. Нормальное распределение способствует стабильному функционированию системы образования при соблюдении баланса образовательной организации между возможностью развития и сохранением традиции.

3. Сбор данных

Этап предусматривал сбор данных, представляемых образовательными организациями на портале форм, и экспорт данных, содержащихся в региональной системе данных, собранных по форме № ОО-1.

4. Анализ показателей

Сравнение распределения педагогов региона по возрасту в сравнении с нормальным распределением в разрезе преподаваемого предмета. Построение «аномальных» графиков распределения.

5.  Корректировка

На этапе сбора данных – разработка мер регулирования по сбору недостающих данных от образовательных организаций для достижения репрезентативности выборки. После принятия итогового отчета – трансляция негативных тенденций органам региональной и муниципальной власти, утверждение и реализация плана мероприятий по подготовке молодых кадров для системы образования Кировской области на 2017–2020 годы.

6. Завершение

Фиксация в итоговом отчете выявленных проблем.

Отметим, что в зарубежной литературе встречается термин “Educational Data Mining” (сокращенно EDM), что переводится как «анализ данных в образовании» [27, 28], который может быть построен и на основе Big Data. На наш взгляд, EDM является более широким направлением образовательной квалитологии, чем Big Data. Так, например, модель обучающегося на основе Big Data может быть построена через сбор данных по следующей системе из девяти направлений, позволяющих обрабатывать их как Big Data.

1. Используемый образовательный контент

Показатели взаимодействия с образовательным контентом во время учебы: навигация, ответы на задания, типы ошибок, временные характеристики выполнения заданий и другое.

2. Межличностные коммуникации

Параметры коммуникации ученика с другими субъектами образования: одноклассники, учителя, родители и другие.

3. Учебная стратегия

Анализ результатов целостности обзора проблемных ситуаций, способов прогнозирования и планирования их разрешения.

4. Предыстория

Показатели прошлых результатов деятельности ученика, раскрывающие усвоение знаний, умений и научных идей.

5. Медиаобразование

Показатели используемого контента из средств массовой коммуникации – телевидения, прессы, радио, кинематографа, видео, Интернета, в том числе данные социальных сетей.

6. Принятие решений 

Показатели целеустремленности ученика, в том числе подбор оптимальных способов решений проблемы и оценка последствий выбранных решений.

7. Социокультурная среда

Совокупность показателей социального пространства ученика, таких как общественный строй, демографическая информация, система производственных отношений, материальные условия жизни, характер протекания производственных и социальных процессов, семья, родственники, друзья.

8. Ближайшее состояние

Показатели ближайшего временного горизонта, характеризующие действия ученика, ситуационные и случайные факторы, эмоциональное состояние, качество сна, показатели питания.

9. Деструктивное поведение

Показатели, характеризующие грубые, очевидные и систематические нарушения базовых правил поведения как в классе, так и в ближайшем окружении.

Приведем примеры.

По направлению 7 (рис. 4)

 

 

Рис. 4. Кластеризация данных результатов ЕГЭ
 из источников Федерального института оценки качества образования

 

Заметим, что чем выше процент обучающихся в школе, у которых родители с высшим образованием, тем выше балл ЕГЭ, причем данная тенденция становится заметнее в школах из сельской местности [29].

По направлению 8 (см. рис. 5)

Заметим, что данные МКОУ Аметеркмахинская СОШ достаточно сильно отклоняются от средних результатов по субъекту. При этом доверительный интервал среднего значения результатов выполнения всероссийской проверочной работы по русскому языку не приближается к среднему по субъекту, что может быть обосновано влиянием ситуационных или случайных факторов.

 

 

Рис. 5. Оценка завышения результатов ВПР (русский язык, 4-й класс)

 

По направлению 4 (рис. 6)

 

 

Рис. 6. Наиболее вероятный коридор значений результатов сдачи ОГЭ и ЕГЭ

 

Заметим, что данные о выполнении ОГЭ в 9-м классе и ЕГЭ в 11-м классе по субъекту РФ коррелируют, располагаясь в доверительном интервале. Но данные по школам Республики Ингушетия отклоняются от выявленной закономерности.

По направлению 6 (см. рис. 7)

 

 

Рис. 7. Распределение участников по альтернативам практического задания НИКО в области ИТ

Стоит отметить, что после перехода из 8-го в 9-й класс ученики преимущественно меняют решение с неопределённого на «создание презентации».

Обобщая группы процессов управления и источники по направлениям Big Data, можно сформулировать ряд свойств собираемой базы данных, позволяющих повышать эффективность использования Big Data в образовании.

1. Частичная независимость

Присутствует локальное управление данными на каждом сегменте базы данных. В то же время каждый сегмент является компонентом всей базы данных, но может рассматриваться как отдельная малая база данных со своим набор процедур и правил.

2. Бесперебойность

Возможность получать данные с любого сегмента базы данных, даже если на этом сегменте данные уже используются для других процессов.

3. Прозрачность доступа

При наличии прав на доступ к данным аналитик не должен учитывать параметры места физического размещения информации. Доставка данных осуществляется автоматически встроенными инструментами.

4. Мультиплицирование

Мультиплицирование данных – это процесс переноса данных из одной базы данных в другую базу данных. Возможность мультиплицирования должна позволять данным разных систем интегрироваться между собой.

5. Распределённые запросы

Собранные данные должны иметь возможность извлекаться через распределённые запросы, то есть через параллельные запросы к нескольким сегментам базы данных.

6. Свободные инструменты

В качестве средств обработки данных могут выступать любые программные и аппаратные решения.

Таким образом, Big Data в образовании как технология характеризуется отличительными признаками, структуризацией процессов управления, системой направлений сбора данных, а также свойствами собираемой базы данных, позволяющих повышать эффективность использования Big Data в образовании.

 

Результаты исследования

 

Рассмотренная технология оперирования большими данными, направленная на выявление закономерностей в системе образования, прошла апробацию при совместном исследовании Вятского государственного университета и Министерства образования Кировской области в рамках комплексного анализа кадрового потенциала образовательных организаций Кировской области. По результатам анализа констатировался ряд ключевых позиций в части обеспечения системы образования Кировской области квалифицированными педагогическими кадрами: имеется необходимость повышения профессиональной квалификации руководящих кадров в общем образовании; выявлена низкая динамика обновления педагогических коллективов молодыми специалистами и устаревание большинства педагогических сообществ учителей-предметников; наиболее критическими по возрастному составу группами педагогов являются учителя физики, химии, географии, биологии, изобразительного искусства и черчения, русского языка и литературы.

В целом результаты исследования дали объективную обобщенную оценку педагогических кадров общеобразовательных организаций Кировской области, позволили запустить модернизацию системы непрерывного педагогического образования в Кировской области и вошли в комплексную программу развития региона относительно сферы образования [30].

 

Заключение

 

Таким образом, значимым результатом исследования является описание технологии Big Data как средства развития образовательных систем. В статье выявлены отличительные признаки технологии Big Data, структурированы процессы управления системой, направления сбора данных в образовании и определены свойства собираемой базы Big Data в образовании. Теоретическая значимость статьи обусловлена вкладом в разработку научных представлений об использовании Big Data в целях повышения эффективности развития образовательных систем. Практическое использование результатов исследования позволяет внедрить Big Data в систему управления образованием посредством выявления и учета закономерностей системы образования.