Ранее мы уже отмечали, что новые информационные технологии (далее – НИТ) и математические методы все чаще применяются в гуманитарных науках [1]. В связи с этим на кафедре информационных образовательных технологий продолжается подготовка магистров к деятельности, связанной с использованием НИТ в области гуманитарного знания. Магистрантами кафедры создаются образовательные ресурсы в области применения методов математической статистики для исследований в лингвистике и создания структурных информационных моделей с использованием современных компьютерных технологий и программных средств.
Математическая лингвистика является прямым доказательством симбиоза математики и филологии. Соединение лингвистики и математических методов способствовало развитию лингвистики в направлении точности и объективности. Математическое моделирование позволяет формализовать строение естественных языков.
Сегодня компьютерные технологии обработки данных и анализа статистической информации позволяют использовать математические доказательства исследователям, не имеющим математического образования.
Основные принципы выбора программного обеспечения для компьютерной обработки лингвистических данных – это его простота и доступность. Большинство прикладных программ являются дорогостоящими и недоступными обычному студенту. Удобными для обработки лингвистической информации оказались текстовые и статистические функции, а также пакет анализа MS Excel.
Данная среда обладает огромным количеством свойств, необходимых для обработки как числовой, так и текстовой информации. Ее самое главное преимущество – возможность обрабатывать лингвистическую информацию с помощью встроенных статистических функций. Пример из рабочей тетради, разработанной магистрантами кафедры ИОТ, предполагает несколько вариантов реализации его математической модели. В задаче исследуется выборка из художественного текста, состоящая из 30 фрагментов по 100 слов в каждом, в которой определяется количество глагольных форм. Данные выборки обрабатываются в среде табличного процессора Excel с целью овладения навыками начальной обработки лингвистических данных путем проведения первого этапа исследования: получения числовых характеристик – описательных статистик (см. рис. 1) и закона распределения глагольных форм с помощью статистических функций табличного процессора Excel (см. рис. 2 и 3). Этот вариант решения практической задачи значительно проще использования математических формул для определения статистик, описывающих параметры генеральной совокупности.
Полученное при статистическом моделировании распределение характеристик дает исследователю чрезвычайно ценную информацию: такое распределение позволяет оценить не только среднее значение изучаемой величины, но и разброс этих значений, вероятности появления тех или иных значений при конкретном испытании и их зависимость от различных факторов [2].
Рис. 1. Описательные статистики выборки глагольных форм
Рис. 2. Функция ЧАСТОТА
Рис. 3. Закон распределения глагольных форм художественного текста
Анализ диаграммы относительных частот позволяет выдвинуть гипотезу Н0 о том, что распределение глагольных форм не отличается от нормального. Для проверки этой гипотезы достаточно найти значения асимметрии с помощью встроенной функции СКОС() и статистики эксцесс при помощи встроенной функции ЭКСЦЕСС(). Полученные значения подтверждают гипотезу Н0. Значит, глагольные формы имеют нормальное распределение, то есть Гауссов закон распределения, что, в свою очередь, позволит для дальнейшего исследования использовать параметрические критерии (корреляционный, факторный, регрессионный анализ).
Еще более простой способ получения значений описательных статистик дает использование Пакета анализа: Данные → Анализ данных → Описательная статистика. Вывод значений представлен на рис. 4.
Рис. 4. Описательные статистики для выборки глагольных форм
В разработанной магистрантами рабочей тетради приводятся примеры использования возможностей MS Excel для сравнения двух разных текстов, определения различий в стилях текстов, расчета конкретных характеристик, сравнения огромного количества разных незнакомых и известных текстов. Показано, как можно находить конкретные части речи, выявлять их признаки, свойства, возможности; обнаруживать ошибки и неточности.
На примере структурного моделирования можно донести до обучающихся понятие структуры системы, представляя реальный объект как систему со всеми связями между ее элементами, которые, в свою очередь, могут рассматриваться как подсистемы системы. Умение создавать реляционные базы данных позволит будущим лингвистам совершенствовать технологию перевода и толкования слов, а понимание структуры запросов приведет к развитию новых технологий релевантного поиска текстовой информации. Информационные технологии, используемые при решении подобных практических задач, также опираются на знания математики – математической логики и системологии. Разработанное учебно-методическое пособие для студентов-гуманитариев по созданию структурной модели в среде СУБД позволило получить завершенные проекты студентов-филологов – практико-ориентированные базы данных – их для активного использования в научно-исследовательских студенческих работах. На рис. 5 представлена одна из форм БД «Словарь терминов по информатике», которая является примером, иллюстрирующим этапы создания баз данных и технологию проектирования баз данных.
Рис. 5. Форма на основе запроса: Толкование – Перевод
Преподавание математики и информатики гуманитариям предусматривает владение педагогами-математиками не только математическими знаниями, но и представлениями о языке и его структуре, об историко-философских аспектах развития различных, в том числе, гуманитарных наук [3].