Full text

Ранее мы уже отмечали, что новые информационные технологии (далее – НИТ) и математические методы все чаще применяются в гуманитарных науках [1]. В связи с этим на кафедре информационных образовательных технологий продолжается подготовка магистров к деятельности, связанной с использованием НИТ в области гуманитарного знания. Магистрантами кафедры создаются образовательные ресурсы в области применения методов математической статистики для исследований в лингвистике и создания структурных информационных моделей с использованием современных компьютерных технологий и программных средств.

Математическая лингвистика является прямым доказательством симбиоза математики и филологии. Соединение лингвистики и математических методов способствовало развитию лингвистики в направлении точности и объективности. Математическое моделирование позволяет формализовать строение естественных языков.

Сегодня компьютерные технологии обработки данных и анализа статистической информации позволяют использовать математические доказательства исследователям, не имеющим математического образования.

Основные принципы выбора программного обеспечения для компьютерной обработки лингвистических данных – это его простота и доступность. Большинство прикладных программ являются дорогостоящими и недоступными обычному студенту. Удобными для обработки лингвистической информации оказались текстовые и статистические функции, а также пакет анализа MS Excel.

Данная среда обладает огромным количеством свойств, необходимых для обработки как числовой, так и текстовой информации. Ее самое главное преимущество – возможность обрабатывать лингвистическую информацию с помощью встроенных статистических функций. Пример из рабочей тетради, разработанной магистрантами кафедры ИОТ, предполагает несколько вариантов реализации его математической модели. В задаче исследуется выборка из художественного текста, состоящая из 30 фрагментов по 100 слов в каждом, в которой определяется количество глагольных форм. Данные выборки обрабатываются в среде табличного процессора Excel с целью овладения навыками начальной обработки лингвистических данных путем проведения первого этапа исследования: получения числовых характеристик – описательных статистик (см. рис. 1) и закона распределения глагольных форм с помощью статистических функций табличного процессора Excel (см. рис. 2 и 3). Этот вариант решения практической задачи значительно проще использования математических формул для определения статистик, описывающих параметры генеральной совокупности.

Полученное при статистическом моделировании распределение характеристик дает исследователю чрезвычайно ценную информацию: такое распределение позволяет оценить не только среднее значение изучаемой величины, но и разброс этих значений, вероятности появления тех или иных значений при конкретном испытании и их зависимость от различных факторов [2].

 

 

 

Рис. 1. Описательные статистики выборки глагольных форм

 

 

 

Рис. 2. Функция ЧАСТОТА

 

 

 

Рис. 3. Закон распределения глагольных форм художественного текста

 

Анализ диаграммы относительных частот позволяет выдвинуть гипотезу Н0 о том, что распределение глагольных форм не отличается от нормального. Для проверки этой гипотезы достаточно найти значения асимметрии с помощью встроенной функции СКОС() и статистики эксцесс при помощи встроенной функции ЭКСЦЕСС(). Полученные значения подтверждают гипотезу Н0. Значит, глагольные формы имеют нормальное распределение, то есть Гауссов закон распределения, что, в свою очередь, позволит для дальнейшего исследования использовать параметрические критерии (корреляционный, факторный, регрессионный анализ).

Еще более простой способ получения значений описательных статистик дает использование Пакета анализа: Данные → Анализ данных → Описательная статистика. Вывод значений представлен на рис. 4.

 

 

 

Рис. 4. Описательные статистики для выборки глагольных форм

 

В разработанной магистрантами рабочей тетради приводятся примеры использования возможностей MS Excel для сравнения двух разных текстов, определения различий в стилях текстов, расчета конкретных характеристик, сравнения огромного количества разных незнакомых и известных текстов. Показано, как можно находить конкретные части речи, выявлять их признаки, свойства, возможности; обнаруживать ошибки и неточности.

На примере структурного моделирования можно донести до обучающихся понятие структуры системы, представляя реальный объект как систему со всеми связями между ее элементами, которые, в свою очередь, могут рассматриваться как подсистемы системы. Умение создавать реляционные базы данных позволит будущим лингвистам совершенствовать технологию перевода и толкования слов, а понимание структуры запросов приведет к развитию новых технологий релевантного поиска текстовой информации. Информационные технологии, используемые при решении подобных практических задач, также опираются на знания математики – математической логики и системологии. Разработанное учебно-методическое пособие для студентов-гуманитариев по созданию структурной модели в среде СУБД позволило получить завершенные проекты студентов-филологов – практико-ориентированные базы данных – их для активного использования в научно-исследовательских студенческих работах. На рис. 5 представлена одна из форм БД «Словарь терминов по информатике», которая является примером, иллюстрирующим этапы создания баз данных и технологию проектирования баз данных.

 

 

 

Рис. 5. Форма на основе запроса: Толкование – Перевод

 

Преподавание математики и информатики гуманитариям предусматривает владение педагогами-математиками не только математическими знаниями, но и представлениями о языке и его структуре, об историко-философских аспектах развития различных, в том числе, гуманитарных наук [3].