Квантитативная лингвистика в современной научной парадигме

Выпуск: Приложение 20. «Современные научные исследования. Выпуск 2»

ART 54373

УДК 001

Автор:

Библиографическое описание статьи для цитирования:

Малышева Н. В. Квантитативная лингвистика в современной научной парадигме // Научно-методический электронный журнал «Концепт». – 2014. – Т. 20. – С. 546–550. – URL: http://e-koncept.ru/2014/54373.htm.

Аннотация. В статье описываются роль и место квантитативной лингвистики в современной научной парадигме.

Ключевые слова: квантитативная лингвистика, прикладная лингвистика, статистические методы, современные информационные технологии, реферирование, аннотирование, языковой корпус

Текст статьи

Малышева Наталья Васильевна,кандидат филологических наук, доцент, ФГБОУВПО «КомсомольскийнаАмуре государственный технический университет», г. КомсомольскнаАмуреnatasha@knastu.ru

Квантитативнаялингвистикав современной научной парадигме

Аннотация.Встатье описываются роль и место квантитативной лингвистики в современной научной парадигме. Ключевые слова:квантитативнаялингвистика, прикладная лингвистика, статистические методы,современные информационные технологии, реферирование, аннотирование, языковой корпус

КЛ является одним из направлений прикладной лингвистики(ПЛ), «области языкознания изучающей методы решения практических задач, связанных с оптимизацией использования языка». Как видно из определения, прикладная лингвистика находится под влиянием общей теории языка, но этот процесс обоюдный: исследования, проводимые в русле прикладной лингвистики,сами воздействуюна развитие общей лингвистики, устанавливают новые критерии проведения лингвистическихизысканий.Так, например, применение статистических и/или количественных методик на данный момент является обязательным требованием любого лингвистического проекта. Как научная дисциплина прикладная лингвистика появилась во второй половине двадцатого века, когда ученые пришли к выводу о том, что решение многих задач не может быть чисто лингвистическим. На Западе термин ПЛ (AppliedLinguistics) применяется, прежде всего, по отношению ктеории и практике преподавания иностранных языков. В России же данный термин получил распространение в связи с появлением первых компьютеров, первых систем автоматической обработки текстов, машинного перевода, автоматического реферирования, аннотирования и т.д. Именно поэтому в русскоязычной литературе вплоть до настоящегомомента применяются термины«компьютерная лингвистика», «инженерная лингвистика», что не вполне корректно, поскольку каждая из вышеперечисленных дисциплин имеет свои собственные цели, задачи, методы в рамках прикладной лингвистики.

Говоря о видах задач ПЛ и их количестве, отметимбольшое разнообразие, которое объясняется многообразием коммуникативных ситуаций типа «человекчеловек», «человеккомпьютер».Тем не менее, можно выделить основные направления ПЛ, связанные с практическими приложениями:

компьютерная лингвистика;

автоматическое распознавание символов;

автоматическое распознавание речи;

автоматическое извлечение данных;

автоматическое реферирование текстов;

создание электронных словарей;

корпусная лингвистика;

лингвистическая экспертиза.Успешно развиваются компьютерная лексикография, автоматизация.Автоматизированные лексикографические системы позволяют хранить и обрабатывать большие массивы текстовой информации, создавать лексикографические системы для однои многоязычных словарей, конкордансов и контекстологических словарей.В связи с этим необходимоотметить, что в настоящее время уже созданы и продолжают активно разрабатыватьсякорпусы различных языков, например: [1], [2],большая подборка корпусов различных типов и задач представлена на[3].В них содержится информация о всевозможных зафиксированных единицах языка, как древних,так и современных, включая различные типы текстов. Корпусы, как правило,охватываютдесятки миллионов слов. Преимущество корпусов неоспоримо,онидают: реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки.Так, например, Национальный корпус русского языка на коллокацию, выполняющую функцию предлога, в предвиденьедает 7 вхождений в 7 документах. Сочетание же в предвидениенаходится в 119 документах и имеет 176 контекстов [1]. Они позволяют решать целый набор прикладных задач в различных областях.

В области лексикографии корпусы совершили революцию. Они позволяют получить данные по лексеме в целом (поиск по лемме) и по конкретной словоформе, выявить типичные/нетипичные употребления и характерные сочетания слов. Эти данные могут быть разными: контексты, частоты (абсолютные и относительные), частоты по коллокациям, статистика по жанрам/стилям/авторам, и т.д.

Представим статистическую информацию по Национальному корпусу английского языка [2], содержащему 4049 текстов и занимающему объем 5,2 GB. В целом, корпус включает более 100 миллионов слов и словоформ.Все тексты классифицированы по периоду их создания. Для устных текстов датой создания считается время записи материала, для письменных –время публикации источника.Таблица 1

ТекстыЛексемы %Словосочетания%Дата не определена16218315851.861264162.09196019744617184491.741195101.981975198416947308894.802579624.281985199336729008286091.58552239691.63

Корпусы также предоставляют информацию об авторах письменных текстов, когда она содержится в самом источнике: гендер, возраст, место проживания, что, на наш взгляд, является необходимым при определенных когнитивных исследованиях.Приведем пример выборки по типу автораТаблица 2

Тесты Лексемы%Словосочетания%Автор неизвестен21137868354.301743713.49Авторский коллектив, фамилии авторов не упоминаются34764971447.384556499.13Авторский коллектив, фамилии авторов упоминаются13223456321939.29181090136.30Один автор12614310673449.01254728351.06При составлении словарей корпусы помогают выявить новые значения;удалить неактуальные;более точно упорядочить отдельные значения внутри словарных статей.Приведемпримерсуществительного и его фонетического варианта галоша/калоша. Согласно Национальному корпусу русского языка вариант галошаупотребляется чаще (85 вхождений на 59 документов), чем вариант калоша(57 вхождений на 30 документов), что свидетельствует об изменениях в произносительной нормы данной лексемы.В области грамматики спомощью корпусов можно исследовать различные морфологические и синтаксические конструкции. Так, можно изучать словообразование, валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функцииразличных грамматических категорийи т.д. Корпусы позволяют также получить сведения о правописании и пунктуации.Например, Longman Grammar of Written and Spoken English. London(1999)показывает, что некоторыеглаголы (bet, doubt, know, meanи др.) почти всегда используются в PresentTense, в то время как другие (eye, glance, grin, nodи др.), как правило, стоят в PastTense. Эти данные невозможно было бы получить без корпусов.

Автоматический поиск библиографической информации представляется наиболее перспективным направлением применения компьютерных технологийв связи с лингвистикой, без него современному ученому все труднее и труднее справляться с обрушивающимся на него потоком информации.В целом же прикладные аспекты данной отрасли лингвистики сводятся к одной общей проблеме –проблеме обработки информации, оптимизации коммуникативной, когнитивной, гносеологической, фатической и других функций языка.Что касается квантитативной лингвистики, возникшей на стыке языкознания, математики и статистики, будучи разделом прикладной лингвистики, она решает ряд важных лингвистических задач. Привлечение методов измерения и подсчета языковых реализаций позволяет, существенно модифицировать представление о языковой системе и возможностях ее функционирования. В этом отношении квантитативная лингвистика оказывается важнейшим фактором, влияющим на лингвистическую теорию. Например, в сфере грамматики теоретическая лингвистика, как правило, ограничивается констатациейи объяснением явлений языка. Со структурной точки зрения этого, быть может, и достаточно. Однакоза рамками исследованияостается существенная информация о частотностиграмматического явления, динамкеегоиспользования с течением времени. Исследование такого рода позволило бы выявить тенденции развития системы и на основе этого сформулировать гипотезы о будущем состоянии языка.Подобного родапроблемы возникают и в сфере лексики. Обычные толковые словари не помещают в составе словарной статьи информации о частоте использования той или иной лексемы. Это связанос очень большим объемом работы, который надо проделать, чтобы для каждого слова указать хоть какието рамки частотности. Для пользователя словаря такая информация может оказаться очень важной, решающей для принятия решения об использовании слова. Ср., например, высокочастотные в публицистике идиомы с головы до ног/с ног до головы(48 вхождений на 21 млн словоупотреблений), целиком и полностью(49 вхождений на 21 млн), на все сто(42 вхождения на 21 млн), ровным счетом, ни больше ни меньше(71 вхождение на 21 млн), ни много, ни мало(133 вхождения на 21 млн) и редкие для газетножурнального стиля выражения море разливанное(9 вхождений на 21 млн), (и) стар и млад(8 вхождений на 21 млн), разные разности(1 вхождение на 21 млн).С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, то есть создать структурновероятностную модель, обладающую значительным объяснительным потенциалом. К моделям такого рода относится, например, «модель жизненного цикла слова», предложенная А. А. Поликарповым. Проведенный им квантитативный анализ показал, что в значительной временной перспективе имеется явная тенденция к увеличению степени абстрактности значений у многозначного слова —чем позже возникает значение, тем оно более абстрактно. Разработанная количественная модель позволяет делать интересные предположение об относительном «возрасте» различных частей речи, тенденций развития лексической системы языка и т.д.Опишем основные области приложения структурновероятностной модели языка, создаваемые в русле квантитативной лингвистики.Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, окказиональныеи узуальныеметафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, эмотивная лексика,термины различных сфери т.д.), особенности использования втекстах какихлибо грамматических форм, синтаксических конструкций. Требования, предъявляемые к технологиямлингвистического мониторинга, следующие:регулярностьи периодичности анализируемых данныхирепрезентативностьвыборки данных. Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится методика контентанализа, используемая для выявления структуры и состояния общественного сознания. С егопомощью появляется возможность реконструировать по частоте употребления лексем ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д.Компьютерное моделирования языка и речи.Другая важная область квантитативных лингвистических данныхо частоте использования языковых структур приходится накомпьютернуюлингвистику. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Однакопользователь может пополнять свой индивидуальный словарьнечастотными единицами. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистикодистрибутивному методу автоматического индексирования информативными для текста считается концентрацияслов, расположенных достаточно близко друг от друга, их частота должнапревосходитьнекоторую пороговую величину, например, среднюю частоту слов в документе.Дешифровка кодированного текста. В процессе дешифровки также могут использоваться квантитативные данные об употребленииграфем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста.Атрибуция текста.Проблема авторизации текста относится к числу классических проблем филологического исследования: она рассматривается в рамкахстилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов [4]разработалтипологию субъективных и объективных факторов атрибуции текста.Однако, данная классификация, на наш взгляд, имеет ряд существенных недостатков, самые главные из которых это неопределенность критериев и возможность множественной интерпретации текста,что ведет к расхождениям в лингвистической экспертизе текста.В заключении необходимо отметить, что цель квантитативной лингвистики состоит в том, чтобы сформулировать законы, по которым функционирует язык, и построить общую теорию в виде совокупности взаимосвязанных законов функционирования языка. При этом законы должны быть в достаточном объеме и успешно проверены на эмпирических данных, то есть такими, которые нельзя опровергнуть,несмотря на многочисленные попытки. Математические и статистические методы позволяют построить относительно ровную закономерность. Однако лингвистам не следует бездумно рассчитывать на гарантированное получение точных и объективных данныхпри применении какогонибудь математического аппарата. На самом деле грамотно выбранный математический аппарат позволяет обобщить полученные данные или представить материал в более организованномвиде или создать модель явления[5]. Тем не менее,нельзя забывать, что модель неизбежно огрубляет действительность. Б.Рассел сказал: «Как это нипарадоксально, но всякая точная наука подчинена идее приближенности»[6].В действительности далеко не всякое применение чисел или математического аппарата или компьютеров делает результаты строгими и научными. Неверно также думать, что математика обязательно связана с количественными оценками и со статистикой. Современная математика изучает абстрактные системы, из которых лишь некоторые являются количественными, и вычисления часто играют лишь вспомогательную роль.Скоростьразвития науки непрерывно увеличивается, и сейчас невозможно предвидеть, какие науки выйдут на передний край в ближайшем будущем. Поэтому современному ученому нужна широкая подготовка. Ему недостаточно знакомства с достижениями в своей области. Современный лингвистдолжен иметь широкий кругозор, иметь представлениео том, что делается в других направлениях.

Ссылки на источники1.Корпус русского языка URL:http://www.ruscorpora.ru[Дата обращения 30.01.14]2.British National Corpus URL:http://www.natcorp.ox.ac.uk[Датаобращения30.01.14]3.Large Corpora used at CTS http://corpus.leeds.ac.uk/list.html[Датаобращения30.01.14]4.ВиноградовВ.В.Проблема авторства и теория стилей/ В.В. Виноградов: М., издво Художественная литература, 1961. –612 с. 5.Верхотуров А.Д. О новом определении науки в связи с необходимостью решения глобальных проблем человечества, в том числе экологических / А.Д. Верхотуров, В.М Михайлович, Б.А. Воронов, Л.А. Коневцов // Ученые записки КомсомольскогонаАмуре государственного технического университета. –2013. –Т.1. №3 (15) –С. 86936.Арнольд И.В. Основы научных исследований в лингвистике: Учеб. пособие. –М., 2013. –144с.

Malysheva Natalia Vasilievna,Candidate of Philology, Associate Professor, KomsomolsknaAmureState Technical University, KomsomolsknaAmure natasha@knastu.ruQuantitative Linguistics in Modern Scientific ParadigmAnbstract.The article gives the description of place and function of Quantitative Linguistics in modern scientific paradigmKey words: Quantitative Linguistics, Applied Linguistics, modern information technologies, reviewing, annotation, linguistic corpus