Автоматизированная система распознавания символов на топографических картах

Международная публикация

Предыдущая статья Следующая статья

Выпуск: Приложение 11. «Современные научные исследования. Выпуск 4»

ART 86402

Авторы:

Н. В. Дмитриев,

В. С. Тарасян

Библиографическое описание статьи для цитирования:

Дмитриев Н. В., Тарасян В. С. Автоматизированная система распознавания символов на топографических картах // Научно-методический электронный журнал «Концепт». – 2016. – Т. 11. – С. 1876–1880. – URL: http://e-koncept.ru/2016/86402.htm.

Аннотация. На основе анализа теоретического материала теории распознавания образов авторами был создан алгоритм и программное обеспечение, выполняющее поиск, идентификацию и группировку текстовых и графических символов на топографических картах для решения проблемы построения геоинформационных систем местности. Для нахождения оптимального метода распознавания было проведено сравнение трёх основных методов: матричного сравнения, выделения особенностей и интеллектуального метода искусственных нейронных сетей; разработаны алгоритмы предобработки и постобработки. Наилучшее качество показал метод искусственных нейронных сетей, он и рекомендуется для распознавания символов в решении поставленной задачи.

Ключевые слова: топографические карты, распознавание символов, матричное сравнение, выделение особенностей, искуственные нейронные сети

Текст статьи

Дмитриев Никита Владимирович,аспирант, заведующий лабораториями кафедры «Мехатроника» Уральского Государственного Университета путей сообщения, г. Екатеринбургdmitrievnikita13@gmail.com

Тарасян Владимир Сергеевич,к. ф. м. н., доцент, заведующий кафедры «Мехатроника» Уральского Государственного Университета путей сообщения, г. Екатеринбургvtarasyan@gmail.com

Автоматизированная система распознавания символовна топографических картах

Аннотация. На основе анализа теоретического материала теории распознавания образов авторами был создан алгоритм и программное обеспечение, выполняющее поиск, идентификацию и группировку текстовых и графических символов на топографических картах для решения проблемы построения геоинформационных систем местности. Для нахождения оптимального способараспознавания было проведено сравнение трёх основных методов: матричного сравнения, выделения особенностей и интеллектуальный метод искусственных нейронных сетей; разработаны алгоритмы предобработки и постобработки. Наилучшее качество показал метод искусственных нейронных сетей, он и рекомендуется для распознавания символов в решении поставленной задачи.Ключевые слова:топографические карты, распознавание символов, матричное сравнение, выделение особенностей, искусственные нейронные сети.

Введение

Благодаря нарастанию уровня глобализации в экономике, как между регионами России, так и со странами ближнего зарубежья, растёт число транспортных путей и логистических центров различного масштаба [1]. Чтобы транспортнологистическая инфраструктура функционировала наиболее качественно, необходимо применять системы поддержки принятия решений, так как человек или группа людей не могут справиться с этой задачей оптимально (изза большого количества необходимых к рассмотрению параметров). В качестве таких систем в современное время используются геоинформационные системы. Они позволяют хранить, обрабатывать и визуализировать пространственные данные, полученные на основе реальной местности. Для получения этих данных, авторами были выбраны топографические карты, как содержащие наиболее полную и точную информацию.Топографические карты представляют собой графические модели местности с подробным указанием рельефа, опорных геодезических пунктов, грунта, растительности, гидрографии, хозяйственных и культурных объектах, дорогах, коммуникациях и других объектах местности. Каждый тип объекта изображается на карте способом, характеризуемым цветом, формой, текстурой, положением и т. д. И относится к одной из трёх основных категорий: двумерные (леса, водохранилища), одномерные (линии коммуникаций, изолинии) и точечные (буквы, цифры, идеограммы). Недостатком топографических карт является нестрогое следования стандартуусловных изображений [2], поэтому одни и те же объекты на разных картах могут иметь различное изображение.Для получения геоинформационной системы необходимо выделить на карте слои, отличающиеся функционалом, например, слой почв или слой изолиний и отметок высот (из которого потом можно будет получить двумерную матрицу высоты местности, то есть рельефа). Если смотреть в общем, то в геоинформационной системе нужно оперировать знаниями об объектах [3], но эти знания необходимо получить из изображения карты. Эта задача не является простой, так как на топографических картах объекты, несущие разные функции, пересекаются, создавая сложную топологическую структуру [4, 5].И если смотреть на частную задачу распознаванияобразов, то мы можем увидеть, что символы часто пересекаются с другими точечными или одномерными элементами карты, лежат как внутри, так и на границе двумерных объектов, характеризующихся относительно непостоянным цветом. Но изза небольшого размера символов у нас нет необходимости в рассмотрении топологии карты, более того: мы можем использовать такие методы распознавания, какие мы бы не смогли использовать для одномерных и двумерных объектов в связи с их размерами (тысячи пикселей).С другой стороны, проблема распознавания символов на топографической карте стоит более остро, чем, скажем, на печатных документах, так как на карте контрастность значительно ниже, и буквы и числамогут располагаться под любым углом к осям карты. Уже это означает то, что цифры «6» и «9» не могут быть распознаны сразу, так как переходят друг в друга через поворот на 180 градусов. Ещё одной сложностью является то, что различные процедурыраспознавания изображений дают различные результаты, поэтому в нашем случае необходимо было провести эксперимент по их сравнению и выбрать наилучший.Цель работы:разработать алгоритм оптимального распознавания символов на топографической карте.

Разработанный алгоритм распознавания символов

Наиболее общая техника распознавания символов включает в себя три этапа: предобработку, непосредственно распознавание и постобработку.Предобработка.Предобработка изображения выполняет две основные функции. Первая заключается в том, чтобы максимально подготовить исследуемое изображение через ряд преобразований, то есть улучшить его для нужд распознавания.При этом вид топографической карты не меняется, но может измениться контрастность, подкорректироваться цветность. Фактически на данном уровне производятся конечные преобразования над отдельными пикселями изображения. Также в данную функцию входит интерполяция изображения карты дляработы с межпиксельными значениями.Все алгоритмы распознавания символов действуют по принципу скользящего окна, то есть в двумерном пространстве исследуемого изображения выбирается некоторое прямоугольное подмножество пикселей, которое перемещается по нему, а процедура определяет, естьли в этом окне некоторый знакили нет. На случай топографических карт сразу вырисовывается основная сложность: длина и ширина карты могут исчисляться несколькими тысячами пикселей, кроме того необходимо будет ещё учитывать наклон окна (тут, соответственно, и используется интерполяционное изображение карты, так как при операции поворота могут появляться дробные координаты), при этом нужно учитывать, что процедуры распознавания не являются быстрыми. Всё это приводит к большому числу вариантов, и простой перебор таких окон ведёт либо к очень длительному выполнению программы на компьютере, либо к превышению пределов использования памяти.Поэтому предобработка должна выполнять ещё и функцию ограничения множества вариантов положения центра скользящего окна. Для этого необходимо использовать аппарат морфологических преобразований (дилатация/эрозия, размыкание/замыкание и т. д.), когда происходит преобразование одновременно группы пикселей, расположенных рядом. Здесь же производится бинаризация, очистка (например, от пятен и случайных шумов), отделение от объектов, имеющих такую же функцию (например, изолинии и отметки высот обладают одинаковым цветом, что может привести к тому, что пиксели изолиний теоретически могут являться центрами цифр). В результате данной обработки из изображения топографической карты получается бинарная матричная маска, на которой отмечены возможности нахождения центра символа в точках карты. Благодаря такому преобразованию вариативность по центрупадает на два порядка, так как пиксели букв, цифр и идеограмкарты занимают всего несколько процентов от всей её площади.Отличие предобработки топографических карт заключается в том, что необходимо использовать информацию о всех трёх цветовых координатах (из цветового пространства RGB), учитывать то, что шрифты начертания, размер и цвет различных надписей могут серьёзно разниться, поэтому необходимо выполнять различную предобработку для различных типов надписей. В результате получается набор бинарных матрицмасок для каждого из этих типов.Распознавание символов.Различают два метода распознавания символов: оптический (ОРС) и интеллектуальный (ИРС). Метод ОРС основан на представлении образа, какобъекта, имеющего постоянный вид. Различают две основных техники ОРС: матричное совпадение и выделение особенностей [6]. Метод ИРС предполагает, что символ может иметь непостоянную структуру, обычно его используют для распознавания рукописного текста. Способов ИРС существует достаточно много; они соответствуют методам машинного обучения, например: искусственные нейронные сети, нечёткая логика, генетические алгоритмы и т. д., но больше всего используется именно первый способ [7].Метод матричного совпадения (Matrix Matching, MM) представляет собой непосредственное сравнение изображения, полученного из скользящего окна, с набором изображений символов, у которых известно начертание, своеобразным алфавитом, и, если совпадений между пикселями достаточно много (больше некоторого порога), то процедура сигнализирует об этом. Достоинством данного метода является быстрота и конкретность, а недостатками —ригидность к возможному изменению начертания (для решения необходимо значительно увеличивать алфавит начертаний) и сильное влияние шумов.Метод выделения особенностей(Feature Extraction, FE) имеет переходный уровень абстракции, так как работает уже не с конкретными пикселями, а с их группами, такими как: линии или замкнутые и разомкнутые кривые. При этом оцениваются такие свойства, как толщина линии, количество отверстий в изображении скользящего окна, относительные углы наклона, то есть с геометрическими и топологическими характеристиками. Моделью символа в данном случае является именно набор таких атрибутов, например, «8» и «В» обладают двумя отверстиями, «1», «7» и «Т» имеют небольшую относительную ширину, а «Ш» и «М» большую. Этот метод работает уже чуть медленнее, но гораздо более гибок, так как имеет некоторую невосприимчивость к искажениям. Но его гибкость является и недостатком: выделить конкретный символ часто оказывается невозможным (ср. «Л» и «П», «А» и «Д»).Метод искусственных нейронных сетей (Artificial Neural Network, ANN) находится на самом высоком уровне абстракции, так как позволяет работать сразу со всеми пикселями из скользящего окна, при этом как такового алфавита или таблицы характеристик образовнет: нейронная сеть обучается на специальной выборке, в результате чего получается математическая модель, функционирующая, как «чёрный ящик», на вход которого подаётся информация о пикселях, а на выходе вырабатываются сигналы о распознавании символов. Недостатком данного метода является скорость, но достоинством —высокая точность распознавания, так как нейросеть при невосприимчивости к шуму сохраняет реакцию на небольшие изменения в значимых областях символов, что позволяет разделить даже очень сходные по начертанию буквы, цифры и идеограммы.В конце данного этапа получается массив объектовсимволов с характеристиками: координаты центра, его размеры, угол наклона, тип и значение.Постобработка.В основе постобработки лежит принцип согласования: полученные распознанные символы должны быть согласованы друг с другом (как внутри одного функционального комплекса, так и с другими данными). Для этого должны быть реализованы функция группировки и функция поиска ошибок.Группировку необходимо производить, чтобы связать отдельные цифры в числа, а буквы —в слова. Для этого следует просканировать соседние области с каждым знаком, и, если найдены символы соответствующей функциональности, создать комплекс, в который следует включить группы, учитывая порядок. Таким образом, массив объектовсимволов заменится массивом объектовгрупп с такими же характеристиками.Мы знаем, что методы распознаванияобразовне обладают абсолютной точностью, ошибки в любом случае будут существовать. Поэтому любому алгоритму распознавания необходимо выводить результаты своей работы человеку для подтверждения или исправления. Для уменьшения исправлений реализуется поиск ошибок: найденныеслова проверяются по словарю икорректируются в соответствии с правилами орфографии языка. Проверка чисел организуется поиском соседних чисел для согласования, например, если подряд стоят отметки высот «580», «590», «900», «610», то процедура должна исправить «900» на «600».Идеограммы отличаются тем, что они не объединяются в комплексы, поэтому не могут быть согласованы между собой, например, среди указателей кустов может быть указатель на дерево. Этот недостаток компенсируется сильным отличием идеограмм между собой и тем, что они изображаются всегда горизонтально, поэтому вероятность спутать их между собой гораздо меньше, чем для букв или цифр.Общая схема разработанного алгоритма изображена на рисунке 1. Как видно система не является полностью автоматической, так как требует подтверждения действий человеком, но её основная задача —как можно сильнее снизить время работы, сохраняя при этом качество.

Рис. 1. Общая схема алгоритма распознавания символов.Оценка качества распознавания

Оценить качество работы алгоритма распознавания автоматически можно, только если мы владеем идеальным состоянием результата его выполнения, например, как в случае распознавания изображения печатного текста, по которому известен сам текст. В нашем случае такую проверку выполнить невозможно, но, исходя из задачи алгоритма, можно вычислитьсэкономленное алгоритмом рабочее время.Если человек распознаёт символы самостоятельно (Manual Recognition, MR), то он тратит время на создание объектовгрупп с их характеристиками. Если человек распознаёт символы при помощи программы, то он тратит время на ожидание её выполнения, удаление ложноопознанных образов(ошибки первого рода), создание пропущенных знаков(ошибки второго рода) и исправление некорректных характеристик. Суммарное время при переходе к автоматизированной системе должно уменьшиться, а лучший алгоритм распознавания выберем по минимуму этой суммы.Основные типы символов и их особенности представлены в таблице 1. Примеры изображений (в порядке, соответствующем табл. 1) находятся на рисунке 2, а). Именно по ним мы и будем сравнивать время выполнения распознавания.Таблица 1Основные типы символов топографических карт

Тип символовОсобенности изображенияОбозначение высотыгоризонталейШрифт Т132, размер 1.7, цвет коричневый 255861,расположение вдоль горизонталей, прерывая ихПодписи отметок высотШрифт Т132, размер 2.5, цвет чёрный 255801,расположение горизонтальное, поверх остальных объектовРастительный покровИдеограммы, размер 2.5, цвет чёрный 255801,расположение горизонтальное, поверх остальных объектовНазвания объектов гидрографииШрифт Бм431, размер от 1.4 до 6.0, цвет синий 255838,расположение вдоль объекта гидрографии внутри или снаружи

Экспериментальные результаты

Для экспериментальной проверки алгоритмов были реализованы программы в среде MatLab. Алгоритмы предобработки и постобработки является едиными для всех трёх процедурраспознавания.Для каждого типа образовбыл составлен алфавит изображений (для метода матричного сравнения) на основе данных [2]; также был реализован геометрический и топологический анализ символов для способавыделения особенностей и обучена искусственная нейросеть, для чего была составлена тренирующая выборка и описаны соответствующие им характеристики.Бинарные матрицымаски после выполнения предобработки показаны на рисунке 2, б): чёрным отмечено, где может быть центр символа. Видно, что маски примерно соответствуют расположению букв и цифр, более того, по ним можно определить примерное направление угла наклона образов, что также ускоряет работу алгоритма за счёт уменьшения вариативности перебора скользящего окна.ерезультаты работы разработанной программы представлены в таблице 2. Первое число —абсолютное в секундах, второе —относительное в единицах времени создания надписи человеком (принято за 1000 для каждого типа символов).

Рис. 2. Типы символов топографических карт:а) изображения, б) результаты предобработки

Таблица 2Потраченное время на распознавание символов

по их типам и алгоритмам распознавания

ТипсимволовАлгоритм распознаванияСуммарное времяработыВремяработыпрограммыВремяудаленияВремясозданияВремяисправленияОбозначение высотыгоризонталейMR80 / 1000

MM34 / 4270.16 / 20.4 / 520.4 / 25513.2 / 165FE23 / 2930.24 / 3

3.2 / 4012.8 / 1607.2 / 90ANN15 / 1890.32 / 45.2 / 656.4 / 803.2 / 40ПодписиотметоквысотMR180 / 1000

MM18 / 1010.18 / 14.5 / 250.9 / 512.6 / 70FE15 / 820.36 / 23.6 / 200.9 / 59.9 / 55ANN8.5 / 47

0.36 / 22.7 / 15

0.9 / 54.5 / 25Растительный покровMR28 / 1000

MM1.0 / 360.03 / 10.42 / 150.28 / 100.28 / 10FE0.9 / 320.06 / 20.28 / 100.28 / 100.28 / 10ANN1.0 / 370.06 / 20.28 / 100.42 / 150.28 / 10Названия объектов гидрографии

MR245 / 1000

MM231 / 9420.5 / 23.7 / 1535.5 / 145191 / 780FE169 / 6880.7 / 34.9 / 2016 / 65147 / 600ANN76 / 3101.2 / 53.7 / 158.6 / 3562 / 255

Выводы

В данной статье рассматривался алгоритм распознавания символов на топографической карте. Согласно экспериментальным данным можно сделать вывод, что лучшим методом для распознавания отдельных знаковна топографической карте в общем является модельискусственной нейронной сети, хотя для случаев распознавания идеограмм процедурыОРС оказались сопоставимы по качеству. Этот результат оказался предсказуемым, так как метод ANNтакже хорошо работает и для других видов документов. Кроме того для топографической карты, как сложного объекта, насыщенного связями и погрешностями, необходимо использовать как можно более гибкий метод для достижения наивысшего качества.В дальнейшем полученные распознанные слова, числа и идеограммы можно использовать для группировки с другими объектами карт и создания функциональных слоёв. Полученную геоинформационную систему можно использовать для оптимального проектирования объектов логистической и транспортной инфраструктур, например, рассчитывать траектории путей, места расположения логистических центров, возможные уровни наводнений и т. д.

Ссылкинаисточники1. Zhuravskaya M., Tarasyan V. Forming of the regional core transport network taking into account the allocation of alternative energy sources based on artificial intelligence methods // Transport Problems. 2014. V. 9. N4. P. 121130.2. Условные знаки для топографических карт масштабов 1:25000, 1:50000, 1:100000 /Военнотопографическое управление генерального штаба, Москва, 1983.3. N. Ebi, B. Lauterbach, Ph. Besslich. Automatic data acquisition from topographic maps using a knowledgebased image analysis system // ISPRS92 IVB4, 655663.4. Тарасян В. С., Дмитриев Н. В. Система автоматизированного построения виртуальной модели местности по топографической карте // Молодежь в науке: Новые аргументы: Сборник научных работ IIго Международного молодежного конкурса. Часть I. 2015. С. 6265.5. Тарасян В.С., Дмитриев Н.В. Интеллектуальная система анализа и преобразования топографических карт // Современные проблемы науки и образования. 2015. № 2; URL:http://www.scienceeducation.ru/ru/article/view?id=21614 (дата обращения: 18.02.2016).6. J. Pouderoux, J.C. Gonzato, A. Pereira, P. Guitton, Toponym Recognition in Scanned Color Topographic Maps // ICDAR, 2007, pp. 5315357. Alexander J. Faaborg, Using Neural Networks to Create an Adaptive Character Recognition System, http://web.media.mit.edu/~faaborg/research/cornell/ hci_neuralnetwork_finalPaper.pdf (дата обращения: 18.02.2016).