Разработка алгоритма самообучения интеллектуальных систем в априори неописанных проблемных средах

Библиографическое описание статьи для цитирования:
Рамазанов Г. М. Разработка алгоритма самообучения интеллектуальных систем в априори неописанных проблемных средах // Научно-методический электронный журнал «Концепт». – 2014. – Т. 20. – С. 2626–2630. – URL: http://e-koncept.ru/2014/54789.htm.
Аннотация. Предложен и исследован алгоритм самообучения интеллектуальных систем в априори неописанных проблемных средах при наличии в них причинно-следственных связей между происходящими событиями.
Комментарии
Нет комментариев
Оставить комментарий
Войдите или зарегистрируйтесь, чтобы комментировать.
Текст статьи
Рамазанов Гусейн Муфталиевич,старший преподаватель кафедры эконометрики и прикладной информатики в дизайне ФГБОУ ВПО «Дагестанский государственный технический университет» Республика Дагестан, г.Махачкалаrgusein@mail.ru

Разработка алгоритма самообучения интеллектуальных системв априори неописанных проблемных средах

Аннотация.Предложен и исследован алгоритм самообучения интеллектуальных систем в априори неописанных проблемных средах при наличии в них причинноследственных связей между происходящими событиями. Ключевые слова:интеллектуальная система, проблемная среда, алгоритм самообучения.

Одной из актуальных проблем современной науки является разработка интеллектуальных систем (ИС) способных автономно функционировать в априори неописанных проблемных средах (ПС). Разработка эффективных систем принятия решений в априори неописанных проблемных средах на основе современных достижений искусственного интеллекта является одним из важнейших направлений развития производства и ускорения научнотехническогопрогресса.Эффективное решение данной проблемы, прежде всего, связаннос разработкой алгоритмов самообучения (АС) позволяющих ИС выявлять различные закономерности целенаправленного преобразования ситуаций ПС. Заметим, что при проявлении в ПС независимых от действий ИС событий, связанных с появлением в ней соответствующих им сигналов среду следует отнести к классу динамических сред. Иными словами, в такой ПС происходят независимые от интеллектуальной системы преобразования допустимых ситуаций, влияющих на процесс ее адаптации к изменяющимся условиям функционирования. При этом перед ИС встает проблема в процессе формирование программ целесообразного поведения (ПЦП) в динамической ПС для выявления причинноследственных связей между происходящими в ПС событиями. В этом случае, в процессе самообучения ИС при наличии в ПС причинноследственных связей, обусловленных выполнением в ней различных по своему содержанию событий,возникает необходимость исключения образования в формируемых ПЦПслучайных элементарных актов поведения следующего вида: Sтек вj S1цел, закрепляющихся в ней в результате неверного определения причин изменения ситуаций среды.Для этой цели при разработке алгоритма самообучения необходимо использовать механизмы действия многократного совпадения двух условных сигналов во времени. Под условным сигналом в этом случае будем понимать любое наблюдаемое ИС изменение текущей ситуации ПС, например, изменение состоянияконкретного объекта, появление в среде нового объекта, изменение значений отношений складывающихся между объектами среды и т.д. Приведем один из возможных принципов реализации механизмазакрепления элементарных актов поведения ИС в формируемой ПЦП. Введем параметр ,принимающий бинарные значения 0,1и определяющий степень уверенности ИС в истинности сформированного ею отдельного элементарного акта поведения. Считаем, что если параметр для выявленного акта поведения в процессе многократной его реализации принимает значение, большее единицы, то данное правило отражает закономерное преобразование ПС. В противном случае, при =0 принимается решение о том, что элементарный акт поведения носит случайный характер. Для ПЦП, состоящей из элементарных актов поведения, значение степени уверенности ИС для эффективного применения этой программы поведения может определяться согласно выражению , где степень уверенностив истинности го элементарного акта поведения, входящего в структуру сформированной программы поведения

Если у ИСсформировала несколько альтернативных ПЦПLi44L, приводящих к достижению определенной цели, определяемой сигналом с*i31,то предпочтение отдается наращиванию и реализации программы поведения с наибольшим значением параметра . При наличии двух ПЦПс одинаковыми значениями параметра используется программаповедения, имеющая меньшую сложность реализации.Для реализации рассмотренного механизма многократного закрепления элементарных актов поведения в формируемых ПЦП, необходимо выбрать количество совпадений условных сигналовво времени, при котором принимается решение об истинности закрепляемого акта поведения. Значение можно определить эвристическим путем, опираясь на накопленный опыт поведения, или на основе результата опроса экспертов. Зная можно вычислить шаг приращения параметра , как . Отсюда, удачная отработка действия элементарного акта поведения поощряется увеличением параметра на т.е. , в противном случае следует штраф и .Используя описанный механизм, ИС, наблюдая за происходящими в ПС событиями, принимает следующее решение: если после восприятия условного сигнала через интервал времени появляется сигнал и данное совпадение проявляется многократно, т.е. для него ,то сигнал рассматривается как предвестник появления условного сигнала, на который интеллектуальная система реагирует определенным образом. Далее, если сигнал появляется часто, например, периодически по истечении интервала времени t2, то изменений в характере поведения ИС не происходит.Например,робот, ожидает самопроизвольного появления требуемого условного сигнала и реагирует на него определенным образом согласно сформированной ПЦП, в которой закреплен этот сигнал.В противном случае ИСпринимает решение о необходимости достижения одного из условных сигналов или путем отработки различных действий bj1 В. Последовательная цепочкадействий, приводящихк появлению условных сигналов и в среде, ИС формирует на основании алгоритма самообучения1, вырабатывая на его основе соответствующие ПЦП.Алгоритм самообучения 1.Исходные данные: ситуации Sисх, Sцел, множество действий В; заданная цель,Входные переменные: воспринимаемые в ПС ситуации SiтекSВыходные переменные: сформированная ПЦП: Sтек bj S1текi bj+1 …Sтекi+n bjn ...заданная цель.1.Начало.2.Описать текущую ситуацию внешней среды Sцел i.3.Сформировать множество действий bi В, которые можно отработать в ПС.4.Согласно равномерному закону вероятностей распределения выбрать действие iиз множества В. Отработать выбранное действие. 5.Описать текущую ситуацию внешней среды Sтек i+1.6.Проверить условие: «SцелI=Sтекi+1», если условие выполняется, перейти к п. 8; в противном случае, перейти к п. 9. 7.

Исключить проверяемое действие jиз числа закрепляемых на текущем шаге самообучения, перейти к п. 5.

8.Проверить условие: «цель достигнута?» Если нет, то перейти к п.11, если да, перейти к п.10.9.

Запомнитьв формируемой ПЦП элементарный акт поведения:

Sтекi+1 bi

Sцелi..Принятьна следующем шаге самообучения за Sцел

ситуацию Sтекi+1, к пункту п. 4 .10.Конец.Для выполнения анализа и количественной оценки сложности алгоритма самообучения 1в различных условиях ПС вводим следующие ограничения:1) обязательным условием выработки ПЦПявляется наличие или появление в ПС необходимого целевого сигнала;2) суммарнаявероятность перехода ПС от состояния к другому состоянию такому, что на каждом этапе активного самообучения ИС равна единице при условии, что интеллектуальная система выполнит все действия из заданного множества В (частным случаем данного условия является то, что для каждого действияbiиз множества B в ПС существует переход от одного состояния к другому);3) действия ИС из множества Bj равновероятныв условиях полной априорной неопределенности;4) количество различных сигналов в ПС таково, что для хранения информации, связанной с формированием в среде любой по сложности УПП, достаточно оперативной памяти ИС;5) из ограничений пп.4 вытекает, что для определения функциональной и емкостной сложности АС можно воспользоваться равномерными весовыми критериями, приняв за единицу функциональной сложности алгоритмов самообучения отработку ИС одного пробного действия. Аксиоматическое выражение. Функциональная сложность алгоритмасамообучения 1выработки УПП в статических ПС определяется выражением , где количество активных шагов самообучения ИС(каждый такой шаг завершается при достижении цели Sцел.); количество этапов на шаге (каждый этап завершается при изменении текущего состояния ПС); количество пробных действий, отрабатываемых ИР на этапе го шага.Предложение 1.Максимальная функциональная сложность выработки УПП в статических ПС первой категории алгоритма 1 не превышает значения , где мощность множества или количество разнообразных действий, отрабатываемых ИР в процессе самообучения;

локальная полустепень вершины для исходящих дуг; максимальный ранг графа для исходной и целевой вершин, т.е. длина максимального пути между вершинами; множество всех вершин этого пути.Доказательство. 1.Исходя из пп.47 алгоритма самообучения 1и при условии, что мощность множества Bравна n, максимальное количество пробных действий, отрабатываемых на каждом этапе активного самообучения, не может быть болееn.2.Исходя из п.8 алгоритмасамообучения 1, каждый этап самообучения завершается при появлении в ПС сигнала такого, что , где сигнал, характеризующий ПС до начала текущего шага изучения закономерностей ПСна iшаге. Следовательно, максимальное количество пробных действий,отрабатываемых ИСна каждом iшаге самообучения не больше величины . Здесь единица учитывает действие, приводящее к завершению iэтапа самообучения.3.Согласно условию завершения каждого этапа самообучения после преобразования текущей ситуации ПС и из условия, что граф является ациклическим, вытекает, что максимальное количество этапов самообучения на каждом iшаге может быть не более .4.Из условия завершения каждого шага самообучения при изменении текущей ситуации ПС и достижением цели следует, что количество таких шагов в ациклической ПС может быть не более .5.Из пп.Доказательства 14 и аксиоматического выражения. следует .Для построения алгоритмасамообучения ИС для выявления в среде причинноследственной взаимосвязи условных сигналов Sи событий qiQ используем следующие обозначения и операторы:t отрезок времени, отведенный ИС под ожидание самопроизвольного появления в ПС необходимого события qi

Q;tmотрезок времени, в течение которого ИС ожидает самопроизвольного появления в ПС события qiQ;

обозначение условия нахождения условного сигналав текущей ситуацииПС, например,  S;

s1t=s2tравенство ситуаций s1t,s2t  S между собой;

&

обозначение одновременного присутствия в ПС сигналов и .С учетом принятых обозначений алгоритм самообучения ИС при наличии в ПС причинноследственных связей представится следующим образом.Алгоритм самообучения2.Исходные условия:Sисх,Sцел;Входные переменные:siтекS, qiQ;

Выходные переменные:элементарные акты поведения следующего вида:& bj1; (& ) & bj1.1.Начало:2.Сформировать текущую ситуацию внешней среды Sтекi. 3.Запустить таймер отсчета времени t, наблюдения за произвольными изменениями ситуаций ПС. С появлением в среде каждого нового события qi

Q сформировать текущую ситуацию Sтекi+1. 4.Проверить условие: «Sтекi=Sтекi+1»? Если да, то перейти к п.5;если нет, то перейти к п.6.6.Сформировать сигналы:am=Sтекi+1\Sтекiи а'j=Sтекi\Sтекi+1; .Записать в память импликативное решающее правилоа'j& qiam,гдеТm=t1.7.Принять за подцель функционирования в процессе самообучения условный сигнал qi

am.8.Сформировать текущую ситуацию ПС sтекi+2.

9.Принять за подцель функционирования в процессе самообучения ИС появлениев ПС события qi.10. Проверить условие: «событие qiвключено»? Если да, то перейти к п.16;если нет, то перейти к п.11.11.Сформировать множество действий bj B .12.Выбрать действие jсогласно равномерному закону распределения вероятностей их выполнения.13.Отработатьвыбранное действие *j.14.Проверить условие: «событие qiвключено»? Если да, то перейти к п.11; если нет, то перейти к п.16 .15.Исключить действие *jиз множества B на текущем шаге самообучения.16. После включения события qiсформировать текущую ситуацию ПС Sтекi+4.17.Проверить условие: «Sцел

Sтекi+4» ? Если да, то выполняются безусловные реакции и перейти к п.18;если нет, то перейти к п.24.18.Проверить условие: «событие qiвключено»в результате отработки действия *j? Если да, то перейти к п.19 ;если нет, то перейти к п.24.19.Сформировать сигнал a'j=Sтекi+4\Sтекi+3; Занести в память элементарный акт поведения: a'j & b*jqi.20.Проверить условие «необходимо появлениезаданного сигнала Sцел».Если такая необходимость есть, то перейти к п.21; в противном случае закончить самообучение.21.Сформировать текущую ситуацию ПС sтекi+5. 22.Провести имитацию отработки действия *j. Проверить условие: «в среде произошло включение события qi»? Если да, то перейти к п.23; если нет, то перейти к п.24.23.Проверить условие: > 0? Если да, то перейти к п.24;если нет, то перейти к п. 22.24.Используя алгоритм самообучения1сформировать ПЦП

приводящую к включению в ПС события gi; перейти к п.22.25.Используя алгоритм самообучения1сформировать УПП, приводящую к включению в ПС сигнала Sцел.26.Конец.Определим функциональную сложность алгоритма самообучения2ИС при наличии в ПС причинноследственных связей между условными сигналами и событиями. Считаем, что значение функциональной сложности алгоритма самообучения для наиболее трудоемких условий ПС лежит в следующих граничных пределах [1].Предложение2.Функциональная сложность выработки ПЦП по алгоритму самообучения 2при наличии в ПС причинноследственных связей имеет следующие граничные значения , где 35 количество сигналов, характеризующих среду; n1

количество действий, отрабатываемых ИС.Доказательство. Количество пробных действий , отрабатываемых ИС попредложенному алгоритму самообучения в процессе формирования ПЦПпри наличии в ПС причинноследственных связей между условными сигналами, определяется согласно выражению , где количество пробных операций, выполняемых ИСдля включения событий q*iQ, связанных с появлением предвестников amA; количество пробных действий, отрабатываемых в процессе формирования ПЦП вида простой цепи.2. Значение для наиболее трудоемких условий ПС лежит в пределах , что вытекает из граничных значений функциональной сложности использованного алгоритма самообучения1для формирования ПЦП, приводящей в среде требуемого события q*iQ .3. При формировании импликативного решающего правила (Siтек& Sтекi+1) & bj1qi, ИСпри выполнении соответствующих условий в лучшем случае может отработать одно действие, если эффективное действие из множества В1выбирается первым (это вполне вероятно, т.к. выбор действий выполняется согласно равномерному закону распределения вероятностей их отработки). В худшем случае, ИСможет выполнить все действия из множества В1при условии, что нужное действие выбрано последним,.4. Из пп.13 доказательства следует, что для наиболее трудоемких условий ПС значение лежит в следующих пределах: .Таким образом, предложенныеалгоритмысамообучения имеет полиноминальную сложность, а,следовательно, за ограниченноеколичество шагов обучения обеспечивает формирование ИС программыцелесообразного поведения, позволяющей достигать требуемых целей в априори неописанных условиях ПС.

Ссылки на источники1. Берштейн Л.С., Мелехин В.Б.Планирование поведения интеллектуального робота. М.: Энергоатомиздат, 1994. 240 c.

Ramazanov Guseyn Muftalievich, Assistant Professor of Econometrics and Applied Informatics in design Department, FSBEI HPE "Dagestan State Technical University", Republic of Dagestan Mahachkalargusein@mail.ruDEVELOPMENT OF THE SELFTRAINING ALGORITHM OFINTELLECTUAL SYSTEMS IN PRIORIUNDECLAIRED PROBLEMSOLVING ENVIRONMENTSAbstract.Thealgorithm of intellectual systemsselftrainingin a priori undeclared problemsolving environmentat presence of causal effect between occurring eventsis offered. The Keywords:intellectual system, problemsolving environment, selftrainingalgorithm.