Обучающаяся автоматическая система

Обучающаяся автоматическая система, обучаемая машина, самоприспосабливающаяся система, алгоритм управления которой изменяется в соответствии с оценкой результатов управления так, что с течением времени она улучшает свои характеристики и качество функционирования (см. Автоматическое управление). Проектирование и построение технических систем возможно только на основе начальной априорной информации о характере процессов, протекающих в системе, и условиях, сопровождающих работу системы и оказывающих на неё возмущающее воздействие. Когда имеется полная начальная априорная информация, можно достаточно точно определить такие значения характеристик проектируемой системы, которые обеспечивают заданное качество её функционирования; в этом случае нет необходимости в её обучении. При отсутствии полной начальной информации единственной возможностью создания системы с заданным качеством функционирования является использование при её разработке принципа обучения.

Обучение — процесс многократных воздействий на систему и корректирования её реакций на эти воздействия. Внешняя корректировка, или, как её ещё называют, «поощрение» и «наказание», осуществляется «учителем», которому известна желаемая реакция на определённые воздействия. «Учителем» может быть либо человек — оператор, либо автомат. Именно на основе обработки контрольной (апостериорной) информации происходит восполнение недостающей начальной информации. Если обучение осуществляется без внешнего обучающего устройства, то подобная система называется самообучающейся.

Обучение осуществляется с помощью алгоритмов, которые в зависимости от того, является ли О. а. с. дискретной или непрерывной, представляют собой систему стохастических разностных либо стохастических дифференциальных уравнений. Алгоритмы обучения реализуются средствами вычислительной техники — цифровыми либо аналоговыми вычислительными машинами (в частности, электроинтеграторами) либо, наконец, гибридными вычислительными системами. По мере обучения О. а. с. накапливает опыт, на основе которого постепенно вырабатывается требуемая реакция системы на внешние воздействия; О. а. с. — асимптотически оптимальная система, т.к. оптимальная реакция системы на внешние возмущения достигается не сразу, а с течением времени, в результате обучения. Наиболее полно исследованы О. а. с. распознавания образов, идентификации, фильтрации и управления.

В О. а. с. распознавания образов до начала их функционирования всё множество подлежащих опознанию объектов подразделяется на классы в соответствии с избранным принципом классификации. После этого составляется словарь признаков распознаваемых объектов и создаются технические средства для определения этих признаков. Если объём начальной априорной информации достаточен для того, чтобы произвести описание классов на языке признаков, то можно построить систему распознавания без обучения. Если же объём первоначальной информации недостаточен для описания классов либо такое описание по некоторым причинам составить неудобно, то система распознавания образов может быть сформирована с помощью обучения. О. а. с. до начала функционирования в качестве распознающей системы работает с «учителем», который предъявляет системе обучающие объекты всех выделенных классов и указывает, к каким именно классам они принадлежат. Затем учитель «экзаменует» систему, корректируя её ответы до тех пор, пока среднее количество ошибок не снизится до желаемого уровня. В результате обучения начальная априорная информация пополняется, что и обеспечивает О. а. с. распознавания возможность описывать классы с помощью избранного словаря признаков. При этом, чем точнее удаётся восстановить описание классов на языке словаря признаков, тем качественнее работает система и тем реже она допускает ошибки при распознавании неизвестных объектов или явлений (см. также Распознавание образов).

О. а. с. фильтрации предназначены для отделения полезного сигнала от помех, что необходимо, в частности, в радиолокации и при дальней радиосвязи. В условиях полной априорной информации о входных воздействиях (полезном сигнале и помехах) можно построить систему фильтрации, обеспечивающую экстремальное значение соответствующему критерию оптимальности, характеризующему работу системы. Однако в условиях недостаточности априорной информации обучение — единственный путь построения оптимальной системы фильтрации. В процессе обучения изменяются параметры системы фильтрации, а иногда даже её структура, в результате чего критерий оптимальности асимптотически приближается к своему экстремальному значению.

О. а. с. управления могут применяться на летательных аппаратах, в технологических агрегатах и др. Структурная схема типовой системы автоматического управления, в которой на основе обучения реализуется оптимальный (в определённом смысле) процесс управления, представлена на рис. Положим, цель управления состоит в том, чтобы обеспечить наименьшее значение некоторой величины (функционала) R, зависящей в общем случае от функций задающего _вх(t) и управляющего (t), воздействий и от управляемой величины (t), т. е.

, (1)

Эта цель должна быть достигнута при наличии определённых ограничений, состоящих в том, что некоторые величины (функционалы) F_i, где i = 1, 2,..., m, не должны превосходить установленных для них значений, т. е.

, (2)

где (t)— возмущение, воздействующее на объект управления. Положим, кроме того, что полная априорная информация относительно (t) и _вх(t) отсутствует, т.к. в противном случае задача построения оптимальной системы управления может быть, в принципе, решена без обучения. В рассматриваемой системе основная часть управляющего устройства A₁ имеет алгоритм управления, способный изменяться в широком диапазоне, а др. часть — А₂ может воздействовать на A₁, перестраивая его алгоритм. Основываясь на цели управления, устройство А₂ с помощью алгоритмов обучения и по мере накопления опыта, который определяется совокупностью реакций устройства A₁ на возможные изменения режимов работы объекта В, вырабатывает воздействия * (t), которые всё более и более приближаются к требуемым значениям. Требуемыми являются такие значения (t), которые в соответствии с полученными в вычислительном устройстве С значениями критерия оптимальности R (при ограничениях F*_i) перестраивают алгоритм работы A₁ т. о., что выполняются условия (1) и (2). Рассмотренная О. а. с. управления является асимптотически оптимальной.

Лит.: Фельдбаум А. А., Процессы обучения людей и автоматов, в сборнике: Кибернетика, мышление, жизнь, M., 1964; Нильсон Н. Дж., Обучающиеся машины, пер. с англ., M., 1967; Цыпкин Я. З., Адаптация и обучение в автоматических системах, M., 1968; его же, Основы теории обучающихся систем, M., 1970; Горелик А. Л., Скрипкин В. А., Некоторые вопросы построения систем распознавания объектов и явлений, M., 1974.

А. Л. Горелик.

Структурная схема автоматической обучающейся системы управления: A₁, A₂ — устройство управления; В — управляемый объект; С — вычислительное устройство; `х_вх — задающее воздействие; u — управляющее воздействие; `z — возмущение; `х — управляемая величина; R — критерий оптимальности; F₁,..., F_m — функционалы; `y — корректирующее воздействие.

Оглавление БСЭ