авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |
-- [ Страница 1 ] --

А. А. Усков, С. А. Котельников,

Е. М. Грубник, В. М. Лаврушин

ГИБРИДНЫЕ НЕЙРОСЕТЕВЫЕ

МЕТОДЫ МОДЕЛИРОВАНИЯ

СЛОЖНЫХ ОБЪЕКТОВ

МОНОГРАФИЯ

Смоленск 2011

УДК 519.254

ББК 30.17

У 75

Рецензенты:

профессор Российского университета кооперации – Курилин С. П.

профессор Военной академии войсковой ПВО ВС РФ – Фомин А. И.

У 75 Усков А. А., Котельников С. А., Е. Грубник Е. М.,

Лаврушин В. М. Гибридные нейросетевые методы моделирования сложных объектов: Монография. – Смоленск:

Смоленский филиал АНО ВПО ЦС РФ "Российский университет кооперации", 2011. – 132 с.: ил.

ISBN 978-5-91805-019-4 В коллективной монографии рассматривается аппарат обобщенно регрессионных нейронных сетей с полиномиальной коррекцией и его применение для моделирования объектов из различных предметных областей.

Для специалистов в области информатики и математического моделирования.

Монография издается в авторской редакции.

АНО ВПО ЦС РФ "Российский университет кооперации" Смоленский филиал, Усков А. А., Котельников С. А., Грубник Е. М., Лаврушин В. М., ВВЕДЕНИЕ Задача построения систем автоматического управления (САУ), способных функционировать в условиях неопределенности математического описания объекта управления, является одной из важнейших задач современного системного анализа и имеет общенаучное значение. Один из важных этапов синтеза систем управления – идентификация объекта управления.

При функциональной идентификации на основе априорной информации и экспериментальных данных ищется неизвестная зависимость вход-выход объекта моделирования. Различают два основных подхода к получению функциональных моделей:

аналитический и аппроксимационный.

При аналитическом подходе структура модели строится на основе закономерностей, действующих в объекте моделирования. При аппроксимационном подходе выбор аппроксимирующей зависимости не связан с внутренним устройством объекта моделирования.

Как известно, выделяют два основных вида аппроксимационных моделей: параметрические и непараметрические (локально параметрические).

При параметрическом подходе вначале выбирается аппроксимирующая зависимость, известная с точностью до параметров, затем на основе обучающей выборки производится адаптация ее параметров (обучение). К параметрическим методам моделирования относятся: регрессионные модели, полиномиальные нейронные сети (- нейронные сети), многослойные персептроны и др. Достоинством параметрических методов является следующее: если аппроксимируемая зависимость достаточно проста (например, представима полиномом невысокого порядка), то достаточно просто подобрать аппроксимирующую зависимость, при этом качество моделирования будет весьма высоко, даже в случае небольшой или зашумленной обучающей выборки. В тоже время, в случае неудачно выбранной аппроксимирующей зависимости точность моделирования часто неудовлетворительная.





При непараметрическом подходе так же вначале выбирается тип аппроксимирующей зависимости, но, в данном случае, по экспериментальным данным строится большое количество указанных зависимостей, каждая из которых действует в некоторой локальной области входных факторов и имеет свои параметры. К непараметрическим методам моделирования относятся:

непараметрические статистические оценки, метод М-ближайших узлов, нейронные сети с радиальными базисными элементами и др.

Достоинством непараметрических методов является отсутствие необходимости выбирать тип глобальной аппроксимирующей зависимости, что позволяет значительно увеличить точность моделирования сложных существенно нелинейных объектов. В тоже время, отклик модели в непараметрических методах определяется не всей, а лишь частью обучающей выборки, что делает такие модели мало эффективными при значительной зашумленности обучающей выборки.

На практике часто моделируемая зависимость представляет собой сумму гладкой функции, аппроксимируемой полиномом невысокого порядка, и сложной негладкой нелинейной зависимости, что нивелирует достоинства как параметрического, так и непараметрического подходов.

Проведенные исследования позволяют сделать вывод о том, что в данном случае будут наиболее эффективны гибридные методы идентификации, выполненные на основе методов относящихся как к параметрическому, так и непараметрическому подходам.

Ввиду того, что в настоящее время большое развитие получили нейросетевые методы идентификации целесообразно решение научной задачи проводить на основе нейросетевого подхода, в частности, с использованием аппарата радиально-базисных нейронных сетей, как наиболее перспективного представителя непараметрических методов идентификации.

В качестве параметрического метода идентификации для построения гибридного метода выбраны полиномиальные модели, которые широко распространены на практике благодаря возможности аналитически определять параметры модели на основе метода наименьших квадратов.

В связи с вышесказанным актуальной научной задачей, имеющей как чисто теоретическое, так и прикладное значение, является разработка гибридных нейросетевых алгоритмов идентификации сложных промышленных объектов, сочетающих достоинства параметрического и непараметрического подходов:

высокую точность и малую чувствительностью к шуму в обучающей выборке.

Монография состоит из введения, четырех разделов, заключения, списка литературы и приложений.





В первом разделе проанализированы известные из литературных источников методы функциональной идентификации, в том числе регрессионный анализ, комбинаторные, непараметрические и нейросетевые методы. Конкретизированы задачи дальнейших исследований.

Во втором разделе рассматривается разработанный аппарат обобщенно-регрессионных нейронных сетей с полиномиальной коррекцией. Доказана сходимость получаемых моделей, рассмотрены методики оценки точности и планирования эксперимента.

В третьем разделе рассмотрены разработанные методики моделирования динамических объектов на основе обобщенно регрессионных нейронных сетей с полиномиальной коррекцией.

В четвертом разделе описано применение разработанных методов при моделировании и управлении обектом химической технологии (отсадочной машиной).

В заключении приводятся выводы по работе.

1 СОСТОЯНИЕ НАУЧНЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ МЕТОДОВ ФУНКЦИОНАЛЬНОЙ ИДЕНТИФИКАЦИИ СЛОЖНЫХ ОБЪЕКТОВ 1.1 Задачи функциональной идентификации Объектом принято называть ту часть окружающего мира, состояние которой интересует исследователя [1-3]. Схематично взаимодействие объекта с остальными частями окружающего мира (средой) представлено на рисунке 1.1 [1].

Рисунок 1.1 – Схема взаимодействия объекта со средой Объект всегда выделяется некоторым субъектом, формирующим как определение объекта, как части среды, так и цели такого определения.

Под субъектом совершенно не обязательно подразумевать конкретную личность: это может быть группа людей, объединенная по некоторому признаку, и даже все человечество, если, например, изучению подлежат глобальные объекты (космос, окружающая среда и т. д.) [1].

На рисунке 1.2 схематично показано выделение субъекта из среды.

Рисунок 1.2 – Схема взаимодействия субъекта со средой и объектом Здесь под у понимаются интересующие субъекта состояния объекта, под х – измеряемые контролируемые или учитываемые входы, а под – неконтролируемые воздействия.

Априори (субъектом) предполагается, что между указанными переменными существует причинно-следственная связь, отображаемая соотношением y R(x, ), (1.1) где R ( ) - оператор, вообще говоря, неизвестного вида.

Исследование объекта может проводиться c помощью математической модели или математического описания объекта.

Существует огромное число определений этого фундаментального понятия.

Определим математическую модель как упрощенное отображение наиболее существенных сторон (свойств) реальной системы, выраженное в математической форме [1 - 3].

Конкретизируя это определение, в дальнейшем под математической моделью будем понимать правило преобразования входных переменных в выходные в виде функциональной зависимости y (x ), (1.2) где x – входные переменные (сигналы) объекта, (x ) - некоторая функция, - вектор неконтролируемых возмущений, y – выходной сигнал объекта.

Процесс получения математической модели объекта в виде (1.2) называется функциональной идентификацией [1].

Приступая к поиску математической модели (функции (x ) ), исследователь обладает некоторой априорной информацией, степень его информированности можно охарактеризовать двумя основными уровнями.

1. Вид функции (x ) неизвестен. Известно лишь, что функция (x ) в интересующей исследователя области может быть достаточно хорошо аппроксимирована конечным рядом по некоторой системе (или системам) наперед заданными функциями. Требуется найти наилучшее приближение функции (x ).

2. Функция (x ) известна с точностью до параметров, т. е.

( x) ( x, c ), (1.3) где c - вектор параметров модели. В этом случае, очевидно, имеем, (1.4) y ( x, c ) а прогноз состояния объекта дается соотношением y ( x, c ), (1.5) где оценка c находится исходя из некоторого критерия ошибки или функции потерь, определяющих меру близости выходов объекта и их прогноза:

c min E ( y, y ), (1.6) c т. е. в результате подгонки c к имеющимся экспериментальным данным.

В свете изложенного, при классическом подходе можно выделить следующие этапы построения математической модели исследуемого объекта [2, 3]:

1) выбор модели, т. е. установление каким-то образом вида зависимости (x ) с точностью до вектора параметров c ;

2) нахождение c (этап оценивания);

3) проверка и подтверждение модели (диагностическая проверка, проверка адекватности).

1.2 Классические методы идентификации Второй и третий этапы описанной процедуры в достаточной степени формализованы и наибольшее затруднение при моделировании обычно вызывает первый этап, на котором применяются два основных подхода - аналитический и аппроксимационный.

При аналитическом подходе (называемом также физическим или имитационным) объект отображается состоящим из отдельных взаимосвязанных элементов, для каждого из которых составляются частные описания, на основе закономерностей известных из электротехники, механики, химии и других наук, например, уравнениям материального баланса [3].

Данные частные описания имеют вид нелинейных дифференциальных (разностных) или алгебраических уравнений и их объединение с учетом внутренних (для объекта) перекрестных или обратных связей между элементами дает общую структуру модели.

Для относительно простых объектов (например, во многих ситуациях встречающихся в технике) аналитический подход дает очень хорошие результаты и является основным при построении математических моделей.

Однако для сложных объектов точность моделей, полученных аналитическим путем, невелика.

Это связано со следующими причинами [3, 4]: во-первых, при устойчивости объекта прогнозы быстро «затухают» и теряют свою информативность, во-вторых, при неполных данных коэффициенты модели определяются со смещением, что может привести к нарастанию ошибки прогнозирования, кроме того, объект моделирования может содержать не формализуемые элементы, обладать стохастическими свойствами или подвергаться влиянию случайных внешних воздействий.

В связи с этим аналитические модели используются в основном для изучения относительно простых объектов (прежде всего технических), а для сложных объектов могут использоваться лишь для познавательных целей.

Аналитические методы моделирования имеют особенность:

чрезмерное увеличение числа уравнений и учитываемых переменных не всегда приводит к улучшению результата, часто это способствует получению противоречивых уравнений и невозможности использования их для прогнозирования [3].

Кроме того, аналитический подход имеет еще один существенный недостаток: получаемая с его помощью модель, как правило, нелинейная по параметрам, что приводит к большим проблемам на этапе оценивания (если такую оценку нельзя провести отдельно для каждого из элементов модели) [5, 6].

Указанные недостатки привели к развитию аппроксимационного подхода в моделировании [2, 3].

Основная идея аппроксимационного подхода состоит в отказе от аналитического поиска структуры описания (1.2) на основе предположения, что в некоторой окрестности x выбранной базовой точки x0 зависимость (x ) (предположим, для простоты, что в данном случае (x ) — гладкая функция) с достаточной степенью точности может быть представлена некоторой зависимостью, например, отрезком ряда Тейлора:

T x n c, (1.7) ( x) ( x1, x2,..., xn ) i ( xi x0,i ) x i1...

xn n ( x) где, cT ( x0 ), i x0,i, 1, 2,..., n ).

( 0 i xi i x x При необходимости аппроксимационные свойства модели можно улучшить, добавив в нее, например, компоненты типа xi x j, xi и т. п. В любом случае модель оказывается линейной по параметрам y 1 x1 x2... xn x1... c, (1.8) которые на этапе оценивания находятся обычно из минимума критерия в виде суммы квадратов ошибок [6]:

N ( yi yi )2, E (1.9) i где N – общий объем экспериментальных данных, что приводит к известному методу наименьших квадратов (МНК) с решением (F T F ) 1 F T y, c (1.10) где y T ( y1, y 2,..., y N ), а матрица базисных функций F составлена из i i i i i строк вида 1 x1 x2... xn x1 x1..., i=1, 2, …, N [6, 10 - 14].

Модель вида (1.8) называется регрессионной, и теоретический аппарат построения данных моделей является хорошо изученным [6 14]. Применение регрессионных моделей во многих случаях дает хорошие результаты, но только при достаточно гладких зависимостях между входами и выходами объекта.

Следует заметить, что формула (1.10) соответствует процедуре так называемого классического регрессионного анализа, при котором в начале определяются все элементы обучающей выборки (экспериментальные данные), а затем по ним вычисляются коэффициенты регрессии. Известна также процедура последовательного регрессионного анализа, при котором коэффициенты регрессии последовательно уточняются по мере добавления обучающей выборки [10].

Недостаток peгрессионного подхода хорошо известен: если зависимость между x и у имеет существенно нелинейный характер, то использование в (1.8) полиномов высоких порядков (для noлучения надлежащего качества аппроксимации) приводит к резкому увеличению размерности задачи (увеличению количества оцениваемых параметров модели), что в свою очередь приводит к существенным вычислительным проблемам и, в конечном счете, к неадекватной модели. Так, если регрессионная модель имеет n входов и представляет собой полином m-го порядка, то общее число коэффициентов регрессии определяется формулой [3, 15]:

(n m)!

K.

n! m!

Например, при n = 5 и m = 4 получим К = 126.

Для исключения указанных проблем была предложена целая группа методов, наиболее развитым из которых представляются комбинаторный подход.

В комбинаторных методах вид уравнения регрессии жестко не фиксируется, а может варьироваться, с включением в него или выключением отдельных факторов, изменением степени аппроксимирующего полинома (так называемые методы пошаговой регрессии) [4, 13]. Наиболее ярким представителем данного вида аппроксимационного подхода следует считать метод группового учета аргументов (МГУА) [4, 16, 17].

Алгоритмы, реализующие МГУА, воспроизводят схему массовой селекции. В них есть генераторы усложняющихся из ряда в ряд комбинаций и механизм отбора лучших из них. Полное описание объекта y ( x1, x2,..., xn ) (1.11) заменяется несколькими рядами частных описаний.

Первый ряд селекции ( x1, x3 ), …, f s f1 ( x1, x2 ), f 2 ( xn 1, xn ), (1.12) 2 m где s Cn ( C n – число сочетаний из n по m).

Второй ряд селекции ( f1, f 3 ), …, z p ( zs 1, zs ), z1 ( f1, f 2 ), z2 (1.13) C s2, где p и т. д.

Различные алгоритмы МГУА отличаются друг о друга по виду функции. Известны алгоритмы с квадратичными или линейными полиномами, вероятностные алгоритмы МГУА, использующие формулы Байеса или теории статистических решений и многие другие.

В основном алгоритме МГУА в качестве опорных используются квадратичные полиномы. При этом степень полного описания повышается с каждым рядом селекции, т. е. удваивается. В первом ряду реализуется квадратичная регрессия, во втором – регрессия четвертой степени, в третьем - регрессия восьмой степени и т. д.

Каждое частное описание является функцией только двух аргументов.

Поэтому коэффициенты частных описаний легко определить по данным обучающей последовательности (методом наименьших квадратов) при малом числе узлов интерполяции (первая операция).

Исключая промежуточные переменные (вторая операция), можно получить аналог полного описания. В результате удается определить числовые значения коэффициентов сколь угодно сложного описания по малому числу узлов интерполяции. Например, по десяти узлам интерполяции можно получить оценки коэффициентов полинома седьмой степени и т. д. [4, 15].

Из ряда в ряд селекции при помощи пороговых отборов пропускается только некоторое количество самых регулярных или несмещенных переменных.

Степень регулярности оценивается по величине среднеквадратической ошибки на отдельной (объемом Nnp) проверочной последовательности N пр ( yi f ki ) 2, k 1,2,..., s, (1.14) пр,k N пр i где f ki и y i, - соответственно значения f k и выхода объекта в i-ом опыте, а степень несмещенности – по специальному критерию.

По алгоритмам МГУА после каждого ряда селекции выбирается по L уравнений регрессии следующего вида:

первый ряд f ( xi, x j ) ;

второй ряд z ( fi, f j ) ;

третий ряд v ( zi, z j ) ;

четвертый ряд (vi, v j ) и т. д.

Для расчета критерия несмещенности все имеющиеся экспериментальные точки y i ранжируются и делятся на 2 части. Точки с четными номерами образуют первую последовательность R1, а точки с нечетными - вторую последовательность R2.

Первый ряд селекции. Синтез уравнений выполняется два раза.

Сначала первая последовательность является обучающей, а вторая проверочной: R1 N об, R2 N пр.

Уравнения регрессии, полученные при этом, обозначим как f k*.

Затем, наоборот, первая служит проверочной, а вторая - обучающей:

N об. Уравнения регрессии, полученные при этом, R1 N пр, R обозначим f k**. Каждое из найденных уравнений оценивается по величине nсм среднеквадратического отклонения, рассчитанного по всем точкам обеих последовательностей:

R1 R n1 (k ) ( f k* ( x r ) f k** ( x r )). (1.15) см R1 R2 r Из всех уравнений регрессии на первом ряду выбираются L (число L задается исследователем) уравнений, имеющих меньшую ошибку n1 (k ) (1 k L).

см Критерий несмещенности решений для первого ряда селекции определяется как среднее значение показателя несмещенности для L отобранных уравнений:

L n1 (k ) (1.16) N см см L k Второй и последующие ряды селекции. Последующие ряды селекции построены так же, как и первый. Например, на втором ряду находятся оценки несмещенности каждого из уравнений регрессии второго ряда R1 R * * ( z k ( x r ) z k* ( x r )).

nсм (k ) 1.17) R1 R2 r Критерий несмещенности решений для второго ряда L 2 N см nсм (k ). (1.18) L k Для третьего и последующих рядов справедливы аналогичные формулы.

Ряды селекции наращиваются до тех пор, пока критерий несмещенности падает: Nсм min;

как только достигнут минимум несмещенности (или ошибки), селекцию следует остановить.

Следует указать, что алгоритмы МГУА были весьма популярны в 70-80-е годы;

в последнее время интерес к ним уменьшился.

Возможно, причиной этому является громоздкость метода при большом числе входных переменных. Так, например, при 10 входах объекта только на первом ряду селекции необходимо строить и анализировать C10 45 частных регрессии. Кроме того, алгоритмы МГУА достаточно сложны в программной реализации.

Общим недостатком параметрического подхода является необходимость заранее знать с точностью до параметров аппроксимируемую зависимость (например, должно быть точно известно, что она представима полиномом или какой-либо другой функцией).

1.3 Непараметрические методы идентификации При непараметрическом подходе также как при параметрическом вначале выбирается тип аппроксимирующей зависимости, но, в данном случае, на основе экспериментальных данных строится большое число указанных зависимостей, каждая из которых действует в некоторой локальной области входных факторов и имеет свои параметры [2].

«Непараметрическая» модель функции y (x ) в окрестности центра разыскивается в виде x m x), x, y( x, ) cj( ) j(, (1.19) x j где - заданные функции n переменных, c j ( ) - скалярные j (x ) величины (неизвестные коэффициенты), в данном случае зависящие от текущего значения, т. е. являющегося постоянными только в некоторой локальной области изменения аргумента x, m — параметр, устанавливаемый при моделировании.

Так, если в качестве j (x ) взяты полиномы, то для нулевой и первой степеней m 1, 1(x) 1, (1.20) m n 1, 1 ( x ) 1, 2 (x) x1,..., n 1(x) xn, для второй степени (n 1)(n 2) m, 1 ( x) 1, 2 ( x) x1,..., n 1 ( x) xn, (1.21) 2 2 1 ( x ) x1, 2 ( x ) x1 x 2,..., 2 ( x ) x1 x n,..., m ( x) xn.

n n n Определение коэффициентов c j ( ) производится исходя из минимизации функционала N xi ) ( yi y ( x i, ))2, (1.22) E ( x, c, ) ( N i экспериментальной выборки, y i — где – объем общий N экспериментальные значения выхода, x i — соответствующие значения вектора входов, 0 — скалярный параметр, так называемый параметр локальности, (z ) — некоторая функция от п переменных ( z так называемая функция локальности.

x ), Предполагается, что (z ) 0, достигает максимума при z 0, является невозрастающей функцией по каждой из величин zi ( z i - i-я компонента вектора z ) и, наконец, (z ) 0 при z 0, где евклидова норма вектора.

Функции (z ), удовлетворяющие перечисленным условиям, могут быть построены, например, при помощи функций (скалярной переменной) вида, приведенного на рисунке 1.3.

Рисунок 1.3 – Вид функций (z ) Для этого достаточно в качестве аргумента в них взять какую либо норму вектора-аргумента или принять n ( zi ). (1.23) (z) i Если обозначить, далее, через ( x ) ( 1 ( x ), 2 ( x ),..., m ( x ))T вектор функций n переменных, входящих в модель (1.19), и минимизировать (1.22) по c ( ), то получаем [3]:

N cT (, ) ( ht ( x,, ) y i, y( x,, ) x) i c(, ) min E ( x, c, ), c N xi xi ) yi, c(, ) () ( ) ( i N xi xi ) T ( xi ), () ( ) ( i T xi xi ) xi ) ht ( x,, ) ( () ( ( ). (1.24) Полагая, что в (1.24) x придем к соотношениям N c T (, ) (0) ht ( x, ) y i, y( x,, ) i c(, ) min E ( x, c, ), c N xi x xi ) yi, c(, ) ( x) ( ) (x (1.25) i N xi x xi ) T (x xi ), ( x) ( ) (x i xi T i ( ) (x x i ) ht ( x, ) (x x ) ( ).

Отметим, что строгих правил для выбора входящего в приведенные соотношения параметра локальности не существует;

в качестве рекомендации в [2] отмечается, что величина не может быть меньше некоторого предельного значения, при этом должно выполняться равенство:

z1 z1 z z,,..., 1 ).

() ( (1.26) Выбор величины существенно влияет на точность идентификации.

В случае модели нулевого порядка конечное выражение имеет вид [3]:

N xi x ) yi ( i,x. (1.27) y( x, ) x N xi x ( ) i Оценка при различных значениях параметра y (x, ) оптимальности имеет следующий характер. При малых функция y (x, ) близка к кусочно-постоянной, проходящей через точки y i, причем для каждого x величина y (x, ) определяется как значение y i для x i, ближайшего к x в смысле метрики, определяемой функцией N yi локальности (x ). При больших y( x, ) ( ) N i постоянная величина. При промежуточных значениях и гладкой функцией веса (x ) оценка y (x, ) - гладкая функция, имеющая в узлах x i «тяготение» к соответствующим y i.

В общем случае при n 1 и использовании полиномиальной модели степени выше нулевой, получить аналитическое выражение для y(x, ), аналогичное (1.27), затруднительно. В этом случае с использованием соотношений (1.25) расчеты могут быть выполнены только численно.

Разновидностью непараметрического подхода являются оценки типа «М ближайших узлов» [2, 3, 18, 19].

Проведем упорядочение узлов x i в зависимости от величин расстояния между узлом и точкой x. Для такого упорядочения может быть выбран любой способ определения расстояния в n-мерном евклидовом пространстве;

так, если - некоторая норма, то x( N ). (1.28) x x(1) x x( 2)... x Будем далее считать, что упорядочивание узлов выполнено в соответствии с рядом (1.28). Всюду x(i ) есть i-й ближайший узел к точке x. Оценками типа «М ближайших узлов» называются такие оценки, веса наблюдений в которых зависят только от номеров узлов, упорядоченных относительно центра x, а не от величин этих расстояний.

Введем весовые коэффициенты, зависящие лишь от индекса i:

при i 0, S,. (1.29) A i i S i Непараметрические оценки y (x, ) типа «М ближайших узлов»

определяются соотношениями c T (, ) (0), c min E N (c, M ), y( x, ) c N cT x(i ( x )) )]2.

E N ( x, M ) i [ y (i ( x )) (x (1.30) i В общем многомерном случае при n 1, m = 1, 1 имеем 1( x) N ht0 ( x, M ) y t, y( x, ) t (1.31) ht0 ( x, M ) i.

N i i Представляется, что непараметрический подход (точнее, локально-параметрический) является достаточно мощным средством для идентификации сложных объектов [2].

В то же время можно указать на его существенный недостаток: в соответствии с (1.24) - (1.27) следует, что использование построенной модели предполагает хранение в оперативной памяти всего массива (объемом N многомерных точек) данных, собранных на этапе идентифицирующего эксперимента. Объем такого массива, в силу применяемых процедур локальной интерполяции, может быть весьма существенным.

В работах [3, 20, 21] изложена модификация метода «М ближайших узлов» – локально-аппроксимационные модели. В данном случае экспериментальные данные редуцируются, путем оставления наиболее информативных точек, которые затем используются для оценки состояния объекта методом «М ближайших узлов» с применением локальных аппроксимирующих функций порядка, обычно, не выше второго.

1.4 Нейросетевые методы идентификации Бурно развивающийся в последние годы аппарат искусственных нейронных сетей предназначен для решения задач классификации/кластеризации, распознавания образов, аппроксимации функций, оптимизации управления, прогноза случайных процессов и др.

Рассмотрим основные понятия теории искусственных нейронных сетей [22 - 39]. Под искусственными нейронными сетями (далее просто нейронными сетями (НС)) подразумевают вычислительные структуры, состоящие из большого количества однотипных элементов, каждый из которых выполняет относительно простые функции. Процессы в искусственных НС иногда ассоциируют с процессами происходящими в нервной системе живых организмов.

К настоящему времени разработано большое количество различных типов нейронных сетей, имеющих свои отличительные особенности.

Среди различных видов НС наибольший интерес вызывает многослойная нейронная сеть прямого распространения или многослойный персептрон, сокращенно MLP (Multi Layer Perceptron).

Элементарным преобразователем в рассматриваемых сетях является искусственный нейрон или просто нейрон, названный так по аналогии с биологическим прототипом. Искусственный нейрон обычно представляют в виде структуры, приведенной на рисунке 1.4.

x W x W y s F(s) xn Wn b Рисунок 1.4 – Структура искусственного нейрона Такой нейрон имеет n входов x1, x2, …, xn и один выход y, а его математическая модель описывается соотношениями:

n S wi xi b, (1.32) i y F (S ), где w1, w2, … wn – весовые коэффициенты, b – постоянное смещение, F ( ) – функция активации или передаточная функция нейрона.

Обычно в качестве активационной функции используется сигмоид:

y F (S ), (1.33) 1 exp( a s) где а – некоторая положительная постоянная.

Выходное значение нейрона лежит в диапазоне [0, 1]. Ценные свойства сигмоидальной функции – дифференцируемость на всей оси абсцисс и простое выражение для ее производной, что используется в некоторых алгоритмах обучения. Кроме того, она обладает свойством усиливать слабые сигналы лучше, чем большие, что предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон.

Известно также большое количество других разновидностей активационных функций.

Нейронная сеть состоит из ряда связанных между собой нейронов, обычно, образующих несколько слоев. На рисунке 1.5 в качестве примера приведена простейшая двухслойная нейронная сеть.

Рисунок 1.5 – Двухслойная нейронная сеть Отметим, что нейроны первого слева (входного) слоя сети на рисунке 1.5 математических операций не выполняют, а служат лишь для размножения сигналов и при определении числа слоев не учитываются.

Чтобы нейронная сеть могла решить поставленную задачу, ее предварительно необходимо обучить. Сущность обучения состоит в подстройке весов нейронов по примерам обучающей выборки.

Эффективность использования нейронных сетей устанавливается рядом так называемых теорем о полноте. Смысл данных теорем сводиться к тому, что любая непрерывная функция на замкнутом ограниченном множестве может быть равномерно приближена функциями, вычисленными нейронными сетями, при выполнении некоторых достаточно легко реализуемых условий;

таким образом, нейронные сети являются универсальными аппроксиматорами.

Основным алгоритмом обучения MLP является алгоритм обратного распространения ошибки. В данном случае нейронная сеть обучается воспроизводить зависимость, заданную набором из N пар xn, yn точек n=1, 2, … N, с минимизацией суммарной квадратичной ошибки N Е Еn, (1.34) n ( yn On ) 2, Оn – выход сети при поступлении на вход x n.

где En Алгоритм состоит в последовательном выполнении следующих шагов.

1. Задаются параметр [0, 1] и некоторые малые случайные веса сети w ijk – k-й вес j-го нейрона в i-м слое нейронной сети, а также Еmax – максимальное значение суммарной функции ошибок сети.

2. Устанавливается n=1 – номер текущей обучающей точки и Е=0 – текущее значение суммарной функции ошибок сети.

3. Вводится очередная обучающая пара x x n и y y n.

Вычисляется выходной сигнал сети On.

Производится корректировка весов в соответствии с 4.

формулой:

En wi wi, (1.35) wi где wi – матрица весов i–го слоя нейронов, причем коррекция весов происходит в направлении от последнего слоя к первому, т.е. i последовательно меняется от М – число слоев в сети до 1.

Корректируются (наращивается) значение функции 5.

ошибки:

(yn On ) 2.

E E (1.36) 6. Если nN, то n=n+1 и переход к п.3.

7. Если ЕЕmax, то переход к п.2.

8. Останов.

En В формуле (1.35) под понимается матрица элементами wi En которой являются частные производные. Элементы данной w jk матрицы в ряде случаев могут быть определены в аналитическом виде.

Например, если нейроны сети описываются сигмоидальными функциями вида:

On, (1.37) 1 exp( wT j x n ) где x n - вектор входных сигналов нейрона, Оn – выходной сигнал нейрона, w j - вектор весов нейрона;

то для выходного нейрона сети:

En ( y n On )O n (1 On )OnM 1, (1.38) WM где Оn – выход сети, On M 1 - выходной сигнал (М-1) слоя;

для предыдущего слоя нейронной сети:

En (yn On )O n (1 On )WM OnM 1 (1 OnM 1 )OnM, (1.39) WM где: OnM - выходной сигнал М-2 слоя.

Аналогично для всех остальных слоев сети.

Если вид частных производных аналитически определить не удается, то пользуются приближенными формулами для численной оценки производных:

En En. (1.40) Wi Wi Рассмотренный алгоритм реализует процедуру градиентного метода наискорейшего спуска. Данный метод имеет линейную скорость сходимости, а также резкое замедление оптимизационного процесса в окрестности точки оптимального решения, что делает рассматриваемый алгоритм на практике малоэффективным. Тем не менее, благодаря своей простоте он остается одним из наиболее распространенных. Более эффективными методами настройки весов многослойной сети являются квазиньютоновские алгоритмы, например, методы переменной метрики (Бройдена-Флетчера Гольдфарба-Шенно, Девидона-Флетчера-Пауэлла) или Левенберга Марквардта.

При большом числе настраиваемых весов (десятки тысяч и более) очень хорошо зарекомендовал себя алгоритм сопряженных градиентов, хотя при меньшей размерности он уступает квазиньютоновским алгоритмам. Разработано также большое число алгоритмов эвристического типа, не имеющих строгого теоретического обоснования, но показавших свою эффективность на практике;

в качестве примеров таких алгоритмов можно привести: симплекс метод, Quickprop, RPROP и ряд других.

Как известно, перечисленные выше алгоритмы является алгоритмами локальной оптимизации, и для увеличения вероятности нахождения глобального экстремума необходимо проводить обучение несколько раз с разными начальными весами нейронов.

Для надежного нахождения глобального решения разработан ряд алгоритмов глобальной оптимизации, наиболее известными из которых являются метод имитации отжига и генетические алгоритмы.

Многослойные персептроны, с точки зрения математики выполняют аппроксимацию функции нескольких переменных путем преобразования множества входных переменных во множество выходных переменных. Вследствие характера сигмоидальной функции активации преобразование значения функции в произвольной точке пространства выполняется объединенными усилиями всех нейронов, что позволяет отнести многослойный персептрон к методам глобальной аппроксимации или параметрическим методам.

Другой способ отображения входного множества в выходное заключается в преобразовании путем адаптации нескольких одиночных аппроксимирующих функций к ожидаемым значениям, причем эта адаптация проводится только в ограниченной области многомерного пространства. При таком подходе отображение всего множества данных представляет собой сумму локальных преобразований.

Наиболее известными из НС, реализующих принцип локальной аппроксимации являются радиально-базисные нейронные сети или RBFN (от Radial Basis Function Network), в которых скрытые нейроны реализуют функции, радиально изменяющиеся вокруг выбранного центра и принимающие ненулевые значения только в окрестности этого центра.

RBFN – это двухслойная нейронная сеть. Первый слой данной сети состоит из так называемых радиальных нейронов. Нейроны данного слоя реализуют нелинейные зависимости в соответствии с соотношением:

x cr ), (1.41) or r ( x) ( r где o k – выходной сигнал r-го нейрона;

x – входной сигнал сети (данный сигнал подается на каждый нейрон рассматриваемого слоя);

r, c r – постоянные параметры, которые могут настраиваться в процессе обучения.

Часто в качестве ( ) используется функция Гаусса:

exp( s 2 / 2). В этом случае (s) x cr r ( x) exp( ). (1.42) 2 r Второй слой RBFN осуществляет линейное или нелинейное преобразование выходных сигналов первого слоя (в частности, если выходной сигнал сети – скаляр, данный слой состоит из одного нейрона).

Линейный выходной нейрон выполняет операцию взвешенного суммирования:

M y or wr. (1.43) k В общем случае процесс обучения RBFN сводится к определению ряда параметров:

1) числа нейронов входного слоя М;

2) координат центров c r и отклонений радиальных r базисных функций (см. формулу (1.41));

3) весов нейронов выходного слоя wk (см. формулу (1.43)).

Разработано большое количество алгоритмов настройки указанных параметров. Перечислим основные из них.

Настройка параметров c r и r может осуществляться методом обратного распространения ошибки, аналогично тому, как это происходит в сигмоидальных нейронных сетях, например, градиентным методом.

Кроме того, для определения координат центров c r могут использоваться алгоритмы обучения без учителя, помещающие центры радиальных функций в центры кластеров обучающих данных.

Для определения отклонений r также существуют различные эмпирические методы, использующие в качестве исходной информации расстояния между центрами радиальных функций.

wr Веса нейронов выходного слоя обычно входят линейно в выражение для выходного сигнала сети (см. формулу (1.43)), и их настройку можно осуществить с помощью формул для определения коэффициентов линейной регрессии по методу наименьших квадратов.

Наиболее сложным является выбор числа радиальных базисных функций M. Существует несколько методов выбора параметра М, однако данную задачу пока нельзя считать решенной.

В обобщенно-регрессионных нейронных сетях или GRNN (от Generalized Regression Neural Network), являющихся разновидностью RBFN, второй слой осуществляет взвешенное суммирование выходных сигналов первого слоя:

M or wr r y, (1.44) N or r где wr – веса, настраиваемые при обучении, M – число нейронов первого слоя, y – выходной сигнал сети.

Структура обобщенно-регрессионной нейронной сети показана на рисунке 1.6.

РБЧ – радиально-базисная часть БВС – блок взвешенного суммирования Рисунок 1.6 – Обобщенно-регрессионная нейронная сеть Достоинство обобщенно-регрессионной нейронной сети – очень простой алгоритм обучения.

Допустим, что обучающая выборка состоит из N пар значений i i x, y, i=1, 2, …N. В простейшем случае при обучении формируется радиальный слой из M=N нейронов с параметрами cr x i, а параметры второго слоя выбираются из условия wr y i. В описанном алгоритме обучение GRNN происходит практически мгновенно (один такт). Однако сеть получается достаточно громоздкой, поэтому разработаны алгоритмы обучения GRNN, в которых число радиальных нейронов меньше числа элементов обучающей выборки (MN). В одном из наиболее простых из указанных алгоритмов обучающая точка становится центром радиальной функции лишь только в том случае, если она расположена на расстоянии больше заданного от уже имеющихся в сети центров радиальных функций [32].

Для радиальных нейронных сетей доказано ряд теорем, согласно которым, данные сети, при выполнении определенных условий, могут аппроксимировать произвольную гладкую функцию.

Обычно RBFN обладают худшими обобщающими свойствами по сравнению с сигмоидальными нейронными сетями при больших объемах обучающей выборки. Особенно сильно это проявляется в задачах экстраполяции. Однако RBFN показали очень хорошие результаты, в случае если объем обучающей выборки мал. В RBFN нет проблемы выбора числа слоев сети. Кроме того, большинство алгоритмов обучения RBFN работают значительно быстрее по сравнению с алгоритмами обучения многослойных персептронов.

Приведенный обзор литературных источников позволяет сделать следующие выводы.

1. Под функциональной идентификацией понимается процедура определения зависимости между входными и выходными сигналами объекта на основе экспериментальных данных. Существует два подхода к функциональной идентификации: аналитический и аппроксимационный. При аналитическом подходе структура математической модели объекта строится на основе описания действующих в объекте закономерностей. Для сложных систем при аналитическом подходе возникает ряд трудностей: во-первых, невозможно учесть все закономерности, действующие в объекте, а пренебрежение рядом из них может существенно ухудшить точность модели;

во-вторых, после определения структуры модели необходимо провести определение ее параметров, что для сложного объекта является нетривиальной задачей. Указанные трудности привели к развитию так называемого аппроксимационного подхода к решению задачи идентификации. В данном случае связь вход – выход объекта аппроксимируется некоторой зависимостью (функцией или функционалом), в общем случае не базирующемся на процессах, происходящих в объекте, отражающей общий характер связи.

2. Аппроксимационные модели можно разделить на параметрические и непараметрические. При параметрическом подходе во всей области нахождения входных факторов выбирается одна аппроксимирующая зависимость между входами и выходами объекта, параметры которой определяются на основе экспериментальных данных. Достоинство параметрических моделей состоит в том, что, если аппроксимирующая зависимость выбрана правильно, т. е.

отражает основные тенденции связи «вход – выход», то точность модели может быть весьма высока даже при небольшом объеме и существенной зашумленности экспериментальных данных. В тоже время, для сложных объектов достаточно трудно подобрать единую для всей области действия входных факторов зависимость, а неверный ее выбор существенно снижает точность моделей. При непараметрическом подходе также строятся аппроксимирующие зависимости, но они не остаются постоянными, изменяются в зависимости от значений входов объекта. Достоинством непараметрического подхода являются хорошие аппроксимирующие свойства для сложных объектов. С другой стороны, непараметрический подход имеет ряд недостатков, в частности: плохие экстраполирующие свойства моделей и высокая чувствительность к шуму обучающей выборки.

3. Искусственные нейронные сети представляют собой алгоритмы обработки информации на основе большого числа однотипных элементов – искусственных нейронов. Достоинствами нейронных сетей являются: высокий параллелизм решения задач, позволяющий достигнуть быстродействия и надежности;

возможность легко изменять масштаб сети, путем выбора числа нейронов без изменения алгоритма обработки информации;

наличие разработанных высокоэффективных алгоритмов обучения. Различные нейросетевые парадигмы реализуют, как параметрические (например, полиномиальные нейронные сети, персептроны), так и не параметрические (например, сети с радиальными базисными элементами) аппроксимационные методы функциональной идентификации.

4. Перспективным представляется развитие гибридных нейросетевых алгоритмов функциональной идентификации, сочетающие достоинства различных подходов (параллелизм решения задач, возможность использовать уже разработанные высокоэффективные алгоритмы обучения, точность моделей при небольшом объеме и существенной зашумленности экспериментальных данных, хорошие аппроксимирующие свойства для сложных зависимостей).

1.5 Конкретизация задач исследования Предположим, что истинная модель исследуемого статического объекта в n -мерной области адекватно x представляется соотношением:

y (x ), (1.45) а динамического – yi ( xi ) (1.46) где ( ) – функция неизвестного вида;

, i – аддитивная случайная помеха (отражает действие неучитываемых факторов) с нулевым математическим ожиданием и неизвестным распределением на m, m, независящая от x и x i соответственно и имеющая значения в различных опытах независимые друг от друга;

для статического объекта: x x1, x2,..., xn T – векторный вход объекта, y – скалярный выход объекта;

для динамического объекта:

xi [ yi 1,..., yi l, ui, ui 1,..., ui l1 ]T ;

u i, y i – значения входного и выходного сигнала объекта соответственно, измеренные в эквидистантные (равноудаленные) моменты времени ti, i 1, 2,... ;

l, l1 – заданные целые положительные константы.

Отношение составляющей выхода модели (y и yi соответственно), обусловленное действием входных факторов, к шумовой (случайной) компоненте ( и i соответственно) намного превышает единицу.

Предположим далее, что функция ( ) представима в виде:

( x) p( x ) g ( x ), (1.47) где p(x ) – полиномиальная функция:

K p( x ) ak x1 x2... xn, (1.48) 1k 2k nk k a k – постоянные параметры, K – целый положительный параметр, – целые неотрицательные параметры;

g (x ) – нелинейная jk функция общего вида.

В области для функций и выполняется p(x ) g (x ) x соотношение:

S p( x ) S g ( x), (1.49) где S – функционал, возвращающий среднеквадратичное значение функции-аргумента в области x :

g ( x ) 2 dx p ( x ) 2 dx,. (1.50) x x S g (x) S p( x ) dx dx x x На объекте реализован эксперимент, заключающийся в регистрации N пар значений:

для статического случая – x i, yi, (1.50) для динамического случая – u i, yi, (1.51) где i 1, 2,..., N.

При этом значения x, y, u i и y i измерены без ошибок;

xi x, xi x.

Требуется на основе экспериментальных данных (1.50) или (1.51) восстановить неизвестную зависимость ( ) с максимально возможной точностью.

Для решения поставленной задачи необходимо:

1. Разработать нейросетевые методы идентификации сложных статических и динамических объектов, которые могут быть адекватно представлены моделями вида (1.45) и (1.46) при принятых допущениях.

2. Провести аналитическое исследование свойств и точности моделей, получаемых с использованием предложенных методов.

3. Разработать статистическую методику оценки точности полученных нейросетевых моделей.

4. Разработать метод получения модели сложного статического объекта требуемой точности с элементами планирования.

1.6 Выводы по главе Основные результаты настоящей главы можно отразить в следующих выводах.

Рассмотрены основные понятия теории идентификации.

1.

Описаны аналитический и аппроксимационный подходы построения математических моделей. Отмечается, что аналитические модели не всегда применимы при идентификации сложных объектов.

Рассмотрены основные группы методов, относящихся к аппроксимационному подходу: регрессионные модели, комбинаторные (методы группового учета аргументов), непараметрические и искусственные нейронные сети.

Рассмотрены параметрические и непараметрические 2.

аппроксимационные методы идентификации. Отмечается, что достоинством параметрических методов является высокая точность моделирования даже в случае небольшой или зашумленной обучающей выборки, если аппроксимируемая зависимость достаточно проста (например, представима полиномом невысокого порядка). В тоже время, в случае неудачно выбранной аппроксимирующей зависимости точность моделирования параметрическими методами часто неудовлетворительная. Достоинством непараметрических методов является отсутствие необходимости выбирать тип глобальной аппроксимирующей зависимости, что позволяет значительно увеличить точность моделирования сложных существенно нелинейных объектов. В тоже время, отклик модели в непараметрических методах определяется не всей, а лишь частью обучающей выборки, что делает такие модели мало эффективными при значительной зашумленности обучающей выборки.

Отмечается, что на практике часто моделируемая 3.

зависимость представляет собой сумму гладкой функции, аппроксимируемой полиномом невысокого порядка, и сложной негладкой нелинейной зависимости, что нивелирует достоинства как параметрического, так и непараметрического подходов. Сделан вывод о том, что в данном случае будут наиболее эффективны гибридные методы идентификации, выполненные на основе методов относящихся как к параметрическому, так и непараметрическому подходам.

Ввиду того, что в настоящее время большое развитие 4.

получили нейросетевые методы идентификации целесообразно решение научной задачи проводить на основе нейросетевого подхода, в частности, с использованием аппарата радиально-базисных нейронных сетей, как наиболее перспективного представителя непараметрических методов идентификации. В качестве параметрического метода идентификации для построения гибридного метода выбраны полиномиальные модели, которые широко распространены на практике благодаря возможности аналитически определять параметры модели на основе метода наименьших квадратов.

МОДЕЛИ СТАТИЧЕСКИХ ОБЪЕКТОВ НА ОСНОВЕ ОБОБЩЕННО-РЕГРЕССИОННЫХ НЕЙРОННЫХ СЕТЕЙ С ПОЛИНОМИАЛЬНОЙ КОРРЕКЦИЕЙ 2.1 Обобщенно-регрессионная нейронная сеть с полиномиальной коррекцией В работе [17] сформулирован принцип адекватности, согласно которому объект и его система моделирования или управления для наиболее оптимального решения задачи должны обладать рядом общих черт. В соответствии с принципом адекватности, для решения рассматриваемой задачи предложена обобщенно-регрессионная нейронная сеть с полиномиальной коррекцией (сокращенно GRNN PC от Generalized Regression Neural Network Polynomial Сorrection), структурно состоящая из радиально-базисной части (РБЧ), полиномиальной части (ПЧ) и блока взвешенного суммирования (БВС), см. рисунок 2.1.

Предложенная искусственная нейронная сеть реализует следующую нелинейную зависимость:

M r ( x) wr u П ( x) r, (2.1) y( x ) M r ( x) u r где wr – весовые коэффициенты, u – параметр, определяющий влияние полиномиальной и радиально-базисной частей на выход сети y, r (x ), П (x ) – функции, реализуемые радиальными нейронами и полиномиальной частью сети соответственно:

x cr, (2.2) r ( x ) exp L П ( x) bk x1 x2... xn, (2.3) 1k 2k nk k – евклидова векторная норма, – постоянные параметры, bk, c r, L – целый положительный параметр, – целые неотрицательные jk параметры.

РН r – радиальные нейроны, – блоки умножения, – блоки суммирования, – блок деления, k – пи-нейроны Рисунок 2.1 – Структура обобщенно-регрессионной нейронной сети с полиномиальной коррекцией (GRNN PC) Предположим, далее, что на объекте реализован эксперимент, заключающийся в регистрации N пар значений:

x i, y i, i 1, 2,..., N. (2.4) При этом значения x и y измеряются без ошибок;

x i x, x – некоторая n-мерная область.

Формирование GRNN PC на основе обучающей выборки (2.4) состоит в последовательной реализации трех этапов.

Этап 1. Формирование полиномиальной части сети, в предположении, что радиальнобазисная часть отсутствует ( u ). В рассматриваемом случае выражение (2.1) с учетом (2.3) принимает вид:

L L bk f k ( x ) b T f ( x ), (2.5) y( x ) П ( x) bk x1 x2... x n 1k 2k nk k1 k где b1 f1 ( x ) b2 f2 (x),, (2.6) b f (x)......

bL f L (x) f (x ) – вектор базисных функций [10].

Из формулы (2.6) видно, что формирование полиномиальной части заключается в определении количества пи-нейронов L (числа базисных функций) и значений параметров данных нейронов jk, а также весовых коэффициентов bk.

Структура полиномиальной зависимости может выбираться как на основе информации о предметной области, так и путем оптимизации вида данной зависимости, например, с использованием метода группового учета аргументов (МГУА) [4].

Этап 2. Формирование радиальнобазисной части сети, в предположении, что полиномиальная часть отсутствует (u = 0). В этом случае выражение (2.1) с учетом (2.2) принимает вид:

M x cr M exp wr r ( x ) wr r r1. (2.7) y( x ) РБЧ ( x ) M M x cr r ( x) exp r1 r Из соотношения (2.7) следует, что формирование радиальнобазисной части заключается в определении числа радиальных нейронов M, значений параметров c r и данных нейронов, а также весовых коэффициентов wr.

При формировании радиальнобазисной части сети могут использоваться методы, разработанные для создания и обучения GRNN сетей [22-26].

Этап 3. Настройка параметра u, определяющего соотношение между влиянием радиально-базисной и полиномиальной частей на выход сети.

В случае, если обучающая выборка содержит обучающие точки i i x, y, расположенные случайным образом в n-мерной области x, с положительной плотностью вероятностей 0, можно f (x ) использовать алгоритм формирования GRNN PC состоящий из следующих шагов.

Шаг 0 (предварительный). Обучающая выборка (2.4) разбивается на две части: собственно обучающую x l, y l, l 1, 2,..., L (2.8) и контрольную x h, y h, h 1, 2,..., H (2.9) выборки (H+L=N). Размер контрольной выборки N, где H заданный параметр 0, 1 ;

по умолчанию выбирается 0.2.

Устанавливается параметр R – минимально допустимое расстояние между центрами радиальных нейронов.

Шаг 1. Определение вектора параметров b полиномиальной части сети.

Вариант А. С использованием нерекуррентного метода наименьших квадратов (МНК) [10-14]:

(F T F ) FT y, b (2.10) где f T ( x1 ) y f T ( x2 ) y F,y. (2.11)...

...

T yN f ( xN ) Вариант B. С использованием рекуррентного МНК [10, 14]:

f ( xN 1 ) N f ( x N 1 ) bN, (2.12) bN bN yN 1 f T ( xN 1 ) N 1 f ( xN 1 ) где (F T F ), N f (xN 1) f T (xN 1), N1 N f (xN 1 ) f T (xN 1 ) N 1 E.

N1 N 1 f T (xN 1 ) N 1 f (xN 1 ) Шаг 2. Определение числа радиальных нейронов M, значений параметров c r и весов wr.

2.1. Устанавливаются переменные i=1 и M=0.

2.2. Из обучающей выборки извлекается элемент x i, yi и находится минимальное расстояние:

xi, Rmin min cr (2.13) r 1, 2,..., M где c r - центры радиальных нейронов. Если радиальных нейронов нет (M=0), считается Rmin.

Если R, то добавляется радиальный нейрон с 2.3. Rmin параметрами cM 1 x i, устанавливаются wM 1 y i и M =M+1.

(Идея такого просеивания обучающих точек предложена в работах [32, 51]).

Если i= N, то останов, иначе i=i+1 и переход к пункту 2.2.

2.4.

Шаг 3. Определение значения параметра отклонения радиальных нейронов.

Вариант А. С использованием эмпирической формулы [22-26]:

d, (2.14) 8 ln где d ( xmax xmin ) /(n M 1), x max и x min – максимальное и минимальное значения компонент входного вектора x соответственно.

При таком выборе параметра гауссовы функции принадлежности при регулярном расположении базисных функций в узлах равномерной сетки пересекаются на уровне 0.5.

Вид функций, реализуемых радиальными нейронами в случае, когда исследуемый объект имеет только один вход, полученных с использованием формулы (2.14), представлен на рисунке 2.2.

Вариант B. С использованием алгоритма оптимизации.

Нейронная сеть обучается на основе обучающей выборке (2.8), после чего параметр определяется путем минимизации ошибки на тестирующей выборке (2.9):

H ( y( x h, ) yh )2 min, (2.15) E( ) h где y ( x h, ) – отклик обученной сети при подаче на ее вход x h. Для решения задачи (2.15) используется метод золотого сечения [52, 53].

Рисунок 2.2 – Вид функций, реализуемых радиальными нейронами 4. Настройка параметра u.

Вариант А. С использованием алгоритма оптимизации.

Нейронная сеть обучается по обучающей выборке (2.8), после чего параметр u определяется путем минимизации ошибки на тестирующей выборке (2.9):

H u ( y( x h, u) y h ) E (u ) min, (2.16) h где y ( x h, u ) – отклик обученной сети при подаче на ее вход x h. Для решения задачи (2.16) используется метод золотого сечения [52, 53].

Вариант Б. С использованием эвристической формулы 0, E РБЧ 0.75E ПЧ E РБЧ u, E РБЧ 0.75E ПЧ, 0.75E РБЧ E ПЧ, (2.17) E ПЧ, 0.75E РБЧ E ПЧ H где E РБЧ – среднеквадратическая ошибка (x h ) y h ) ( РБЧ H h H h радиальнобазисной части сети, – y h ) E ПЧ ( П (x ) H h среднеквадратическая ошибка полиномиальной части сети, определенная по тестирующей выборке.

Рассмотрим метод золотого сечения, используемый при нахождении параметров и u [52, 53]. Предположим, необходимо найти минимум функции f (x) на отрезке a, b с заданной точностью. Метод золотого сечения состоит в реализации следующих шагов.

Шаг 1. Устанавливаются переменные: k=1,, L L2 1 L1, ak xmin, bk xmax.

Вычисляются значения:

x1 ak L1 (bk ak ), k (2.18) xk bk L1 (bk ak ), Fk1 f ( x1 ), k Fk2 f ( xk ).

Шаг 2. Если Fk1 Fk2, то ak, bk xk, ak x1 x1, ak L1 (bk ak 1 ), x k (2.19) k 1 1 1 1 k Fk1 1 ( x1 1 ) Fk2 1 Fk1, f, k иначе x1, bk ak bk, 1 k x1 1 2 xk, xk 1 bk L1 (bk ak 1 ), (2.20) k 1 Fk1 1 Fk2, Fk2 1 f ( xk 1 ).

Шаг 3. Проверяется критерий останова b a. Если указанный критерий не выполнен, то k=k+1 и переход к шагу 2. В противном случае, останов, решением считается (ak 1 bk 1 ) / 2.

Для упрощения поиска параметра u можно использовать модификацию предложенной GRNN PC, которая реализует зависимость:

П ( x), (2.21) y( x ) u1 РБЧ ( x ) u M r ( x) wr где – оператор, реализуемый радиальнобазисной r РБЧ ( x ) M r ( x) r частью сети.

На рисунке 2.3 приведена структура модифицированной обобщенно-регрессионной нейронной сети с полиномиальной коррекцией (M GRNN PC).

РН r – радиальные нейроны, – блоки умножения, – блоки суммирования, – блок деления, Пk– пи-нейроны Рисунок 2.3 – Структура модифицированной обобщенно регрессионной нейронной сети с полиномиальной коррекцией (M GRNN PC) Обучение полиномиальной и радиальнобазисной частей происходит аналогичным базовому варианту образом. Выбор параметров u1 и u2 может осуществляться двумя способами.

Вариант А. С использованием метода наименьших квадратов.

y y u (F T F ) FT, (2.22) u2...

yH ( x1 ) П (x ) РБЧ 2 (x 2 ) РБЧ ( x ) П F. (2.23)......

H H РБЧ ( x ) П (x ) Вариант Б. На основе взвешенного значения среднеквадратических ошибок полиномиальной и радиально-базисной части.

E ПЧ E РБЧ u1 u,, (2.24) E РБЧ E ПЧ E РБЧ E ПЧ где ЕРБЧ и ЕПЧ – такие же, как и в формуле (2.17).

2.2 Численное исследование обобщенно-регрессионных нейронных сетей с полиномиальной коррекцией Рассмотрим следующий пример. Предположим, что моделируемый объект описывается зависимостью вида (1.45), функция (x ) удовлетворяет условию (1.46) и имеет вид:

q [3 (1 x1 ) 2 exp( x ( x2 1) 2 ) 10 3 5 2 ( x) x1 x1 x2 exp( x1 x2 ) exp( ( x1 1) 2 2 2 x2 )] (1 q ) [ x1 x2 ], где q – постоянный параметр, q 0, 1.

Аддитивная помеха имеет нормальное распределение с математическим ожиданием M 0 и СКО.

Аппроксимация производится в области :

x x1 [ 3, 3];

x2 [ 3, 3].

Обучающая выборка (2.4) расположена в области x равномерно случайным образом и содержит 64 точки.

Тестирующая выборка содержит 400 точек, расположенных по равномерному закону в области x.

Использовались следующие методы построения моделей:

полиномиальная МНК модель 2-го порядка (LMS2);

обобщенно-регрессионная нейронная сеть (GRNN);

метод локальной аппроксимации с числом ближайших узлов М=5 (LA5);

многослойный персептрон со структурой 12-5-1 (MLP)).

обобщенно-регрессионная нейронная сеть с полиномиальной коррекцией (GRNN PC);

модифицированная обобщенно-регрессионная нейронная сеть с полиномиальной коррекцией (M GRNN PC).

В качестве полиномиальной части GRNN PC и M GRNN PC была выбрана структура, реализующая квадратичную зависимость:

A BT x xT C x.

f (x) (2.25) Использовались различные варианты алгоритма обучения GRNN PC и M GRNN PC:

GRNN PC AA – параметр определялся по эмпирической формуле (2.14), параметр u определялся методом оптимизации.

GRNN PC AB – параметр определялся по эмпирической формуле (2.14), параметр u определялся по эмпирической формуле (2.17);

GRNN PC BA – параметры и u определялись методом оптимизации;

GRNN PC BB – параметр определялся методом оптимизации, параметр u определялся по эмпирической формуле (2.17);

M GRNN PC AA – параметр определялся по эмпирической формуле (2.14), параметры u1 и u 2 определялись по эмпирической формуле (2.24).

M GRNN PC AB – параметр определялся по эмпирической формуле (2.14), параметры u1 и u 2 определялись по методу наименьших квадратов;

M GRNN PC BA – параметр определялся методом оптимизации, параметры u1 и u 2 определялись по методу наименьших квадратов;

M GRNN PC BB – параметр определялся методом оптимизации, параметры u1 и u 2 определялись по эмпирической формуле (2.24);

На рисунках 2.4 – 2.6 показаны графики среднеквадратичной ошибки моделей на тестовой выборке в зависимости от параметра q для разных методов и значений СКО шума: =0, =0,25 и =0, соответственно.

Рисунок 2.4 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума = Рисунок 2.5 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума =0, Рисунок 2.6 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума =0, Введем в рассмотрение среднюю ошибку модели по множеству значений параметра q:

q max E (q) dq, (2.26) Ecp qmax qmin q min где E (q) – среднеквадратичная ошибка модели в зависимости от параметра q.

Таблица 2.1 – Средняя ошибка моделей по множеству значений параметра q Полино- Локально- M Многослойный GRNN миальная аппроксимационная GRNN GRNN персептрон PC модель модель PC 0 1,08 0,88 0,94 0,76 0,59 0, 0,25 1,13 0,90 1,04 0,82 0,61 0, 0,50 1,32 0,92 1,11 0,91 0,68 0, Из приведенных графиков видно, что предложенная GRNN PC в среднем при различных значениях параметра q обеспечивает наилучшую точность моделирования из всех представленных методов.

При этом выбор параметра осуществляется по эмпирической формуле (2.14), параметр u – определяется методом оптимизации.

Однако следует заметить, что модели, полученные с использованием метода наименьших квадратов, а так же полученные с использованием обобщенно-регрессионных нейронных сетей (GRNN) дают лучший результат, чем предложенная гибридная нейронная сеть (GRNN PC) при значении параметра q=0 и q=1 соответственно.

Это связано с тем, что объем обучающей выборки невелик, вследствие чего исключение части обучающих точек приводит к ухудшению точности даваемых каждым из методов положенных в основу гибридной сети в отдельности, причем неодинаковому, а значит неадекватному выбору значения параметра u.

В приведенных примерах особенно это характерно при значении параметра q=1, так как радиально-базисная составляющая более чувствительна к уменьшению и так небольшого объема обучающей выборки.

С увеличением объема обучающей выборки указанное явление становится незначительным.

На рисунках 2.7 – 2.9 показаны графики среднеквадратичной ошибки моделей на тестовой выборке в зависимости от параметра q для разных вариантов обучения GRNN PC и значений СКО шума: =0, =0,25 и =0,5 соответственно.

Рисунок 2.7 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума = Рисунок 2.8 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума =0, Рисунок 2.9 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума =0, На рисунках 2.10 – 2.12 показаны графики среднеквадратичной ошибки моделей на тестовой выборке в зависимости от параметра q для разных вариантов обучения M GRNN PC и значений СКО шума:

=0, =0,25 и =0,5 соответственно.

Рисунок 2.10 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума = Рисунок 2.11 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума =0, Рисунок. 2.12 – Зависимость среднеквадратичной погрешности аппроксимации от параметра q при СКО шума =0, Из приведенных на рисунках 2.4 – 2.12 графиков видно, что при различных значениях параметра q наилучшую точность моделирования обеспечивается когда выбор параметра осуществляется по эмпирической формуле (2.14), параметр u – определяется методом оптимизации, при использовании модифицированной обобщенно регрессионной нейронной сети с полиномиальной коррекцией, когда параметры u1 и u 2 определяются по эмпирической формуле (2.24).

В дальнейшем будем полагать, что для обучения GRNN PC используется алгоритм, в котором выбор параметра осуществляется по эмпирической формуле (2.14), параметр u – определяется методом оптимизации, кроме случаев оговоренных отдельно.

2.3 Аналитическое исследование свойств обобщенно регрессионных нейронных сеть с полиномиальной коррекцией Проведем исследование свойств моделей, получаемых с использованием рассмотренного выше алгоритма формирования обобщенно-регрессионной нейронной сети с полиномиальной коррекцией.

Теорема 2.1. Пусть обучающие точки из выборки (2.4) расположены на n-мерном гиперкубе x с размером грани D, тогда число радиальных нейронов M, при работе алгоритма ограничено n D сверху величиной 1, т. е.

R n D. (2.27) M R Доказательство. Согласно шагу 2.3 в алгоритме обучения в радиально-базисную часть добавляются только те радиальные нейроны, центры которых отдалены от центров уже имеющихся радиальных нейронов более чем на R. Очевидно, максимальное число радиальных нейронов может быть добавлено при регулярном n D расположении обучающих точек с шагом R и составляет 1. Во R всех остальных случая число добавленных радиальных нейронов будет меньше указанной величины. Что и доказывает теорему.

Теорема 2.2 (теорема сходимости). Пусть обучающие точки из выборки (2.4) расположены на n-мерном гиперкубе x с размером грани L с плотностью распределения вероятности f (x ) 0, аппроксимируемая зависимость (x ) – непрерывная ограниченная на x неслучайная функция, такая, что, в алгоритме sup ( x ) x x обучения минимальное расстояние между точками R=0. Тогда для x с вероятностью p 1 выполняется соотношение:

x lim y( x ) ( x). (2.28) N Доказательство.

Алгоритм обучения GRNN PC состоит в независимом обучении радиально-базисной и полиномиальной частей сети. Независимо обучаемая радиально-базисная часть – это по сути обощенно регрессионная нейронная сеть (GRNN). В работе [24] показано, что при объеме обучающей выборки N и числе радиальных нейронов равному числу обучающих точек (R=0) GRNN дает оценку обобщенной регрессии [6], т. е.

M ( y ( x )) ( x). (2.29) Выражение (2.29) при отсутствии шума в обучающей выборке принимает вид:

y( x ) ( x) (2.30) с вероятностью p 1. При этом, очевидно, ошибка аппроксимации (2.16) достигает своего минимального значения при отсутствии полиномиальной части сети т. е. из u=0 следует E(u)=0. Откуда в свою очередь следует выражение (2.28), что и доказывает теорему.

2.4 Статистическая оценка ошибки моделирования с помощью обобщенно-регрессионных нейронных сеть с полиномиальной коррекцией Задача оценки точности модели, обычно, решается следующим образом. Обучающая выборка (2.4) случайным образом делится на, собственно, обучающую:

X l, Y l, l 1, 2,..., N1, (2.31) по которой и проводится обучение нейронной сети, и тестирующую:

X k, Y k, k 1, 2,..., N 2 (2.32) (объем тестирующей выборки (2.31) выбирается, обычно, во много раз меньше объема обучающей выборки (2.32), то есть N 2 N1 ), на основе которой производится оценка точности модели.

Рассмотрим ошибку модели:

Y Y, (2.33) где Y - выход объекта, Y – выход модели.

Ввиду наличия случайного шума погрешность модели можно считать случайной величиной. Максимальное абсолютное значение ошибки модели Max и среднеквадратическое отклонения (СКО) ошибки модели определяется формулами [56, 57]:

Max max, (2.34) x x m ) 2 f ( )d, ( (2.35) x где - область моделирования, f ( ) - плотность распределения, x – математическое ожидание.

m f ( )d x Точечные оценки и могут быть получены с Max помощью формул [56, 57]:

Max max, (2.36) k k 1, 2,... N N m ]2, (2.37) [ k N2 1 k где Y k, Y k и Y k – значения выхода объекта и модели в k-й Yk k N точке тестирующий выборки (2.32) соответственно, m.

k N2 k Описанные точечные оценки Max и часто не позволяют сделать однозначный вывод о качестве полученных моделей, преодолеть указанную сложность позволяют интервальные оценки, методика получения которых изложена ниже.

Для конкретизации метода построения интервальных оценок необходимо проверить гипотезу нормальности распределения величины. Проверка указанной гипотезы может быть проведена с помощью критерия 2 Пирсона [56, 57].

Сведем результаты опытов в J интервалов и оформим в виде статистического ряда (см. таблицу 2.2).

Таблица 2.2 – Статистический ряд распределения ошибки модели … ( 1, 2 ) ( 2, 3) ( J 1, J ) I … pJ p p p mj В таблице 2.2 приняты следующие обозначения:, где pj N m j – число попаданий ошибки модели в интервал ( j 1, j).

k На основе функции нормального закона распределения можно найти теоретические вероятности попадания в каждый интервал [55, 56]:

m ) ( yj 1 pj e d,j 1, 2,..., J. (2.38) yj Проверка согласованности нормального и статистического распределений производится на основе анализа расхождения между теоретическими вероятностями p j и наблюдаемыми частотами p j. В качестве меры расхождения используется взвешенную сумму квадратов отклонений:

p j )2 m j ) J J (pj (N2 p j ~2 N2. (2.39) pj N2 p j j1 j Распределение 2 зависит от параметра r, называемого числом степеней свободы распределения. Число степеней свободы r, определяемое согласно формуле:

r =L – R, (2.40) где R число независимых условий (связей).

Если выполняется условие 1 1 ~ 2, то закон распределения случайной величины соответствует нормальному закону распределения с доверительной вероятностью 1 [56, 57].

В зависимости от результатов проверки гипотезы нормальности распределения рассмотрим два случая.

1. Гипотеза нормальности распределения величины выполняется.

Доверительный интервал для ошибки модели выражается в виде [56, 57]:

m t m t, (2.41) 2 где - доверительная вероятность, t – 1, 2 нормальная функция распределения.

Из формулы (2.41) воспользовавшись свойствами функции модуль можно получить оценку максимальной абсолютной ошибки модели Max с доверительной вероятностью [69]:

Max m t, (2.42) Верхняя оценка значения СКО ошибки модели с заданным уровнем значимости определятся формулой [56, 57]:

( N 2 1) max. (2.43) где - значение закона распределения с ( N 2 1) p степенями свободы отвечающее вероятности - уровень p, значимости ( 3 1 3, 3 – доверительная вероятность).

2. Гипотеза нормальности не выполняется (закон распределения неизвестен).

На основании неравенства Чебышева можно записать [56, 57]:

P( m) ), (2.44) где P ( ) – вероятность выполнения условия, стоящего внутри скобок, – положительный параметр.

Проведя преобразования на основе (2.44) можно получить доверительный интервал для ошибки модели :

, (2.45) m m 4 где 4 - уровень значимости ( 4 1 4, 4 – доверительная вероятность).

В случае, когда для закона распределения случайной величины выполняется гипотеза симметричности, можно получить более точную оценку [57]:

2 m m. (2.46) 3 4 Метод проверки гипотезы симметричности закона распределения случайной величины описан в работе [58].

Для получения верхней оценки значения СКО ошибки модели с заданной доверительной вероятностью 5 можно воспользоваться следующей приближенной формулой [56]:

max 1t, (2.47) N2 где - доверительная вероятность, t –, 5 нормальная функция распределения.

Рассмотрим следующий пример. Выполним построение нейросетевых моделей и оценку их ошибки для объектов со структурой (1.46), описываемых следующими выражениями:

1.5 (1 x1 ) 2 exp( x12 1) 2 ) 5 x13 5 x2 exp( x 5 (x) ( x2 x1 x2 ) 1) exp( ( x1 1) 2 x2 ) + 0.5(x1 + x 2 ), x 2 [ 3,3], x2 [ 3,3], 10 2 ( x) 0.9 ( x1 3 x1 x2 x2 ), x2 ) x1 ) 100 ( x1 (1 2) x1 [ 3;

3], x2 [ 3;

3], 2 ( x) 12 0.6 x1 0.6 x2 6 cos( 2 x1 ) 6 cos( 2 x2 ) 3) (0.8 x1 1.2 x1 x2 ), x1 [ 3,3], x2 [ 3,3], при нормальном законе распределения аддитивной помехи (математическое ожидание m( ) 0, СКО ( ) ) и доверительных вероятностях... 0.95.

1 Для построения моделей использовались следующие методы:

обобщенно-регрессионная нейронная сеть (GRNN), обобщенно регрессионная нейронная сеть с полиномиальной коррекцией (GRNN PC), многослойный персептрон (MLP), сеть с радиальными базисными функциями и линейным выходным слоем (RBFN) [23, 32].

Объем обучающей выборки составлял N ( N1 2500, N 2 400 ). Точки из обучающей выборки располагались случайным образом с равномерным законом распределения.

Результаты вычислительного эксперимента приведены в таблице 2.3.

Таблица 2.3 – Интервальные оценки ошибок моделей Точечные Верхнее значение интервальных оценок оценки о нормальности закона Объект моделирования Выполнение гипотезы абсолютной ошибки распределения Тип модели СКО шума Max Max Max (формула (формула (формула Max (2.47)) (2.43)) (2.42)) принимается GRNN 1.1088 0.31414 0.33756 1.2681 0. GRNN принимается 0.90371 0.29575 0.3178 1.2095 0. PC 1) 0. принимается 1.9874 0. MLP 0.5581 2.1001 0. принимается 0.95475 0. RBFN 0.32365 1.2277 0. принимается 1.9513 0. GRNN 0.65817 2.4684 0. GRNN принимается 1.6494 0.56029 0.60206 2.2431 0. PC 2) 0. отвергается 3.8964 0. MLP - - 0. отвергается 4.3796 0. RBFN - - 0. принимается 0.92708 0. GRNN 0.36278 1.3585 0. GRNN принимается 0.98533 0.32759 0.35201 1.3143 0. PC 3) 0. принимается MLP 1.4168 0.4500 0.48355 1.8004 0. отвергается RBFN 1.7437 0.34407 - - 0. Из приведенного примера, а также большого количества других проведенных исследований можно сделать вывод, что практически всегда гипотеза нормальности распределения ошибки моделей на основе GRNN РС выполняется, что дает возможность оценивать указанные ошибки моделей с заданной доверительной вероятностью.

2.5 Планирование эксперимента для обучения обобщенно регрессионных нейронных сетей с полиномиальной коррекцией В случае наличия возможности проведения активного эксперимента для формирования GRNN PC можно использовать алгоритм, позволяющие строить модели статических объектов, удовлетворяющие заданной точности, идея, которого состоит в следующем.

Предположим необходимо построить модель статического объекта в области x представляющей собой n-мерный гиперкуб.

На первой стадии активного эксперимента реализуется план Бокса-Бенкена и на основе данных этого эксперимента строится полиномиальная часть сети [81, 82].

В планах Бокса-Бенкена каждый фактор может изменяться на трех уровнях, то есть каждый из факторов принимает значения -1, 0, +1. Планы Бокса-Бенкена представляют собой определенную выборку строк из матрицы плана полного факторного эксперимента (ПФЭ) 3 n.

Отличительной особенностью этих планов, является то обстоятельство, что в каждом опыте основной части плана отлично от нулевого значения лишь вполне определенное число факторов: всего два фактора, если n = 3, 4, 5, три фактора, когда n = 6, 7, 9 и четыре, если n = 10, 11, 12, 16.

Кроме того, в пределах некоторой группы опытов варьируется лишь это же количество факторов, а остальные в пределах этой группы опытов стабилизированы на нулевом уровне. Указанные особенности планов Бокса-Бенкена делает их в ряде случаев весьма удобными при практических применениях, упрощая и удешевляя эксперимент. При n = 4 и n =7 эти планы являются ротатабельными, а для прочих п – весьма близкими к ротатабельным.

Рассмотрим матрицу основной части спектра плана Бокса Бенкена. Для п = 3, 4, 5 это построение ясно из таблицы 2.4.

Таблица 2.4 – Матрица основной части спектра плана Бокса Бенкена для п = 3, 4, В таблице 2.4 использованы следующие обозначения вектор столбцов:

1 1 a1 a 1 1,,.

Для п = 6 и п = 7 матрицы основной части планов Бокса-Бенкена указаны соответственно в таблицах 2.4 и 2.5, где 1 1 1 1 1 1 1 1 b1 b2 b 1 1 1 1 1 1 1, 1, 1, 1.

Таблица 2.5 – Матрица основной части спектра плана Бокса Бенкена для п = Таблица 2.6 – Матрица основной части спектра плана Бокса Бенкена для п = Основная часть матрицы спектра плана Бокса-Бенкена дополняется нулевыми точками, количество которых N0 указано в таблице 2.7 (иногда в планах Бокса-Бенкена используется всего одна центральная точка). Там же приведено число точек основной части этих планов и суммарное число точек N.

Таблица 2.7 – Число точек плана Бокса-Бенкена Если гипотеза адекватности не выполняется, то факторное пространство дополнятся еще обучающими точками, после чего строится модель уже с привлечением, как полиномиальной, так и радиально-базисной части сети. На основе тестирующей выборки находится среднеквадратичная ошибка модели. Если указанная ошибка меньше заданной (критерий останова), то процесс построения модели завершен. В противном случае факторное пространство вновь увеличивается путем добавления обучающих точек между уже имеющимися, после чего цикл построения модели, проверки условия останова и добавления обучающих точек повторяется.

Приведем алгоритм.

Шаг 0. Выбирается вид полиномиальной зависимости, максимальное значение среднеквадратичной ошибки модели Emax, максимально допустимое число опытов N max, начальное число точек регулярной сетки на каждый вход p (общее число точек определяется как N p n, где n – число входов).

Шаг 1. Реализуется план Бокса-Бенкена.

В каждой из точек плана проводиться m параллельных опытов.

В результате имеем обучающую выборку:

xi, yi, i 1, 2,..., N, (2.48) где m yi i yk. (2.49) m k Шаг 2. Формирование GRNN PC на основе экспериментальных данных, полученных при реализации плана Бокса-Бенкена и проверка адекватности.

Формирование полиномиальной части GRNN PC осуществляется на основе обучающей выборки (2.48). Определение вектора параметров b полиномиальной части сети может осуществляться как с использованием нерекуррентного МНК, так и с использованием рекуррентного МНК.

Радиальнобазисная часть сети не содержит ни одного нейрона (M=0) и параметр u=1.

В связи с отсутствием радиальнобазисной части сети, вид GRNN PC сводится к виду регрессионной модели, следовательно, возможно использование процедуры проверки адекватности для регрессионной модели.

Проверка адекватности состоит, по сути дела, в выяснении соотношения между дисперсией адекватности N m yi y( x i ). (2.50) S ад N L i и оценкой дисперсии воспроизводимости значения выхода модели N m 1 2 i yi )2. (2.51) S вос ( yk N m 1k i Если эти оценки дисперсий однородны, то математическое описание адекватно представляет результаты опытов;

если же нет, то описание считается неадекватным. F-критерий Фишера позволяет проверить гипотезу об однородности двух выборочных дисперсий S ад 2 2 и S вос. В том случае, если S ад S вос критерий Фишера характеризуется отношением S ад F. (2.52) S вос Если вычисленное по результатам наблюдений эмпирическое значение критерия F меньше критического Fкр для соответствующих степеней свободы:

1 N L, N (m 1) (2.53) ад ад при заданном уровне значимости q ад (обычно q ад = 0,05), то гипотезу об адекватности принимают. В противном случае гипотезу отвергают и математическое описание признается неадекватным.

2 Если S ад S вос, то числитель и знаменатель в (2.52), а также 1 и в (2.53) просто меняются местами.

ад ад В случае выполнения гипотезы адекватности построенной модели формирование GRNN PC заканчивается.

Шаг 3. Реализация эксперимента.

Проводится эксперимент таким образом, чтобы точки результирующей обучающей выборки были расположены в узлах регулярной сетки в области определения входов, на основе которых строится обучающая выборка. Причем число точек на один вход было равным p. На основе проведенных опытов формируется обучающая выборка объемом N p n :

x i, y i, i 1, 2,..., N. (2.54) Проводится дополнительный набор опытов, в точках расположенных равномерно случайным образом в области определения входов, на основе которых строится тестирующая выборка объемом V, лежащим в диапазоне от 0.1 N до 0.25N:

x v, y v, v 1, 2,..., V. (2.55) На рисунке 2.14 представлен пример расположения обучающих точек для двух итераций при n=2. Изначально расположение точек соответствует ПФЭ 3 (p=3). После первой итерации p=5, после второй p=9.

Рисунок 2.14 – Пример расположения обучающих точек Шаг 4. Формирование GRNN PC.

На основе полученной обучающей выборке строится полиномиальная часть сети с использованием рекуррентного или не рекуррентного МНК.



Pages:   || 2 | 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.