авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |
-- [ Страница 1 ] --

ФГБОУ ВПО

«Уфимский государственный авиационный технический университет»

На правах рукописи

Исмагилов Нияз

Салаватович

ПОТРАЕКТОРНО-ДЕТЕРМИНИРОВАННЫЙ ПОДХОД К

ИССЛЕДОВАНИЮ СТОХАСТИЧЕСКИХ МОДЕЛЕЙ

УПРАВЛЯЕМЫХ СИСТЕМ

Специальность 05.13.18 – «Математическое моделирование,

численные методы и комплексы программ»

Диссертация на соискание ученой степени кандидата физико-математических наук

Научный руководитель:

д-р физ.-мат. наук, проф.

Ф.С. Насыров Уфа – 2014 2 Оглавление Введение 1 Постановка задачи 1.1 Общая постановка задачи...................... 1.2 Модель управления намоткой провода при случайных возмуще ниях коэффициента трения..................... 1.3 Оптимизация расходов при планировании производства..... 1.4 Модель оптимизации инвестирования и потребления на рынке с одним рискованным активом................... 2 Разработка аналитических методов исследования 2.1 Необходимые сведения........................ 2.1.1 Некоторые сведения из стохастического анализа..... 2.1.2 Симметричный интеграл и дифференциальные уравне ния с симметричным интегралом.............. 2.1.3 О детерминированной задаче оптимального управления. 2.1.4 О детерминированной задаче оптимального импульсного управления.......................... 2.2 Потраекторно-детерминированный подход к исследованию сто хастических моделей управляемых систем с управляемым сносом 2.2.1 Сведение стохастической задачи к классической детер минированной задаче оптимального управления..... 2.2.2 Модификация детерминированной задачи и неупрежда емость решений........................ 2.2.3 Некоторые обобщения.................... 2.2.4 О стохастическом подходе к задачам с потраекторным дифференциальным ограничением............. 2.3 Потраекторно-детерминированный подход к исследованию сто хастических моделей с управляемой диффузией......... 2.3.1 Сведение стохастической задачи к потраекторно детерминированной задаче оптимального импульсного управления.......................... 2.3.2 Модификация детерминированной задачи и неупрежда емость решений........................ 2.3.3 Обобщение результатов................... 3 Численно-аналитическое решение и моделирование тестовых примеров 3.1 Моделирование траекторий винеровского процесса........ 3.2 Численно-аналитическое решение задачи моделирования управ ления намоткой провода.





...................... 3.3 Численно-аналитическое решение задачи моделирования пла нирования производства....................... 3.4 Численно-аналитическое решение задачи моделирования опти мального инвестирования и потребления............. Заключение Список литературы Приложение. Листинги программ Введение Актуальность темы В различных сферах человеческой деятельности встречаются физиче ские, химические, биологические, экономические и иные системы, состоя ние которых изменяется со временем. При моделировании таких процессов, для описания динамики изменения состояния применяют дифференциальные уравнения. Обычно в роли таковых выступают обыкновенные дифференци альные уравнения, которые могут описать гладкое, либо кусочно-гладкое дви жение. Существует класс систем, которые могут быть подвержены управляе мому внешнему воздействию, изменяющему состояние системы и характер ее эволюции. Наличие возможности воздействия порождает естественную зада чу выбора такого воздействия, которое бы давало наилучший в каком-либо смысле результат. Иными словами, возникает задача оптимального управле ния. Решение задачи оптимального управления позволяет максимизировать извлекаемую из поведения системы выгоду или минимизировать возможные потери, например, максимизировать прибыль финансовой организации, мак симизировать пройденное расстояние средством передвижения, минимизиро вать энергетические либо финансовые затраты предприятия, минимизировать время достижения объектом конечной цели и так далее.

В реальности, однако, часто встречаются системы, динамика эволюции которых зависит от случайных факторов и носит негладкий характер, поэто му плохо поддается описанию обыкновенными дифференциальными уравне ниями, либо не поддаются таковому вообще. Кроме того, и величина приноси мого выигрыша от управления является случайной величиной. В большинстве случаев зависимость от случайных факторов носит характер «шума» и такие системы называют «зашумленными». Зашумленные системы имеют неглад кие траектории фазовых координат, которые зачастую могут быть описаны стохастическими дифференциальными уравнениями. Так как будущее пове дение стохастической системы заранее не известно, то и приносимый эффект носит вероятностный характер. Поэтому в задаче стохастического оптималь ного управления целью ставится поиск управляющего воздействия, которое минимизирует среднее значение потерь ([4, 8]).

В настоящей работе исследуются модели, описывающие стохастические управляемые системы и методы достижения оптимума в этих моделях.

теория оптимального управления Несмотря на то, что термин возник в конце 50-х, задачи, имеющие ту же природу, начали исследоваться намно го раньше. Вариационное исчисление, которое считается предшественником теории оптимального управления, возникло в XVII в. В 1685 г. Ньютон иссле довал задачу движения тела вращения в «редкой среде» с наименьшим со противлением (аэродинамическая задача Ньютона). Задача о брахистохроне, которая была поставлена Бернулли в 1696 г., решена Лейбницом, Ньютоном и вариационное исчисление был введен Эйлером в самим Бернулли. Сам термин 1756 г. В дальнейшем исследованием задачи вариационного исчисления зани мались такие ученые, как Эйлер, Лагранж, Гамильтон, Якоби, Вейерштрасс, Мейер, Больца. Считается, что к середине XX в. классическая теория вариа ционного исчисления была завершена [45].





Современная теория оптимального управления возникла после Второй мировой войны. В это время две независимые группы исследователей в США и СССР во главе с Р. Беллманом и Л.С. Понтрягином начали интенсивные исследования в области дифференциальных игр и теории управления. В ре зультате были получены два метода решения задач оптимального управления:

метод динамического программирования Беллмана [5] и принцип максимума Понтриягина [27].

Задачи, содержащие вероятностные составляющие, начали исследоваться еще на ранних стадиях развития современной теории оптимального управле ния. Возможно, первой работой, посвященной задаче стохастического управ ления, является статья Беллмана [32]. Позже принцип динамического про граммирования был перенесен на задачи со стохастическими дифференци альными уравнениями (в дальнейшем просто СДУ) Ито [57].

Долгое время динамическое программирование оставалось доминирую щим инструментом в исследовании задач оптимального управления стоха стическими дифференциальными уравнениями. К ранним результатам по переносу принципа максимума на стохастические задачи относятся рабо ты В.И. Аркина, И.В. Евстигнеева [2], В.И. Аркина, М.Т. Саксонова [3], H.J. Kushner [56], A. Bensoussan [33], U.G. Haussmann [47]. Одним из недостат ков указанных работ было то, что они были применимы только для невырож дающихся коэффициентов диффузии. В 1991 г. в работе S. Peng [64] удалось получить принцип максимума для задач с вырождающейся управляемой диф фузией. Результат Peng был дополнен и улучшен в работах X. Y. Zhou [78], A. Cadenillas, I. Karatzas [38].

Оба представленных подхода содержат задачи, которые часто оказыва ются довольно сложными для разрешения. В методе динамического програм мирования таковым является уравнение Гамильтона-Якоби-Беллмана, кото рое зачастую не имеет классического гладкого решения. Более того, функ ция выигрыша может оказаться недифференцируемой функцией. В принципе максимума сложность вызывает система прямых и обратных стохастических дифференциальных уравнений.

Однако, существует еще один, к настоящему моменту мало изученный, подход к решению задач стохастического оптимального управления. Основ ной идеей этого подхода является сведение стохастической задачи к детер минированной задаче оптимального управления. По всей видимости впервые данный подход был представлен в работе R. J. B. Wets [75], в которой иссле довалась взаимосвязь детерминированной и стохастической задачами опти мизации. В работе R. T. Rockafellar, R. J. B. Wets [67] уделено особое внима ние основной сложности при применении детерминированного подхода, ко торая заключается в необходимости обеспечения неупреждаемости решений стохастической задачи. Предложен метод, позволяющий при помощи множи телей Лагранжа строить неупреждающие решения. Позже исследования в этом направлении были продолжены в работе M. H. A. Davis [42], в которой исследованы линейные задачи с квадратичным функционалом качества. В работе M. H. A. Davis, G. Burstein [41] эти результаты были распространены на случай нелинейных уравнений и общего вида функционала качества, а в M. H. A. Davis, I. Karatzas [40] рассмотрены задачи оптимальной остановки.

Несмотря на все достоинства метода, изложенного в работе [41], применение этого метода вызывает некоторые сложности. Связано это в основном с тем, что для перехода в задаче управления к дифференциальному ограничению в виде обыкновенного дифференциального уравнения (в дальнейшем ОДУ), используется предложенное в [62] разложение решения СДУ. Для анализа де терминированной оптимизационной задачи используется метод динамическо го программирования, и в ходе доказательства основных утверждений авто рам приходится сталкиваться с уравнением Гамильтона-Якоби-Беллмана, для решения которого, приходится пользоваться результатами работ [76] и [72] по приближению решений СДУ решениями ОДУ, а также стохастический метод характеристик [55], которые приводят к довольно сложным вычислениям и сильным ограничениям.

В настоящее время существуют формулы для явного представления ре шения СДУ [26, 25], которые позволяют провести более простое разложение, чем упомянутое выше. При этом явная формула позволяет проделывать это и в тех задачах, в которых управляющая функция оказывает воздействие и на коэффициент диффузии. Кроме того, накладываемые на коэффициенты уравнения ограничения оказываются существенно ослабленными.

Другим преимуществом разложения решения при помощи указанных вы ше формул является относительная простота моделирования решений СДУ, которая обусловлена отсутствием необходимости численного решения стоха стических дифференциальных уравнений.

Проблемам численного интегрирования стохастичеких дифференциаль ных уравнений и задачам моделирования решений стохастических дифферен циальных уравнений посвящены работы Т.А. Авериной, C.C. Артемьева [1], Д.Ф. Кузнецова [22], Г.Н. Мильштейна [24], P.E. Kloeden, E. Platen [54] и дру гих ученых.

Как известно из [22], при численном интегрировании стохастических дифференциальных уравнений часто возникает проблема аппроксимации си стем повторных стохастических интегралов Ито, разрешение которой явля ется сложной задачей как с теоретической, так и с вычислительной точки зрения.

Таким образом, приведенные выше доводы позволяют судить о необхо димости и возможности разработки новых методов исследования стохастиче ских моделей управляемых процессов и решения задач стохастического опти мального управления.

Цель работы Целью настоящей работы является разработка методов моделирования стохастических управляемых систем, динамика которых описываются одно мерными стохастическими дифференциальными уравнениями, и построения оптимальных решений в стохастических задачах оптимального управления.

Поставленная цель достигается в результате решения следующих задач:

1. Выявление структуры решения для одномерных управляемых стоха стических дифференциальных уравнений с управлением, воздействую щим только на коэффициент сноса, и разработка нового аналитического потраекторно-детерминированного метода исследования стохастических моделей управления динамическими системами, основанного на этом раз ложении.

2. Разработка метода, позволяющего свести нелинейные задачи оптималь ного управления к линейным и выявление класса моделей, для которых такое сведение осуществимо.

3. Выявление структуры решения для одномерных управляемых стохасти ческих дифференциальных уравнений с управлением, которое кроме ко эффициента сноса также оказывает линейное воздействие на диффузию.

Разработка нового аналитического потраекторно-детерминированного метода исследования стохастических моделей управления динамически ми системами, основанного на этом разложении.

4. Разработка численно-аналитического способа построения оптимального решения в стохастических моделях управления системами, которые опи сываются одномерными обыкновенными стохастическими дифференци альными уравнениями с управляемом сносом и линейно управляемой диффузией.

Методы исследования Аналитические исследования проводились с использованием методов тео рии случайных процессов, обыкновенных дифференциальных уравнений, тео рий стохастического и детерминированного оптимального управления, теории импульсного оптимального управления, теории функций действительной пе ременной, функционального анализа и вычислительной математики. Для ре ализации численных алгоритмов использовался пакет Matlab.

На защиту выносятся 1. Новый аналитический потраекторно-детерминированный метод исследо вания стохастических моделей управления одномерными динамически ми системами, основанный на выявленной структуре решения управляе мых стохастических дифференциальных уравнений, в которых управле ние воздействует только на коэффициент сноса.

2. Новый аналитический метод, позволяющий свести нелинейные задачи оптимального управления к линейным в некотором классе стохастиче ских моделей управляемых систем.

3. Новый аналитический потраекторно-детерминированный метод исследо вания стохастических моделей управления одномерными динамическими системами, основанный на выявленной структуре решения управляемых стохастических дифференциальных уравнений с управлением, которое кроме коэффициента сноса также оказывает линейное воздействие на коэффициент диффузии.

4. Численно-аналитический способ построения оптимального решения в стохастических моделях управления системами, которые описывают ся одномерными обыкновенными стохастическими дифференциальными уравнениями с управляемым сносом и линейно управляемой диффузией.

Научная новизна 1. Разработан новый аналитический аппарат, позволяющий свести за дачи оптимального управления стохастическими дифференциальными уравнениями с управлением, сосредоточенным на коэффициенте сно са, к потраекторно-детерминированным задачам классического опти мального управления. Исследована проблема неупреждаемости и пред ложен новый метод, который позволяет достигать неупреждаемости в потраекторно-детерминированных задачах.

2. Разработан новый аналитический метод, который позволяет для некото рого класса стохастических задач оптимального управления свести нели нейные задачи управления с управляемым сносом к линейным задачам.

3. Разработан новый аналитический аппарат, позволяющий свести за дачи оптимального управления стохастическими дифференциальными уравнениями с управлением, оказывающим воздействие как на коэф фициент сноса, так и на коэффициент диффузии, к потраекторно детерминированным задачам оптимального импульсного управления.

Исследована проблема неупреждаемости и предложен новый ме тод, который позволяет достигать неупреждаемости в потраекторно детерминированных задачах.

4. Представлен новый численно-аналитический метод построения опти мального решения в стохастических моделях, динамика которых описы вается одномерными стохастическими дифференциальными уравнения ми, с управлением воздействующим на коэффициент сноса либо как на коэффициент сноса, так и на коэффициент диффузии, реализованный в виде программного комплекса Опубликованность результатов Основные результаты диссертации опубликованы в работах [10]–[19], [49], [50] в том числе 2 публикации в изданиях, рекомендованных ВАК, и 10 пуб ликаций в других изданиях.

Апробации работы Основные результаты диссертации были представлены и обсуждались на научных семинарах и конференциях, соответствующих профилю диссерта ции. В частности, были сделаны доклады:

1. на XV Международной конференции студентов, аспирантов и молодых ученых «Ломоносов» (г. Москва, 2008 г.);

2. на Международном молодежном научном форуме «ЛОМОНОСОВ 2010»(г. Москва, 2010 г.);

3. на Международном молодежном научном форуме «ЛОМОНОСОВ 2011» (г. Москва, 2011 г.);

4. на Большом семинаре кафедры теории вероятностей МГУ, руководи тель — академик РАН, профессор Ширяев А. Н. (г. Москва, 2012 г.);

5. на III Международной конференции «Оптимизация и приложения»

(ОПТИМА-2012) (Кошта-да-Капарика, Португалия, 2012 г.);

6. на Международном молодежном научном форуме «ЛОМОНОСОВ 2013» (г. Москва, 2013 г.);

7. на семинаре в Институте математики с ВЦ УНЦ РАН, руководитель — профессор Жибер А. В. (г. Уфа, 2014 г.);

8. на Большом семинаре кафедры теории вероятностей МГУ, руководи тель — академик РАН, профессор Ширяев А. Н. (г. Москва, 2014 г.);

9. на семинаре по теории вероятностей и случайным процессам кафедры математики УГАТУ, руководитель — профессор Насыров Ф. С. (г. Уфа, 2008– 2014 гг.);

Структура, объем и краткое содержание диссертации Диссертационная работа состоит из введения, 3 глав, разбитых на па раграфы, 12 рисунков, заключения, библиографического списка литературы, включающего 78 работы отечественных и зарубежных авторов, 1 приложе ния. Общий объем работы составляет 135 страницы.

Введение. Во введении обосновывается актуальность работы, сформу лированы ее цели и задачи. Кроме того, дан краткий обзор по тематике вопро са, сформулированы основные результаты, полученные в работе, излагается описание диссертации по главам.

Глава 1. Постановка задачи. В первой главе приведены описание ис следуемых в работе моделей и формулировка общей постановки задачи;

сфор мулированы тестовые примеры, на которых в главе 3 апробированы развива емые в основной части работы методы исследования.

Общая постановка задачи включает в себя формулировку стохастической задачи оптимального управления, которая заключается минимизации функ ционала [ ] () = E (,, ) + ( ) по множеству неупреждающих функций при условии = (,, ) + (,, ), 0 = 0.

Сформулированы определения допустимости и оптимальности управления.

Приведены сходства и различия с детерминированными задачами оптималь ного управления и пояснение требования неупреждаемости управляющих функций.

Первый из тестовых примеров представляет из себя модель процесса оп тимальной намотки провода на катушку [4, 20]. Одним из основных требова ний к этому процессу является постоянство линейной скорости движения про вода, которое необходимо для предотвращения провисания и обрыва провода.

Регулирование скорости намотки производится входным напряжением элек тродвигателя (управляющая величина), для которого зависимость вращаю щего момента от входного напряжения линейна. В процессе намотки увели чиваются момент инерции и радиус катушки. Угловая скорость (управляемая величина) должна изменяться таким образом, чтобы сохранялась линейная скорость движения кабеля. При этом на систему воздействуют внешние силы, имеющие случайный природу и характер гауссовского шума, что отражается в колебании значения силы трения вращения.

В работе [4] показано, что состояние системы описывается стохастиче ским дифференциальным уравнением = ( 1 () + ) + 1 (), () в котором — момент инерции катушки;

— коэффициент трения вра щения;

— коэффициент пропорциональности между вращающим момен = том двигателя и его входным напряжением;

— некоторая константа;

()(() ()) характеризует отклонение угловой скорости от номиналь = () () — отклоне ного значения и является фазовой координатой;

ние напряжения от номинального значения, управляющая функция. Качество управления оценивается при помощи функционала (() 1 () )2 + 2, [ ] () = E где — положительная константа. Первое слагаемое в последнем интеграле пропорционально кинетической энергии вращающейся катушки, а второе — электрической энергии, расходуемой электродвигателем.

В качестве второго примера рассматривается система, которая описывает процесс оптимизации расходов предприятия при планировании производства [70]. Рассматривается предприятие, выпускающее большие объемы однород ной продукции и использующее систему производство-хранение для управ ления колебанием потребительского спроса. Такая система состоит из завода изготовителя и склада, в котором хранится готовая продукция. Завод имеет оптимальный темп производства, отклонение от которого ведет к финансовым потерям. Кроме того, хранение продукции на складе тоже ведет к затратам, но предприятие имеет желание хранить некоторый запас продукции для того, чтобы компенсировать внезапно возрастающий уровень спроса.

Для описания уровня запасов используется стохастическое дифференци альное уравнение [70]:

= ( ) +, 0 = 0, где — уровень запасов, фазовая координата;

— уровень спроса, а — темп производства, управляющая функция. Шум в правой части уравнения может отражать как колебания уровня спроса, так и такие явления, как порча или возврат товара. Качество управления оценивается при помощи функци онала [ ] 2 ( ) ( ) + ( ) + min, = E где и — некоторые положительные константы. Смысл целевого функци онала заключается в том, что мы стремимся удержать уровень запасов как и темп производства возможно ближе можно ближе к желаемому значению ( )2 ( ).

к значению Квадратичные члены и задают потери возникающие при отклонении от целевых значений.

Третий пример описывает оптимизацию процессов инвестирования и по требления на рынке с одним рисковым активом [53]. В начальный момент времени инвестор, обладая некоторым состоянием, хочет инвестировать его.

Кроме того, инвестор имеет желание потреблять часть денег в течении неко торого планируемого промежутка времени (времени жизни) и иметь к концу планируемого периода возможно большую сумму денег (оставить наследство).

В расположении инвестора имеются два актива: безрисковый, измене ние стоимости которого описывается обыкновенным дифференциальным уравнением 0 () = ()0 (), 0 (0) = 0, () в котором — процентная ставка, и рисковый, стоимость которого из меняется согласно модели, предложенной Мертоном [59], и подчияется стоха стическому дифференциальному уравнению 1 () = 1 ()() + ()1 (), 1 (0) = 1 0, () () где — коэффициент роста, — коэффициент волотильности, который отражает колебания стоимости рискового актива. Пусть инвестор вкладыва, ет долю своих средств, равную в рисковый актив, а оставшуюся долю, 1, равную в безрисковый актив. В этом случае состояние инвестора описывается стохастическим дифференциальным уравнением [46] = () + (() ()) + (), в котором — скорость потребления. Задача инвестора состоит в том, что бы распределить свое состояние по двум видам активов и выбрать скорость потребления так, чтобы максимизировать функционал [ ] 2 ( ) max, = E 1 ( ) + который отражает полезность от потребления в течении жизни и оставленного наследства.

Глава 2. Разработка аналитических методов исследования. Во второй главе приведены необходимые сведения и основные теоретические ре зультаты данной работы.

В §2.1 изложены основные сведения, на которые опирается построение теоретического аппарата главы 2. Приводятся определения винеровского про цесса, семимартингала относительно заданного потока, определения согласо ванности процесса с потоком и неупреждаемости относительно потока. При ведены формулы, связывающие стохастические интегралы Ито и Стратонови ча. Приведена формула Ито в форме с интегралом Стратоновича для cadlag семимартингалов. Определены понятия стохастического дифференциального уравнения и решения задачи Коши. Для последней сформулирована теорема существования и единственности. Кроме того, вводится определение симмет ричного интеграла, приводятся условия его существования, а так же аналог формулы Ито для симметричных интегралов.

Сформулирована детерминированная задача классического оптимально го управления. Приведена теорема существования и единственности задачи Коши для обыкновенных дифференциальных уравнений с разрывной правой частью. Определены понятия допустимости и оптимальности управляющего процесса. В форме теоремы сформулирован принцип максимума Понтрягина.

Приведена постановка детерминированной задачи оптимального им пульсного управления и связанные с ней основные понятия. В виде теоремы приведена формулировка принципа максимума для оптимальных импульсных процессов.

В §2.2 приведены основные теоретические результаты, касающиеся по строения детерминированных задач оптимального управления, которые эк вивалентны стохастическим задачам управления с управлением, сконцентри рованным на коэффициенте сноса.

Рассматривается задача управления процессом, заданным одномерным стохастическим дифференциальным уравнением в форме Стратоновича = (,, ) + (, ), 0 = 0, (1) где — фазовая координата, — управляющая функция, одномерный сто хастический процесс. Целью управления является минимизация функционала потерь E( ) inf, (2).

по множеству всех неупреждающих процессов Пусть * (,, ) = (,, )+ 2 (, )(, ) и (, ) — функции Теорема 1.

удовлетворяющие условиями Липшица и линейного роста, т.е.

|* (,, )| + |(, )| (1 + ||), |* (,, ) * (,, )| + |(, ) (, )| | |, для, R, [0, ]. Пусть, кроме того, дважды непрерывно диффе ренцируема и отделена от нуля, то есть существует константа такая, что |(, )|. Тогда решение стохастического дифференциально го уравнения = (,, ) + (, ), с начальным условием 0 = 0 имеет вид = (, + ), где (, ) есть произвольное решение параметризованного ОДУ = (, ), а является решением потраекторной задачи Коши для ОДУ (, (, + ), ) (, + ) =, (3) (, (, + )) 0 = 1 (0, 0 ).

Здесь 1 (, ) — функция обратная к (, ) по.

Теорема 1 предоставляет явную формулу для решения уравнения (1), позволяя заменить дифференциально ограничение, заданное этим уравнени ем на ограничение, задаваемое обыкновенным дифференциальным уравнени ем (3), и тем самым получить эквивалентную задачу (, (, + ), ) (, + ) 0 = 1 (0, 0 ), =, (4) (, (, + )) E() = E((, + )) inf. (5) Пусть inf () ограничен снизу и достигается на некоторой Лемма 1.

измеримой функции. Тогда справедливо равенство inf E() = E inf (). (6) Лемма 1 утверждает, что минимизация среднего значения функциона ла равносильна усреднению потраекторного минимума в том случае, ко = гда минимизация проводится по множеству всех измеримых функций {(, ) : [0, ] R}. Теорема 1 совместно с леммой 1 позволяет запи сать потраекторно-детерминированную задачу оптимального управления ((, + )) inf (7) при условии (, (, + ), ) (, + ) 0 = 1 (0, 0 ), =, (8) (, (, + )) решение которой на неупреждающих функциях совпадает с решением задачи (1)–(2).

Для достижения неупреждаемости решений задачи (7)–(8) строится мо дифицированная задача оптимального управления, которая имеет вид () inf, ((, + )) + (9) 0 = 1 (0, 0 ).

= (,, ), (10) Здесь (, (, + ), ) (, + ) (,, ) =.

(, (, + )) ():

Приведена явная формула для множителя () = () (,, ) и доказано, что при таком выборе множителя решение задачи (9)–(10) явля ется неупреждающим.

В пункте 2.2.3 параграфа 2.2 приведены обобщения результатов для за дач, в которых функционал качества имеет интегральное слагаемое;

задачи, в которых источником шума выступает не винеровский процесс, а произволь ный семимартингал;

детерминированные задачи, в которых нерегулярность в правой части уравнения обусловлена наличием слагаемого, представляющего из себя симметричный интеграл по некоторой непрерывной функции неогра ниченной вариации.

В конце параграфа, в пункте 2.2.4, рассмотрен стохастический подход к задаче (4)–(6) с дифференциальным ограничением в форме ОДУ. Так как уравнение (4) может быть интерпретировано как СДУ с вырожденной диф фузией, то задачу (4)–(6) можно рассматривать как стохастическую задачу оптимального управления. К этой задаче применен принцип динамического программирования и построено уравнение Гамильтона-Якоби-Беллмана.

Далее рассмотрены случаи, при которых уравнение (4) линейно. Выявлен класс нелинейных задач, для которых новое дифференциальное ограничение в форме ОДУ оказывается линейным, а функционал качества является квад ратическим, то есть новая задача является линейно-квадратической задачей.

Также рассмотрены стохастические задачи со случайными коэффициен тами. Для них сформулирована теорема, аналогичная теореме 1 и выявлен класс нелинейных задач, которые могут быть сведены к линейным.

В §2.3 приведен метод построения потраекторно-детерминированной за дачи оптимального управления, эквивалентной стохастической задаче, в ко торой управляющая функция воздействует как на коэффициент сноса, так и на коэффициент диффузии.

, Рассматривается задача управления процессом заданным стохасти ческим дифференциальным уравнением вида = (,, ) + (, ), 0 = 0, (11) в котором — управляющая функция из класса неупреждающих функ ций ограниченной вариации. Задача управления заключается в минимизации функционала потерь E( ) inf. (12) Доказывается теорема, аналогичная теореме 1, которая дает явную формулу для решения стохастического дифференциального уравнения (11).

Пусть в уравнении функция (, ) дважды непрерывно (11) Теорема 2.

дифференцируема, ее частная производная (, ) ограничена, а сама функ ция отделена от нуля, то есть существует, такая что |(, )| 0.

Предположим далее, что функция * (,, ) = (,, ) + 2 (, )(, ) удовлетворяет условию Липшица по на R.

Пусть (, ) — произвольное решение параметризованного обыкновен ного дифференциального уравнения (, ) = (, ), а функция (,, ) : [0, ] R R R, определенная следующим выраже нием (, (, + ), ) (, + ) (,, ) =, (, (, + )) удовлетворяет условию Липшица по. Тогда решение уравнения мо (11) жет быть представлено в виде = (, + ), где — решение уравнения с мерами = (,, ) с начальным условием 0 = 1 (0, 0 ).

Так как лемма 1 остается справедливой для функционала (12), то приме няя ее и теорему 2, задачу (11)–(12) можно свести к потраекторно детерми нированной задаче оптимального импульсного управления следующего вида = (,, ), (0) = 0,, =, (13) (, ) inf.

Здесь — новое импульсное управление, рассматривается как фазовая (, ) : [0, ] R, координата, — множество измеримых функций имеющих ограниченную вариацию. Неупреждающие решения задачи (13) сов падают с решениями стохастической задачи (11)–(12).

Неупреждаемость детерминированной задачи достигается введением ин тегральных слагаемых в функционал потерь. Модифицированная задача име ет вид = (,, ), =, (14) = (), = (, ) + inf.

— новая фазовая координата, отвечающая интегральному слагаемому Здесь () в функционале потерь, — новый функционал потерь. Вид множителя задается формулой () = 1 () + 2 (), () где — известные функции, вычисляемые как решения задач Коши. До () казывается теорема, которая утверждает, что приведенный вид функции обеспечивает неупреждаемость решения задачи (14).

В конце параграфа 2.3 приведено обобщение результатов на задачи, ко торые содержат интегральное слагаемое в функционале качества [ ] (,, ) inf.

E = E ( ) + Далее, результаты обобщены на задачи, в которых присутствует два ви да управления — управление, воздействующее только на снос, и управление, воздействующее как на снос так и на диффузию [ ] (,,, ) + ( ) E = E inf 1, при условии = (,,, ) + (, ), 0 = 0.

Здесь — управление, воздействующее только на коэффициент сноса, — управление, воздействующее на оба коэффициента. Для этой задачи построе ны аналогичные потраекторно-детерминированная задача и ее модификация, обеспечивающая неупреждаемость решений.

Также приводится обобщение метода применительно к моделям, в кото рых источником шума в дифференциальном уравнении выступает произволь ный непрерывный семимартингал с траекториями неограниченной вариации.

Глава 3. Численно-аналитическое решение и моделирование те стовых примеров. В этой главе при помощи аналитических методов, раз работанных в главе 2, строятся численно-аналитические решения тестовых примеров, сформулированных в главе 1.

В §3.1 приведен алгоритм моделирования траекторий винеровского про цесса.

В §3.2 приведено построение численно-аналитического решения задачи оптимальной намотки провода, описанной в §1.2. Сначала задача переписыва ется через интеграл Стратоновича. Далее, к задаче применяются результаты параграфа §2.2 и приводится вид потраекторно-детерминированной задачи ( ), (), записывается модифицированная задача которая представляет из себя классическую задачу оптимального управления с обыкновенным диффе ренциальным уравнением в качестве дифференциального ограничения. Оп тимальное управление для линейно-квадратической задачи намотки провода = (), () имеет вид в котором — фазовая координата, а — решение некоторого уравнения Риккати. Задача Коши на уравнение Риккати решается методом Рунге-Кутта. Этим же методом строится численное реше ние для фазовой координаты модифицированной задачи. Для вычисления () множителя по схеме Эйлера строится численное решение задачи Коши., ().

на функцию Приведены рисунки с траекториями процессов и В §3.3 изложено построение численно-аналитического решения задачи оптимального планирования производства. Применены результаты §2.2 и ис ходная стохастическая задача сведена к потраекторно-детерминированной за (). Для последней построена модифицирована задача ( ). Для вычис даче ления траекторий фазовой координаты и управляющей функции использова но известное аналитическое оптимальное управление для исходной задачи, которое имеет вид управления с обратной связью. Для построения фазовой координаты модифицированной задачи численно решается задача Коши, для чего используется метод Рунге-Кутта. Тем же методом решается задача Коши (), (), для фунции а затем строится траектория множителя который ис ().

пользовался при модификации задачи Приведены рисунки, на которых изображены численные решения задачи при различных значениях коэффи циента диффузии.

Параграф 3.4 посвящен построению численно-аналитического решения задачи оптимального инвестирования и потребления. К задаче, сформули рованной в §1.4, применены теоретические результаты из §2.3. Построена потраекторно-детерминированная задача оптимального импульсного управ ления, решения которой на неупреждающих функциях совпадает с решением исходной задачи. Построена модифицированная задача, решения которой яв ляются неупреждающими функциями и совпадают с решением исходной за дачи. Модифицированная задача решена аналитически, вычислены фазовая,, 1 () траектория управляющие функций и а так же множители и 2 (), которые использовались при модификации детерминированной задачи.

Построены траектории указанных функций на смоделированной траектории винеровского процесса.

Основные результаты работы 1. Разработан новый аналитический метод построения решений одномер ных задач стохастического оптимального управления для уравнений с управляемым сносом, отличающийся тем, что стохастические задачи сво дятся к детерминированным задачам классического оптимального управ ления. Предложен метод, позволяющий строить решения потраекторно детерминированной задачи, которые являются неупреждающими и сов падают с решениями исходной стохастической задачи.

2. Предложен новый аналитический метод, позволяющий свести нелиней ные стохастические задачи оптимального управления к линейным в неко тором классе одномерных стохастических управляемых систем.

3. Разработан новый аналитический метод построения решений задач сто хастического оптимального управления для одномерных уравнений с управляемым сносом и диффузией к потраекторно-детерминированным задачам оптимального импульсного управления. Предложен метод, поз воляющий строить решения потраекторно-детерминированной задачи, которые являются неупреждающими и совпадают с решениями исход ной стохастической задачи.

4. На основе разработанных аналитических методов представлен и апро бирован на тестовых примерах способ численно-аналитического постро ения решений и моделирования процессов оптимального управления, в которых динамика процесса описывается стохастическим дифференци альным уравнением.

1 Постановка задачи В этом разделе приведено описание исследуемых в работе моделей. В пункте 1.1 сформулирована общая постановка задачи, в пунктах 1.2–1.4 при ведены формулировки тестовых примеров, на которых в главе 3 апробирова ны развиваемые в главе 2 методы исследования моделей.

1.1 Общая постановка задачи Исследуемые в настоящей работе модели являются динамическими, то есть изменяются со временем. Предполагается, что эти изменения содержат некую неопределенность и описываются стохастическими дифференциальны ми уравнениями Ито, которые иногда именуются диффузионными моделями.

Исследуемые модели являются управляемыми, то есть подверженными изме нениями со стороны контроллера, которому доступна информация о системе до некоторого момента времени. Задачей контроллера является выбор управ ляющего воздействия из доступного множества для достижения наилучшего ожидаемого результата. Такие задачи называются стохастическими задачами оптимального управления.

Общей чертой широкого класса стохастических задач оптимального управления являются наличие диффузионной системы, которая описывает ся стохастическим дифференциальным уравнением Ито, наличием множества решений (управляющих функций), которые воздействуют на систему и крите рия, который оценивает качество решения (управления). Целью управления является нахождение неупреждающей управляющей функции, которая удо влетворяет всем ограничениям и доставляет оптимум критерию качества.

Для задач стохастического оптимального управления широко известны две строгие постановки задачи: слабая и сильная. Здесь приведем только сильную постановку, так как именно она будет применяться в исследуемых моделях. Со слабой постановкой можно ознакомиться в работе [77].

Пусть на фиксированном фильтрованном вероятностном пространстве (, F, (F ) 0, P), на котором задано стандартное броуновское движение, рассматривается СДУ = (,, ) + (,, ), (15) 0 = 0, (16) : [0, ] R R, : [0, ] R R, где —заданное подмножество R, 0 и фиксировано. Функция называется управлением и отражает воздействие контроллера на систему.

Важным отличием стохастических задач оптимального управления от детерминированных является неупреждаемость управлений. Если в детерми () в любой момент времени нированных моделях при заданном управлении [0, ] поведение системы известно на всем отрезке времени управления [0, ], и при принятии решения о выборе оптимального управления можно ос новываться как на прошлом поведении системы, так и на будущем, то в случае стохастических моделей ситуация несколько иная, и контроллер не обладает такой свободой. В силу стохастической природы системы, которая обуслав ливает неопределенность будущего, в каждый момент времени контроллеру доступна информация о событиях, предшествующих моменту принятия ре шения (о прошлом поведении системы), и не доступна информация о буду щем поведении системы. Таким образом, в любой момент времени решение об управлении должно основываться на поведении системы до этого момента времени. Это ограничение формализуется в виде требования неупреждаемо.

сти (в смысле определения 2.1.1) управляющего процесса Все неупрежда [0, ] и будем искать ющие функции со значениями в будем обозначать принадлежащие этому множеству [0, ] { : [0, ] |-неупреждающя (F ) 0 } относительно Для оценки качества управления служит функционал потерь следующе го вида [ ] () = E (,, ) + ( ). (17) и — случайные функции, то потери, возникающие при заданном Так как управлении, так же носят случайный характер. Поэтому присутствующий в E (17) функционал математического ожидания усредняет потери и функци () онал отражает среднее значение потерь при выбранном управлении.

Для заданного вероятностного пространства ([77]).

Определение (, F, (F ) 0, P) и заданного на нем стандартного винеровского процесса управление называется допустимым, а пара (, ) — допустимой парой, если [0, ], является единственным решением (15)–(16), (,, ) и ( ) являются интегрируемыми функциями переменных (, ) и соответственно.

[0, ].

Множество всех допустимых управлений обозначим В сильной [0, ] формулировке задача состоит в том, чтобы найти управление такое, что () = inf ().

[0, ] существует, то оно называется оптимальным управ Если такое управление (, ) лением, а соответствующий процесс и пара называются оптималь ным процессом и оптимальной парой.

Для решения стохастических (равно как и детерминированных) задач оп тимального управления преимущественно используется два основных метода:

(стохастический) принцип максимума и (стохастический) метод динамическо го программирования. Формулировки этих методов присутствуют в [77, 21, 28] и в настоящей работе не приводятся.

В работе будут рассматриваться две модели управляемых систем, кото рые являются частным случаем модели, приведенной выше, в общей поста новке. Первая модель описывает системы, в которых управление оказывает воздействие только на коэффициент сноса. Вторая модель описывает систе мы, в которых управление также воздействует на коэффициент диффузии, но при этом это воздействие линейно. Детальная формулировка соответству ющих задач оптимального управления приведена в параграфах 2.2 и 2.3 со ответственно.

1.2 Модель управления намоткой провода при случайных возму щениях коэффициента трения Рассматривается механизм намотки провода на катушку [4, 20], изображенный на рисунке 1. Электродвигатель вращает катушку, на которую наматывается провод. Во избежание обрывов провода или его провисания скорость на мотки должна поддерживаться по стоянной. Во время намотки диа метр катушки увеличивается, что приводит к увеличению момента (). Для поддер инерции катушки жания постоянной линейной скоро () = сти намотки необходимо Рисунок 1: Механизм для намотки провода во время намотки уменьшать угло () вую скорость так, чтобы ()() = () = 0. (18) Уравнение вращения катушки имеет вид (()()) = () (). (19) () В уравнении (19) использованы обозначения: — напряжение на входе электродвигателя;

— коэффициент пропорциональности между вращаю щим моментом двигателя и его входным напряжением;

— коэффициент (), трения вращения. Управлением в данном случае является а регулируе (), мой величиной — которую необходимо менять так, чтобы выполнялось условие (18).

() () Найдем зависимость и от времени при постоянной скорости на 0. За время 1, необходимое для намотки одного ряда провода, радиус мотки 0 (1 ) изменится от до так, что 2 (1 ) 0 = 0 1, (20) — некоторый коэффициент, характеризующий привод. Из равенства (20) где 1 при получаем () = 0 +. (21) 4, Так как для круга радиуса момент инерции пропорционален то () = (0) + 1 (4 () 4 (0)). (22) () для угловой скорости определяется выражением Номинальное значение () = 0 1 (), () а номинальное управляющее напряжение есть ( ) 1 () = (() ()) + ().

() () Величины и принято называть невозмущенным решением. Для возмущенных значений соответствующих переменных () = ()(() ()), () = () () получаем уравнение () = 1 ()() + ().

В реальных ситуациях ряд величин, входящих в постановку задачи, изме няются случайным образом. Рассмотрим ситуацию, когда случайным флукту.

ациям подвержен коэффициент трения вращения При этом предполагает. Здесь ся, что коэффициент трения имеет вид — заданная констан та, а — белый шум, формальная производная стандартного винеровского процесса. Тогда получаем стохастическую задачу управления процессом = ( 1 () + ) + 1 (). (23) Критерий качества, подлежащий минимизации, имеет вид (() 1 () )2 + 2, [ ] () = E (24) — положительная константа. Первое слагаемое в интеграле (24) пропор где ционально кинетической энергии вращающейся катушки, а второе — электри ческой энергии, расходуемой электродвигателем.

1.3 Оптимизация расходов при планировании производства Многие предприятия используют системы производство-хранение для управления колебанием потребительского спроса. Такая система состоит из завода изготовителя и склада для хранения произведенной продукции, ко торая не была немедленно реализована. Как только продукция попадает на склад, она накладывает на производителя два вида потерь: во-первых, это стоимость физического хранения продукции, во-вторых, это издержки, свя занные с невозможностью инвестировать деньги, хранящиеся на складе в виде продукции. С другой стороны, хранящийся на складе запас позволяет немедленно реализовать продукцию при повышении спроса. Кроме того, на копление продукции на складе позволяет иметь менее крупное производство, накапливая продукцию во время спада спроса для возможности реализации продукции в момент повышения спроса. Задача оптимизации состоит в том, чтобы найти баланс между стоимостью хранения и стоимостью производства.

Впервые детерминированная задача управления производством была сформулирована в работах [60] в 1955 г. и [48] в 1960 г. для задач с дискрет ным и непрерывным временем соответственно. В дальнейшем были исследо ваны различные стохастические и детерминированные модели с дискретным и непрерывным временем. Среди них отметим работу [74], в которой иссле дуется задача с квадратичным функционалом качества, характеризующим потери, вызванные отклонением уровня производства и хранимой продукции от оптимального значения. Задача решена для конечного и бесконечного про межутков времени. Стохастическая модель рассмотрена в работах [71, 70], в которых получены решения для задач на конечном и бесконечном промежут ках времени без ограничения на управление и фазовую координату. В работе [34] решена задача на бесконечном промежутке времени с ограничениями на фазовую координату. В работах [44, 29] были исследованы также стохастиче ские модели, содержащие в себе различные дискретные события, такие как, например, поломка станков, резкое изменение уровня спроса.

В настоящей работе исследуется модель, представленная в [70]. Рассмат ривается предприятие, производящее большие объемы одного вида продук ции, которая может накапливаться на складе. Определим величины:

(фазовая — уровень запасов продукции на складе в момент времени переменная), — темп производства в момент времени (управляющая функция), 0, — постоянный уровень спроса, — планируемый промежуток времени, — целевой уровень запасов, — целевой темп производства, 0 — начальный уровень запасов, — коэффициент стоимости хранения продукции, — коэффициент стоимости производства, — стоимость утилизации единицы оставшейся на складе к моменту продукции, — стандартный винеровский процесс, — постоянный коэффициент диффузии.

В приведенных выше обозначениях модель строится следующим образом.

Уравнение изменения уровня запасов задается посредством стохастического дифференциального уравнения Ито = ( ) +, 0 = 0, (25) где — начальный уровень запасов. В уравнении (25) наличие стохасти ческого интеграла Ито может быть интерпретировано как, например, порча продукции либо возврат товара. Целевой функционал имеет вид [ ] 2 ( ) ( ) + ( ) +.

= E (26) Смысл целевого функционала заключается в том, что мы стремимся удер и темп про жать уровень запасов как можно ближе к желаемому значению ( ).

изводства возможно ближе к значению Квадратичные члены и ( )2 задают потери, возникающие при отклонении от целевых значений.

Следует отметить, что модель не подразумевает наличие ограничения на, неотрицательность функции другими словами, допускается распродажа 0).

либо утилизация продукции (т. е. Кроме того, модель допускает отрицательные значения для уровня запасов, что соответствует продаже с накоплением задолженности.

1.4 Модель оптимизации инвестирования и потребления на рынке с одним рискованным активом Впервые задача оптимального инвестирования и потребления в дискрет ном случае была рассмотрена Самуельсоном в [68]. Мертон в работах [58, 59] представил непрерывную формулировку. В работе [59] Мертоном были ис пользованы формула Ито и стохастический метод динамического програм мирования, получены уравнения Гамильтона-Якоби и явные формулы для его решения. Подход Мертона и его результаты в дальнейшем были обобще ны многими исследователями [37], [66], [43]. В работе [69] авторы указывают на некоторые недостатки в трудах Мертона и приводят уточнения и допол нения. В работе [52] представлено решение общей задачи инвестирования и потребления, получены явные формулы для функции выигрыша и функций потребления и инвестирования.

Указанные выше работы преимущественно используют стохастический метод динамического программирования. Другим подходом к решению зада чи является мартингальный метод, исследуемый в работах [53, 39]. В работе [53] исследована задача на конечном интервале времени с интегральным и терминальным функционалом качества. Задача решена для достаточно об щих функций полезности и коэффициентов уравнения. Для задач с посто янными коэффициентами получено решение в виде управлений с обратной связью.

Рассмотрим модель оптимального инвестирования и потребления, при веденную в [53]. Пусть инвестор, обладая некоторым состоянием, имеет же лание инвестировать свое состояние на некоторый промежуток времени (например, продолжительность жизни). Инвестор хочет потреблять средства в течении жизни и хочет оставить некоторую сумму в наследство.

Пусть для инвестирования доступны два финансовых актива — рисковый 0 () и безрисковый. Стоимость безрискового актива (вклад в банке) подчи няется обыкновенному дифференциальному уравнению 0 () = ()0 (), 0 (0) = 0, () 0 () где — процентная ставка. Очевидно, что растет со временем неслу чайным образом, поэтому этот вид вклада называется безрисковым.

Стоимость рискового актива предполагается изменяющейся по модели, предложенной Мертоном [59] и Блэком и Шоулсом [36], согласно которой сто 1 () имость рискового актива (стоимость акции) задается стохастическим дифференциальным уравнением 1 () = 1 ()() + ()1 (), 1 (0) = 1 0, (27) : [0, ] R, () 0 называется коэффициентом роста. Обычно предпо где () (), так как иначе в рисковый актив никто вкладываться лагается, что () : [0, ] R не будет. называется коэффициентом волотильности, кото 1.

рый отражает колебания стоимости рискового актива Предполагается, что (27) определено на некотором фильтрованном вероятностном простран (,, ( )0, P), стве на котором задан стандартный винеровский процесс.

.

Пусть обозначает состояние инвестора в момент времени Пусть 0 () и 1 () — число единиц безрискового и рискового активов соответствен но. Тогда = 0 ()0 () + 1 ()1 ().

— скорость потребления, тогда за промежуток времени состояние Пусть инвестора изменится на ( ) [ ] + = 0 () 0 ( + ) 0 () + 1 () 1 ( + ) 1 ().

Устремляя получим = 0 ()0 () + 1 ()1 () = ( ) = ()0 ()0 () + ()()1 () + 1 ()1 ()() = = () + (() ()) + (), : [0, ] [0, 1] здесь — часть состояния, которая инвестирована в рисковый актив. Приведенные выше рассуждения по построению дифферен циального уравнения на носят эвристический характер, более строгое и полное изложение содержится в [46]. Таким образом, состояние инвестора из меняется согласно стохастическому дифференциальному уравнению = () + (() ()) + (). (28) () () — ожидаемый до В этом уравнении, отражает риски, а ход от вложений денежных средств объемом в рисковый актив. Слагае (1 )() представляет прибыль, полученную из вложения денежных мое (1 ) (). Слагаемое средств объемом в банк с процентной ставкой.

отражает объем потраченных средств в течении времени Теперь мы можем сформулировать задачу инвестора. Необходимо найти функции и такие, чтобы достигал максимума целевой функционал [ ] 2 ( ) max.

= E 1 ( ) + (29) : (0, ) R являются возраста Предполагается, что функции полезности ющими, строго вогнутыми и непрерывно дифференцируемыми, отражает полезность от потребления, — от оставленного наследства.

2 Разработка аналитических методов исследования 2.1 Необходимые сведения В этом параграфе приведены основные сведения, необходимые для разра ботки численно-аналитического аппарата. В пунктах 2.1.1 и 2.1.2 кратко изло жены некоторые сведения из стохастического анализа, используемые в даль нейшем, и сведения о симметричных интегралах и содержащих их уравнени ях. Пункты 2.1.3 и 2.1.4 посвящены постановке задачи и формулировке прин ципа максимума для задач классического детерминированного оптимального управления и детерминированного импульсного оптимального управления со ответственно.

R = (, +), [0, ], 0 предполага Всюду в дальнейшем множества -алгебрами борелевских множеств, которые обозначают ются наделенными B B([0, ]);

ся соответственно и на этих подмножествах считается заданной (·).

мера Лебега 2.1.1 Некоторые сведения из стохастического анализа Все рассматриваемые в дальнейшем случайные процессы и случайные ве личины предполагаются заданными на полном вероятностном пространстве (, F, P). Когда речь идет о фильтрованном вероятностном пространстве (, F, (F ) 0, P), (F ) если не указано обратное, то фильтрация 0 предпо. Символом E лагается порожденной стандартным винеровским процессом P.

обозначает математическое ожидание по мере Винеровским процессом, или броуновским движением, Определение ([6]).

называется случайный процесс = {, 0} такой, что 0 = 0 п.н.;

процесс имеет независимые приращения;

величины имеют гаус совское распределение с параметрами 0 и.

(нормальное) Важнейшими характеристиками рассматриваемых далее процессов яв ляются согласованность и неупреждаемость процессов относительно потока -алгебр.

Случайный процесс называется согласованным с по Определение ([6]).

током (F ) 0, если при каждом [0, ], является F -измеримой слу чайной величиной.

Случайный процесс является неупреждаемым отно Определение ([6]).

и B([0, ]) сительно потока (F ) 0, если он согласован с потоком (F ) F -измерима по паре переменных (, ) [0, ].

Одним из важнейших классов случайных процессов в теории стохасти ческого интегрирования и стохастических дифференциальных уравнений яв ляются семимартингалы.

Согласованный с потоком (F ) процесс, траек Определение ([6]). тории которого непрерывны справа и имеют конечный предел слева (cadlag траектории), называется семимартингалом, если допускает гово (вообще ря, не единственное) представление = 0 + +, где — локальный мартингал потока (F ) с 0 = (относительно 0) 0, — согласованный процесс с траекториями ограниченной вариации (на каждом промежутке (0, ], 0) с 0 = 0.

Из последнего определения видно, что все мартингалы, локальные мар тингалы и согласованные процессы с траекториями ограниченной вариации являются семимартингалами.

Семимартингалы выделяются как класс «хороших интеграторов» в том смысле, что стохастические интегралы по этим функциям определены. Наи более часто используемыми интегралами являются интегралы Ито и Стра тоновича. Интеграл Ито процесса по семимартингалу будем обозна, а для интеграла Стратоновича будем использовать обозначе чать 0. Интегралы Ито и Стратоновича связаны соотношением (см.

ние [65]) + [, ], = (30) 0 [, ] где — непрерывная компонента процесса квадратической ковариации. = (, ), (, ) и Если где имеет непрерывную производную (, ), то (30) принимает вид 1 (, ) = (, ) + (, ). (31) 0 0 Известно [65], что интеграл Стратоновича по семимартингалам с траектори ями ограниченной вариации потраекторно совпадает с интегралом Лебега.

Важнейшим инструментом в стохастическом анализе является формула Ито, которая имеет различные варианты. Здесь приведем формулировку для разрывных семимартингалов с интегралом Стратоновича [65].

Пусть = ( 1,..., ) — -мерный семимар Теорема 3 (Формула Ито).

тингал и пусть : R R имеет непрерывные частные производные вто рого порядка. Тогда () является семимартингалом, и справедливо следу ющее равенство ( ) (0 ) = ( ) + = { } ( ) ( ) + ( ) 0 = Здесь обозначает предел слева, а =.

В настоящей работе рассматриваются модели, в которых движения со стоят из двух компонент: «гладкой» и «зашумленной». Такие движения часто описываются (обыкновенными) стохастическими дифференциальными урав нениями = (, ) + (, ), 0 =. (32) Здесь первое слагаемое отражает гладкое движение, второе — зашумленное.

Уравнение (32) понимается в интегральном смысле = + (, ) + (, ). (33) 0 Сильным решением СДУ заданном на вероят Определение ([51]). (32), ностном пространстве (, F, P), по отношению к фиксированному вине ровскому процессу с начальным условием называется процесс с непрерывными траекториями, обладающий следующими свойствами:

согласован с фильтрацией (F ) 0, P(0 = ) = 1, ( ) P 0 (|((, )| + (, )) = 1, п.н. удовлетворяет равенству (33).

Известно, что при выполнении условий Липшица и линейного роста на коэффициенты уравнения (32), существует единственное сильное решение этого уравнения [63, 6, 51].

Пусть коэффициенты уравнения удовлетворяют условиям (32) Теорема 4.

Липшица и линейного роста |(, ) (, )| + |(, ) (, )| | |, |(, )| + |(, )| (1 + ||), для, R, [0, ] и некоторых констант и. Пусть — случайная величина, не зависящая от винеровского процесса и интегрируемая с квадратом E 2.

Тогда существует единственное сильное решение задачи Коши кото (32), рое является непрерывным, согласованным с потоком (F ) и удовлетво ряет условию | |.

E 2.1.2 Симметричный интеграл и дифференциальные уравнения с симметричным интегралом Приведем определение симметричного интеграла и краткое изложение некоторых связанных понятий и сведений. Более подробно с симметричным интегралом и содержащими его дифференциальными уравнениями можно ознакомиться в работе [25].

(), [0, ) Пусть — произвольная непрерывная функция. Рассмот () () (),, [0, ]: = { }, 0 = 0 1 рим разбиения отрезка () ()...... =,, такие, что +1,, и () () = max 1 0 при. Через () (), [0, ], обозна () и отвечающую разбиению, а чим ломаную, построенную по функции () (, ) соответствующую ей индикатрису Банаха. Кроме того, будем через [ ] [ ] () () () () () () использовать следующие обозначения: = 1, = 1,, () () () = ( ) (1 ).

называется Определение. Симметричным интегралом 1 () (, () ()), (, ()) * () = lim () () 0 [ ] если предел в правой части равенства существует и не зависит от выбора последовательности разбиений,.

(), [0, ], (, ), [0, ], Будем говорить, что пара функций и условию (S) на [0, ],, удовлетворяют если:

(), [0, ], (a) Функция непрерывна;

функция (, ), [0, ], имеет ограниченное измене (b) При почти всех [0, ];

ние и непрерывна справа по 1(() = )| |(, ) = (c) При почти всех справедливо равенство | |(, ) 0, где при каждом функция есть полное изменение функции (, ) [0, ];

по переменной на отрезке | |(, ) (, ) (d) Полное изменение функции по переменной на отрезке [0, ].

локально суммируемо по (S) Известно [25, 26], что условие является достаточным условием су (, ) :

ществования симметричного интеграла. Кроме того, если функция [0, ] R R непрерывно дифференцируема, а пара ((), (, )) удовле (S), творяет условию то справедливо равенство (, ()) (0, (0)) = (, ()) * () + (, ()). (34) 0 () Из этого, в частности, следует, что если — траектория винеровского процесса, то симметричный интеграл потраекторно совпадает с интегралом Стратоновича.

() Для произвольной функции неограниченной вариации рассматри ваются дифференциальные уравнения вида () (0) = (, ()) * () + (, ()), (35) 0 которые являются детерминированными аналогами стохастических диффе ренциальных уравнений. Решением уравнения (35) называется функция вида () = (, ()), которая обращает интегральное равенство в тождество.

2.1.3 О детерминированной задаче оптимального управления В этом параграфе приведем постановку детерминированной задачи опти мального управления и необходимое условие оптимальности в виде принципа максимума. Приводимые ниже формулировки и обозначения позаимствованы из работы [7].

Пусть движение некоторого управляемого объекта описывается обыкно венным дифференциальным уравнением = (, 1,...,, 1,..., ), которое в векторной форме можно записать в виде = (,, ), — время, = (1,..., ) — величины, характеризующие движение объ где екта в зависимости от времени, называемые фазовыми координатами объекта, = (1,..., ) —параметры управления, выбором которых можно влиять на (,, ), = 1..., движение объекта;

функции описывающие внутреннее устройство объекта и учитывающие различные внешние факторы, предпола гаются известными.

= 0 (0) = Если в начальный момент времени задано условие и параметры управления определены как функции времени, то фазовые коор () 0 динаты объекта на отрезке определяются как решение задачи Коши () = (, (), ()), 0, (36) (0) = 0. (37) При этом управляющие функции предполагаются кусочно-непрерывными.

Кроме того, значения управлений не могут быть совершенно произвольными и подчиняются некоторым ограничениям. Такие ограничения можно описать условием () (), 0, (38) () — заданное множество из R [0, ], например () = где при каждом { : R, || }.

Отметим, однако, что при выборе кусочно-непрерывных функций в каче стве управлений непрерывной дифференцируемости от решений задачи (36)– (37) ожидать не приходится. Поэтому под решением задачи (36)–(37) пони мают абсолютно непрерывную функцию, удовлетворяющую интегральному равенству () = 0 + (, (), ()), 0.

Кусочная-непрерывность правой части уравнения (36), кроме того, не позволяет применить классические теоремы о существовании и единственно сти решений, так как не выполняется требование непрерывности правой части уравнения. Тем не менее, для задачи с разрывной правой частью доказаны соответствующие теоремы. Здесь приведем формулировку одной из них [7].

Пусть функция (,, ) определена и непрерывна по совокуп Теорема 5.

ности переменных при всех (,, ) [0, ] R R и пусть | (,, ) (,, )| ()| | при всех (,, ), (,, ) [0, ] R R, где () — неотрицательная ин тегрируемая на (0, ) функция. Тогда для любого ограниченного измеримого управления () и начального условия 0 задача имеет, и при том (36)–(37) единственное, решение = (), определенное на всем отрезке [0, ]. Это решение имеет существенно ограниченную производную () почти всюду на [0, ]и удовлетворяет уравнению при почти всех [0, ].

(36) Возвращаясь к постановке задачи оптимального управления, добавим, что наряду с ограничениями на управление могут присутствовать ограниче ния на фазовые координаты () (), 0. (39) Ограничения вида (39) называются фазовыми ограничениями. Кроме того, (0) отдельно выделяют ограничения, накладываемые на начальные значения ( ) («левый конец» траектории) и конечное значение («правый конец» тра ектории), которые наиболее часто записывают в виде ((0), ( )) ((0), ( )) = 0 = + 1....

0 = 1..., (0,, ) Набор называется допустимым или допустимым процессом, ес = (1,..., ) [0, ], ли управление определено и кусочно-непрерывно на = (1,..., ) удовлетворяет ограничению (38), а — траектория задачи, которая удовлетворяет фазовому ограничению (39).

Пусть на множестве допустимых наборов задан функционал качества 0 (, (), ()) + 0 ((0), ( )), () = (40) 0 (,, ) 0 (, ), R, ().

где и — заданные функции при Задача оптимального управления состоит в том, чтобы минимизировать функционал (40) на множестве допустимых наборов.

Обозначим * = inf (), где нижняя грань берется по всем допустимым наборам. Допустимый набор (*, * ) называется оптимальным процессом или решением задачи оптималь * * ного управления, называется оптимальным управлением, — оптималь ной траектории.

Сформулированную задачу оптимального управления можно кратко за писать в следующем виде.

Требуется минимизировать функционал 0 ((), (), ) + 0 (0, ( ), 0, ) (0, (·), 0, ) = (41) при условиях () = ((), (), ), 0 ;

(0 ) = 0, (42) (0, ( ), 0, ) 0, = 1,..., ;

(43) (0, ( ), 0, ) = 0, = + 1,...,, = (), (44) 0 где один из моментов или или оба эти моменты заранее неизвестны и () и траекторией () из усло подлежат определению вместе с управлением (,, ), = 0... (,,, ), = 0,..., вия минимума функции (41);

и R, R,, R, R, — заданные функции переменных. В задаче (41)–(44) множество R не зависит от времени и фазовые 0 ограничения при отсутствуют. В (43) не исключаются возможно = 0), сти, когда отсутствуют ограничения типа неравенств ( типа равенств = 1) = = 0).

( или все ограничения (43) ( Для формулировки принципа максимума введем функции (,,,, 0 ) = 0 0 (,, ) + 1 1 (,, ) + · · · + (,, ), (,,,, ) = 0 0 (,,, ) + 1 1 (,,, ) + · · · + (,,, );

(,,,, 0 ) — функция Гамильтона-Понтрягина, а (,,,, ) — ма где лый лагранжиан.

= () () = (,, 0 ) Пусть — кусочно-непрерывное управление, — решение задачи (42), соответствующее этому управлению и начальному усло 0. ((), ()), 0, вию Паре поставим в соответствие систему линей () = (1 (),..., ()):

ных дифференциальных уравнений относительно (,,, (), 0 ) () = |=(),=() = = 0 ((), (), ) () ((), (), ), 0, (45) = называемую сопряженной системой.

Пусть функции (,, ) = 0,..., ;

Теорема 6 (Принцип максимума).

(,,, ), = 0,..., имеют частные производные,,, = 1,..., ;

, и непрерывны вместе с этими производными по совокуп ности своих аргументов при R, R,, R, R,. Пусть (0, (· ), (· ), 0, ) – решение задачи управление (41), (44), (), [0, ], кусочно-непрерывно. Тогда необходимо существуют числа 0, 1,..., и вектор-функция () = (1 (),..., ()), [0, ], такие, что 1) = (0, 1,..., ) = 0, 0 0, 1 0,..., 0;

2) () является решением сопряженной системы соответствую (45), щей рассматриваемому решению (0, (· ), (· ));

3) для всех [0, ], являющихся точками непрерывности оптималь ного управления (· ), функция ((),,, (), 0 ) переменной = (1,..., ) достигает своей верхней грани на множестве при = (), т.е.

max ((),,, (), 0 ) = ((), (), (),, (), 0 );

4) выполнены условия трансверсальности:

(0 ) = (0, ( ), 0,, ) = (0, ( ), 0, ), (46) = ( ) = (0, ( ), 0,, ) = (0, ( ), 0, ), (47) = ((0 ), (0 + 0), 0, (0 ), 0 ) = = (0, ( ), 0,, ) = (0, ( ), 0, ) (48) = (если 0 закреплено, то условие отсутствует);

(48) (( ), ( 0),, ( ), 0 ) = = (0, ( ), 0,, ) = (0, ( ), 0, ) (49) = (если закреплено, то условие отсутствует) и условие дополня (49) ющей нежесткости (0, ( ), 0, ) = 0, = 1,...,. (50) Для практического использования принципа максимума рассматривают = (1,..., ), (,,,, 0 ) функцию как функцию переменных считая остальные переменные параметрами и решают задачу максимизации = (,,, 0 ), (,,,, 0 ). понтрягиана Отсюда находят функцию удается найти, на которой достигается верхняя грань. Если такую функцию тогда можно рассматривать систему из дифференциальных уравнений = (, (,,, 0 ), ), (51) = (, (,,, ),,, 0 ), 0, (·), (·). Общее решение системы (51) зависит от относительно неизвестных 2 0, 1,..., произвольных числовых параметров, кроме того, параметры 0, и моменты и встречающиеся в теореме, также неизвестны, поэтому для 2 + + определения всех неизвестных числовых параметров нам потребу 2 + + 3 условия. Условия трансверсальности (46)–(49) и дополняющей ется 2 + + нежесткости (50) дают нам уравнений, еще уравнений (0, ( )) = 0, =,..., вытекают из условий (43). В силу того, что теорема ограничивает значения 0,...,, 1,..., величин лишь с точностью до положительного множи теля, в качестве последнего условия можно взять 2 = 1.

|| = = 0 0, В тех задачах, в которых удается показать, что вместо последнего 0 = условия часто берут (подробнее см. [7]).

2.1.4 О детерминированной задаче оптимального импульсного управления Для удобства читателя в этом разделе приводится постановка задачи оп тимального импульсного управления и принцип максимума для импульсных процессов. Приводимые ниже формулировки и обозначения позаимствованы из работ [30, 31].

Задача оптимального импульсного управления ставится следующим об разом: () min, [0, 1 ], = (,, ) + (,, ), (52) = (0, 1 ), (,, ) ().

[0, 1 ] = (0, 1 ), 0 = Здесь, есть фиксированный интервал времени;

где (0 ), 1 = (1 ) вектор концевых значений;

есть замкнутое множество R2 ;

() [0, 1 ] в непрерывно отображает на замкнутые выпуклые подмно R ;

() жества — минимизируемый функционал стоимости;

— обычное = (,, {, }) управление и — импульсное управление (подробнее см.

[31]).

: R2 R1, : R R R1 R, : R R R1 R Функции R и : R R R1 R соответствуют следующим условиям. Функция (, ) измеримы по Лебегу для каждого (, ) по и ее частные производные по (, ) переменной и непрерывно дифференцируемы по равномерно по для. почти всех Функции и непрерывны по всем аргументам и непрерывно (, )., дифференцируемы по Каждая из функции и вместе со своими (, ) частными производными по локально ограничены.

= (,, {, }), Рассмотрим импульсное управление некоторое число R.

[0, 1 ] (·) = (·, ) и произвольный вектор Обозначим через решение следующей динамической системы [0, 1], () = ( (), (), ) (), (0) =.

() на интервале [0, 1 ] называется решени Функция ограниченной вариации (, ) ем дифференциального уравнения (52), соответствующим управлению (0, ] 0, (0 ) = и начальному условию если и для каждого выполня ется следующее равенство [ (1, ( )) ( )].

() = 0 + (,, ) + (,, ).. + 0 [0,1 ] (53)...

Здесь есть непрерывная компонента меры Заметим, что сумма в (53) корректно определена, так как существует не более чем счетное число точек, в которых не равен нулю.

Обозначим через функцию Понтрягина (,,, ) := (,, ), (,,, ) := (,, ).

и через векторную функцию В формулировке теоремы используется следующее обозначение: «крыш (,, ) ка» над функцией от переменных означает, что вместо пропущенных ( ),, () = переменных подставляются оптимальные значения например ( (), (), ) (, ) = ( (),, ).

или Аналогичное обозначение использу, ется для крышки и нижнего индекса означающее, что вместо пропущен ных переменных подставляются оптимальные значения в моменты скачков, () = ( (), (), ).

() например Кроме того, через обозначим нор мальный конус Мордуховича в (см. [30, 61]).

Пусть процесс (, ) оптимален в задаче и пара ( ),, (52) Теорема 7.

является регулярной Тогда существует число 0, вектор (см. [30]).

ная функция ограниченной вариации, измеримая векторная функция L ( ), () () (()) для п.в., и для каждой точки () суще ствует абсолютно непрерывная векторная функция и существенно огра ниченная векторная функция L ([0, 1]), () () ( ()) для п.в., определенные на интервале [0, 1] такие, что + || = 0, [0, 1 ], + | ()| = 0, [0, 1], (), () = (0 ) ((, )) ((, ), ),.. + 0 [0,1 ] [ (1) ( )], (0, 1 ], + ( )( ) + ():

() = () (), () = ( (), ), () + () (), (0) = ( ), (0) = ( ), [0, 1], (), ((0 ), (1 )) ( + ( ) ), max (, (), ) = ((), ), для п.в. [0, 1 ], () max max (, (), ), = 0, [0, 1 ], () max max (, (), ), = 0, для п.в. [0, 1], (), (54) () (( ), ),.. = 0, [0, 1 ], [0,]..

()(), для п.в. [0, 1 ], ((), ) + ((), ), = (( ), ),.. = 0, [0, 1 ], [0,] ( (), ), () = () (), для п.в. [0, 1], (), (55) где..,.. соответственно абсолютно непрерывная и сингулярная ком поненты меры.

Доказательство теоремы 7 приведено в работе [31].

2.2 Потраекторно-детерминированный подход к исследованию стохастических моделей управляемых систем с управляемым сносом В данном параграфе представлен новый детерминированный подход к исследованию стохастических моделей управляемых систем, в которых дина мика системы описывается одномерным стохастическим дифференциальным уравнением, содержащим управляющее воздействие только в коэффициенте сноса. Ниже будет приведена постановка задачи, которая является частным случаем общей постановки, приведенной в предыдущем параграфе. В пункте 2.2.1, применяя формулу для явного решения СДУ, мы покажем, что иссле дуемая стохастическая задача может быть сведена к потраекторной задаче и рассмотрена с детерминированной точки зрения. В пункте 2.2.2 мы покажем, что детерминированная задача может быть модифицирована таким образом, что решение модифицированной задачи будет неупреждающим и будет по траекторно совпадать с решением стохастической задачи.

2.2.1 Сведение стохастической задачи к классической детермини рованной задаче оптимального управления (, F, (F )0, P) — полное вероятностное пространство, наде Пусть ленное естественной фильтрацией одномерного стандартного винеровского, [0, ], 0.

процесса, Рассмотрим задачу управления одномерным процессом, заданным стохастическим дифференциальным уравнением = (,, ) + (, ), 0 = 0. (56) : [0, ] R : [0, ] Здесь — фазовая координата, — управляющая функция из класса неупреждающих функций, принимающих R;

: [0, ] R R R, :

значения на некотором множестве [0, ] R R 0 R.

— измеримые функции, — начальное значение Уравнение (56) записано с дифференциалом в форме Стратоновича, такая форма в дальнейшем будет наиболее удобной. Уравнения записанные в форме Ито, могут быть преобразованы к виду (56) по известным формулам.

Качество управления оценивается функционалом потерь, который зада ется в форме E() E( ), : R R где — суммируемая функция.

: [0, ] Обозначим через множество неупреждающих функций. Тогда задача управления заключается в минимизации функционала потерь на множестве функций E() = E( ) inf. (57) ().

Задачу (56)–(57) будем обозначать Приведем теорему о явном решении СДУ, которая является обобщением для управляемых уравнений аналогичного утверждения из [25].

Пусть * (,, ) = (,, )+ 2 (, )(, ) и (, ) — функции, Теорема 8.

удовлетворяющие условиями Липшица и линейного роста, т.е.

|* (,, )| + |(, )| (1 + ||), |* (,, ) * (,, )| + |(, ) (, )| | |, для, R, [0, ]. Пусть, кроме того, дважды непрерывно дифферен цируема по обоим переменным и отделена от нуля, то есть существует константа 0 такая, что |(, )|. Тогда решение стохастического дифференциального уравнения = (,, ) + (, ), (58) с начальным условием 0 = 0 имеет вид = (, + ), (59) где (, ) есть произвольное решение параметризованного ОДУ = (, ), (60) а является решением потраекторной задачи Коши для ОДУ (, (, + ), ) (, + ) =, (61) (, (, + )) 0 = 1 (0, 0 ). (62) Здесь 1 (, ) — функция обратная к (, ) по.

(, ) два раза дифференцируема, то из теоремы Доказательство. Так как о дифференцирумости решений обыкновенных дифференциальных уравне (, ), ний следует, что функция являющаяся решением (60), два раза диф ференцируем по обоим аргументам. Далее, является семимартингалом, в силу того, что эта функция, как решение задачи Коши (61)–(62) для диф ференциального уравнения со случайными коэффициентами, является согла сованным случайным процессом с траекториями ограниченной вариацией на = (, + ) конечных отрезках. Это позволяет применить к процессу формулу Ито (теорема 3, параграфа 2.1) (, + ) + (, + ) + (, + ).

= 0 + 0 0 Так как стохастический интеграл Стратоновича по процессу потраекторно совпадает с интегралом Лебега, имеем (, (, + ) + = 0 + + ) + (, + ) = + (, + ) + (, (, + )) + = 0 + 0 (, (, + ), ) (, + ) = + (, ).

= 0 + (,, ) + (63) 0 Здесь были использованы выражения (60) и (61) для производных и 0 = (0, 0 ) = соответственно, и равенство следующее из (59).

= (, + ) явля Полученное в (63) равенство означает, что процесс ется решением задачи (56)–(57). Но такое решение п.н. единственно, поэтому формула (59) справедлива для любого решения. Действительно, в силу фор мулы (31) перехода от интеграла Стратоновича к интегралу Ито, уравнение (58) может быть записано в виде = * (,, ) + (, ), 0 = 0.

Из липшицевости и линейного роста коэффициентов по теореме 4 следует, что существует п.н. единственное решение последнего уравнения, а следовательно и уравнения (58).

Доказанная теорема позволяет перейти от дифференциального ограни чения, накладываемого СДУ (56) к эквивалентному ограничению (61) при помощи замены (59). Преимущество уравнения (61) в том, что оно, хотя и содержит случайные функции, не имеет стохастических дифференциалов и для почти каждого может быть рассмотрено как детерминированное ОДУ. Замена (59) и переход к ОДУ позволяют записать задачу (56)–(57) в следующем эквивалентном виде E() = E((, + )) inf (64) при условии (, (, + ), ) (, + ) 0 = 1 (0, 0 ).

=, (65) (, (, + )) Теперь мы могли бы фиксировать и рассматривать задачу (64)– (65) с детерминированной точки зрения, то есть как классическую детерми нированную задачу оптимального управления. Однако при потраекторном рассмотрении выделение класса неупреждающих функций со значениями в ) (то есть, выделение множества становится не совсем тривиальной за дачей. Кроме того, наличие функционала математического ожидания в (64) не позволяет в полной мере рассматривать (64)–(65) как детерминированную задачу.

множество всех функций (, ) : [0, ], из Обозначим через -алгебры B([0, ]) F, где F = {, [0, ]}.

меримых относительно,.

Очевидно, что — класс более широкий чем то есть Рассмот рим расширение задачи (64)–(65) с множества управлений до множества. Очевидно, что при таком расширении уравнение (64) и функционал (65) смысла не теряют, хотя обратный переход к уравнению (56) становится невоз можным, ввиду неопределенности стохастического интеграла Ито для упре ждающих процессов, и эквивалентность задач теряется. Однако это позволяет нам не заботиться о неупреждаемости и воспользоваться следующей леммой для построения детерминированной задачи.

Пусть inf () ограничен снизу и достигается на некоторой Лемма 2.

измеримой функции. Тогда справедливо равенство inf E() = E inf (). (66) () = inf (), () Доказательство. Так как а для определено inf () в (64), то является измеримой функцией, и интеграл в правой части (66) имеет смысл. Утверждение леммы легко следует из неравенства E() E() для всех и вытекающего из него неравенства E() inf E().

Лемма 2 позволяет в задаче оптимального управления (64)–(65) по мно перейти от задачи с усредненным функционалом качества к задаче жеству с потраекторным функционалом качества. Действительно, усредненное зна чение точной нижней грани потраекторного функционала совпадает с точной нижней гранью усредненного функционала и оба инфимума достигаются на одной и той же функции.

Запишем задачу оптимального управления, которую будем называть за () дачей ((, + )) inf (67) при условии (, (, + ), ) (, + ) 0 = 1 (0, 0 ).



Pages:   || 2 | 3 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.