Википедия

Уравнение Беллмана

Уравнение Беллмана (также уравнение динамического программирования) — достаточное условие оптимальности в методах оптимизации динамического программирования, названное в честь Ричарда Эрнста Беллмана и основывающееся на принципе оптимальности Беллмана.

Описание

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных с начальными условиями, заданными для последнего момента времени (то есть справа), для функции Беллмана, которая выражает минимальное значение критерия оптимизации, которое может быть достигнуто, при условии эволюции системы из текущего состояния в некоторое конечное. А это в свою очередь позволяет перейти от решения исходной многошаговой задачи оптимизации к последовательному решению нескольких одношаговых задач оптимизации.

Понятие уравнения Беллмана и функции Беллмана обычно применяется для непрерывных систем. Для дискретных систем аналогом выступает рекуррентное соотношение Беллмана. Принцип оптимальности (см. ниже) позволяет в этом случае оптимальное планирование от конца к началу.

Формальные соотношения, выражающие достаточное условия оптимальности как для дискретных, так и для непрерывных систем могут быть записаны как для случая детерминированных, так и для случая стохастических динамических систем общего вида. Отличие заключается лишь в том, что для случая стохастических систем в правых частях этих выражений возникает условное математическое ожидание.

В контексте решения задачи оптимального управления можно выделить два подхода: численный и аналитический. Численный подход основан на использовании вычислительных процедур динамического программирования, в то время как аналитический подход связан с решением уравнения Беллмана. То есть, нелинейного уравнения в частных производных, которое имеет аналитическое решение лишь в простейших случаях.

Принцип оптимальности

Принцип оптимальности, подходящий как для непрерывных, так и дискретных систем является основополагающим в теории управления. Две формулировки:

Если управление оптимально, то, каковы бы ни были первоначальное состояние системы и управление системой в начальный момент времени, последующее управление оптимально относительно состояния, которое система примет в результате начального управления.

Указанное свойство можно сравнить с соответствующим свойством марковского процесса.

Оптимальное управление в любой момент времени не зависит от предыстории системы и определяется только состоянием системы в этот момент и целью управления.

Как следствие этого, оптимальное управление зависит только от текущего состояния системы. Последствия неоптимального управления в прошлом не могут быть исправлены в будущем.

Согласно принципу оптимальности, оптимальная стратегия гарантирует, что после первого решения последующие решения будут оптимальными относительно нового состояния, полученного в результате первоначального решения, независимо от начального состояния и начального решения.

Пример уравнения Беллмана из теории оптимального управления

Модель системы и управления

Рассмотрим уравнение состояния управляемой динамической системы:

image,

где:

image — время из интервала времени функционирования системы image,
image — вектор-функция состояния системы из пространства состояний (n-мерного евклидова пространства, image),
image — вектор-функция управления со значениями из пространства управлений image,
image — вектор-функция системы image.

Для упрощения изложения требования к гладкости функций и другие нюансы здесь и далее опущены.

Вектор начальных условий:

image,

где image не считается произвольным.

Определим функционал качества управления для минимизации:

image

где:

image и image — заданные непрерывно дифференцируемые функции.

Для получения управления используется текущее время image и состояние системы image:

image

Задача оптимального управления состоит в том, чтобы найти такую функцию image, которая минимизирует image:

image

где:

image,
D — множество допустимых управлений с учетом image и image, то есть, ограничение на возможные image.

Функция оптимального управления image для любого начального image дает оптимальный процесс: оптимальное управление image и оптимальную траекторию image.

Уравнение Беллмана

Если существует функция image, непрерывно дифференцируемая по image и image на image, удовлетворяющая уравнению Беллмана:

image

и граничному условию

image,

то управление

image,

является оптимальным управлением с полной обратной связью.

См. также

  • Принцип максимума Понтрягина

Примечания

Литература

  • Рачков М. Ю. Оптимальное управление в технических системах. — 2-е изд., испр. и доп. — Москва: Юрайт, 2023. — С. 53—59. — 120 с. — ISBN 978-5-534-09144-1.
  • Семенов В. В., Пантелеев А. В., Бортаковский А. С. Математическая теория управления в примерах и задачах. — Прикладная математика в примерах и задачах. — МАИ, 1997. — С. 214—216. — ISBN 9785703513941.
  • Ванько В. И., Ермошина О. В., Кувыркин Г. Н. Вариационное исчисление и оптимальное управление. — Математика в техническом университете. — МГТУ им. Н.Э. Баумана, 2006. — ISBN 5-7038-2627-6.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Уравнение Беллмана, Что такое Уравнение Беллмана? Что означает Уравнение Беллмана?

Uravnenie Bellmana takzhe uravnenie dinamicheskogo programmirovaniya dostatochnoe uslovie optimalnosti v metodah optimizacii dinamicheskogo programmirovaniya nazvannoe v chest Richarda Ernsta Bellmana i osnovyvayusheesya na principe optimalnosti Bellmana OpisanieUravnenie Bellmana predstavlyaet soboj differencialnoe uravnenie v chastnyh proizvodnyh s nachalnymi usloviyami zadannymi dlya poslednego momenta vremeni to est sprava dlya funkcii Bellmana kotoraya vyrazhaet minimalnoe znachenie kriteriya optimizacii kotoroe mozhet byt dostignuto pri uslovii evolyucii sistemy iz tekushego sostoyaniya v nekotoroe konechnoe A eto v svoyu ochered pozvolyaet perejti ot resheniya ishodnoj mnogoshagovoj zadachi optimizacii k posledovatelnomu resheniyu neskolkih odnoshagovyh zadach optimizacii Ponyatie uravneniya Bellmana i funkcii Bellmana obychno primenyaetsya dlya nepreryvnyh sistem Dlya diskretnyh sistem analogom vystupaet rekurrentnoe sootnoshenie Bellmana Princip optimalnosti sm nizhe pozvolyaet v etom sluchae optimalnoe planirovanie ot konca k nachalu Formalnye sootnosheniya vyrazhayushie dostatochnoe usloviya optimalnosti kak dlya diskretnyh tak i dlya nepreryvnyh sistem mogut byt zapisany kak dlya sluchaya determinirovannyh tak i dlya sluchaya stohasticheskih dinamicheskih sistem obshego vida Otlichie zaklyuchaetsya lish v tom chto dlya sluchaya stohasticheskih sistem v pravyh chastyah etih vyrazhenij voznikaet uslovnoe matematicheskoe ozhidanie V kontekste resheniya zadachi optimalnogo upravleniya mozhno vydelit dva podhoda chislennyj i analiticheskij Chislennyj podhod osnovan na ispolzovanii vychislitelnyh procedur dinamicheskogo programmirovaniya v to vremya kak analiticheskij podhod svyazan s resheniem uravneniya Bellmana To est nelinejnogo uravneniya v chastnyh proizvodnyh kotoroe imeet analiticheskoe reshenie lish v prostejshih sluchayah Princip optimalnostiPrincip optimalnosti podhodyashij kak dlya nepreryvnyh tak i diskretnyh sistem yavlyaetsya osnovopolagayushim v teorii upravleniya Dve formulirovki Esli upravlenie optimalno to kakovy by ni byli pervonachalnoe sostoyanie sistemy i upravlenie sistemoj v nachalnyj moment vremeni posleduyushee upravlenie optimalno otnositelno sostoyaniya kotoroe sistema primet v rezultate nachalnogo upravleniya Ukazannoe svojstvo mozhno sravnit s sootvetstvuyushim svojstvom markovskogo processa Optimalnoe upravlenie v lyuboj moment vremeni ne zavisit ot predystorii sistemy i opredelyaetsya tolko sostoyaniem sistemy v etot moment i celyu upravleniya Kak sledstvie etogo optimalnoe upravlenie zavisit tolko ot tekushego sostoyaniya sistemy Posledstviya neoptimalnogo upravleniya v proshlom ne mogut byt ispravleny v budushem Soglasno principu optimalnosti optimalnaya strategiya garantiruet chto posle pervogo resheniya posleduyushie resheniya budut optimalnymi otnositelno novogo sostoyaniya poluchennogo v rezultate pervonachalnogo resheniya nezavisimo ot nachalnogo sostoyaniya i nachalnogo resheniya Primer uravneniya Bellmana iz teorii optimalnogo upravleniyaModel sistemy i upravleniya Rassmotrim uravnenie sostoyaniya upravlyaemoj dinamicheskoj sistemy x t f t x t u t displaystyle dot x t f t x t u t gde t displaystyle t vremya iz intervala vremeni funkcionirovaniya sistemy t T t0 t1 displaystyle t in T t 0 t 1 x displaystyle x vektor funkciya sostoyaniya sistemy iz prostranstva sostoyanij n mernogo evklidova prostranstva Rn displaystyle mathbb R n u displaystyle u vektor funkciya upravleniya so znacheniyami iz prostranstva upravlenij U Rn displaystyle U subseteq mathbb R n f displaystyle f vektor funkciya sistemy T Rn U Rn displaystyle T times mathbb R n times U to mathbb R n Dlya uprosheniya izlozheniya trebovaniya k gladkosti funkcij i drugie nyuansy zdes i dalee opusheny Vektor nachalnyh uslovij x t0 x0 Rn displaystyle x t 0 x 0 in mathbb R n gde x0 displaystyle x 0 ne schitaetsya proizvolnym Opredelim funkcional kachestva upravleniya dlya minimizacii I x u t0t1g x t u t t dt F x t displaystyle I x u int t 0 t 1 g x t u t t dt F x t gde F displaystyle F i g displaystyle g zadannye nepreryvno differenciruemye funkcii Dlya polucheniya upravleniya ispolzuetsya tekushee vremya t displaystyle t i sostoyanie sistemy x displaystyle x u t u t x t displaystyle u t u t x t Zadacha optimalnogo upravleniya sostoit v tom chtoby najti takuyu funkciyu u t x displaystyle u t x kotoraya minimiziruet I x u displaystyle I x u x0I x u minDI x u displaystyle forall x 0 quad I x u min D I x u gde x u u x displaystyle x cdot u cdot u cdot x cdot D mnozhestvo dopustimyh upravlenij s uchetom t0 displaystyle t 0 i x0 displaystyle x 0 to est ogranichenie na vozmozhnye x u displaystyle x cdot u cdot Funkciya optimalnogo upravleniya u t x displaystyle u t x dlya lyubogo nachalnogo x0 displaystyle x 0 daet optimalnyj process optimalnoe upravlenie u displaystyle u cdot i optimalnuyu traektoriyu x displaystyle x cdot Uravnenie Bellmana Esli sushestvuet funkciya w t x displaystyle omega t x nepreryvno differenciruemaya po t displaystyle t i x displaystyle x na t0 t1 Rn displaystyle t 0 t 1 times mathbb R n udovletvoryayushaya uravneniyu Bellmana maxu U w t x t w t x x f t x u g t x u 0 displaystyle max limits u in U left frac partial omega t x partial t frac partial omega t x partial x cdot f t x u g t x u right 0 i granichnomu usloviyu x Rnw t1 x F x displaystyle forall x in mathbb R n quad omega t 1 x F x to upravlenie u t x arg maxu U w t x x f t x u g t x u displaystyle u t x arg max limits u in U left frac partial omega t x partial x cdot f t x u g t x u right yavlyaetsya optimalnym upravleniem s polnoj obratnoj svyazyu Sm takzhePrincip maksimuma PontryaginaPrimechaniyaVanko i dr 2006 Rachkov 2023 Semenov i dr 1997 LiteraturaRachkov M Yu Optimalnoe upravlenie v tehnicheskih sistemah 2 e izd ispr i dop Moskva Yurajt 2023 S 53 59 120 s ISBN 978 5 534 09144 1 Semenov V V Panteleev A V Bortakovskij A S Matematicheskaya teoriya upravleniya v primerah i zadachah Prikladnaya matematika v primerah i zadachah MAI 1997 S 214 216 ISBN 9785703513941 Vanko V I Ermoshina O V Kuvyrkin G N Variacionnoe ischislenie i optimalnoe upravlenie Matematika v tehnicheskom universitete MGTU im N E Baumana 2006 ISBN 5 7038 2627 6

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто