Реферат: Метод динамічного програмування
На наступному етапі визначимо керування , для якого
,
де
,
а
– керування, що залежить від стану, у якому перебуває система. Отже, на передостанньому відрізку часу знайдене оптимальне керування як функція від стану , в якому перебуватиме система на момент часу
.
Повторюючи цю процедуру, на -му етапі потрібно визначити оптимальне керування
, що задовольняє співвідношенню
(5)
де
відповідно до (3). Співвідношення (5) називаються рекурентними співвідношеннями Беллмана.
Після того, як на останньому етапі буде знайдено значення і оптимальне керування
, то за відомим значенням
можна визначити послідовно
,
, …,
,
,
. При цьому значення
відповідає мінімальному значенню функціонала (4).
Наведений алгоритм розв’язання задачі оптимального керування методом динамічного програмування можна перенести на загальний випадок задачі керування з векторним законом руху (1), тобто якщо ,
.
3 Принцип оптимальності для задачі оптимального керування з фіксованим часом і вільним правим кінцем
Розглянемо автономну систему
,(6)
з цільовим функціоналом
,(7)
у якому початковий і кінцевий моменти часу і
задані, і заданий початковий стан
.
Починаючи з будь-якого моменту часу , відрізок оптимальної траєкторії
,
від точки
до точки
також є оптимальною траєкторією.
Відносно початкового відрізка оптимальної траєкторії до точки можна стверджувати, що цей відрізок є оптимальною траєкторією, лише у тому випадку, коли точка
фіксована (наприклад, у багатоточкових задачах керування), тобто коли за умовами припустима траєкторія обов'язково повинна проходити через точку
. Якщо ж задана тільки початкова точка
, то відрізок оптимальної траєкторії може і не бути оптимальною траєкторією, тобто може не доставляти оптимальне значення функціоналу (7).
4 Рівняння Беллмана в задачі з фіксованим часом і вільним правим кінцем
Розглянемо систему з законом руху (6) і критерієм оптимальності (2). Початковий стан системи заданий:
,(8)
час руху відомий, а кінцевий стан
– невідомий. Побудована таким чином задача – це задача з фіксованим часом і вільним правим кінцем.
Позначимо через ,
оптимальну траєкторію, яка відповідає оптимальному керуванню
. Зафіксуємо деякий момент часу
і відповідну йому точку
на оптимальній траєкторії. Відповідно до принципу оптимальності, відрізок траєкторії
від точки
до точки
є оптимальною траєкторією і надає найменшого значення функціоналу