Реферат: Метод динамічного програмування
На наступному етапі визначимо керування , для якого
,
де
,
а
– керування, що залежить від стану, у якому перебуває система. Отже, на передостанньому відрізку часу знайдене оптимальне керування як функція від стану , в якому перебуватиме система на момент часу
.
Повторюючи цю процедуру, на -му етапі потрібно визначити оптимальне керування , що задовольняє співвідношенню
(5)
де
відповідно до (3). Співвідношення (5) називаються рекурентними співвідношеннями Беллмана.
Після того, як на останньому етапі буде знайдено значення і оптимальне керування , то за відомим значенням можна визначити послідовно , , …, , , . При цьому значення відповідає мінімальному значенню функціонала (4).
Наведений алгоритм розв’язання задачі оптимального керування методом динамічного програмування можна перенести на загальний випадок задачі керування з векторним законом руху (1), тобто якщо , .
3 Принцип оптимальності для задачі оптимального керування з фіксованим часом і вільним правим кінцем
Розглянемо автономну систему
,(6)
з цільовим функціоналом
,(7)
у якому початковий і кінцевий моменти часу і задані, і заданий початковий стан .
Починаючи з будь-якого моменту часу , відрізок оптимальної траєкторії , від точки до точки також є оптимальною траєкторією.
Відносно початкового відрізка оптимальної траєкторії до точки можна стверджувати, що цей відрізок є оптимальною траєкторією, лише у тому випадку, коли точка фіксована (наприклад, у багатоточкових задачах керування), тобто коли за умовами припустима траєкторія обов'язково повинна проходити через точку . Якщо ж задана тільки початкова точка , то відрізок оптимальної траєкторії може і не бути оптимальною траєкторією, тобто може не доставляти оптимальне значення функціоналу (7).
4 Рівняння Беллмана в задачі з фіксованим часом і вільним правим кінцем
Розглянемо систему з законом руху (6) і критерієм оптимальності (2). Початковий стан системи заданий:
,(8)
час руху відомий, а кінцевий стан – невідомий. Побудована таким чином задача – це задача з фіксованим часом і вільним правим кінцем.
Позначимо через , оптимальну траєкторію, яка відповідає оптимальному керуванню . Зафіксуємо деякий момент часу і відповідну йому точку на оптимальній траєкторії. Відповідно до принципу оптимальності, відрізок траєкторії від точки до точки є оптимальною траєкторією і надає найменшого значення функціоналу