Реферат: Метод динамічного програмування

На наступному етапі визначимо керування , для якого

,

де

,

а

– керування, що залежить від стану, у якому перебуває система. Отже, на передостанньому відрізку часу знайдене оптимальне керування як функція від стану , в якому перебуватиме система на момент часу

.

Повторюючи цю процедуру, на -му етапі потрібно визначити оптимальне керування , що задовольняє співвідношенню

(5)

де

відповідно до (3). Співвідношення (5) називаються рекурентними співвідношеннями Беллмана.

Після того, як на останньому етапі буде знайдено значення і оптимальне керування , то за відомим значенням можна визначити послідовно , , …, , , . При цьому значення відповідає мінімальному значенню функціонала (4).

Наведений алгоритм розв’язання задачі оптимального керування методом динамічного програмування можна перенести на загальний випадок задачі керування з векторним законом руху (1), тобто якщо , .

3 Принцип оптимальності для задачі оптимального керування з фіксованим часом і вільним правим кінцем

Розглянемо автономну систему

,(6)

з цільовим функціоналом

,(7)

у якому початковий і кінцевий моменти часу і задані, і заданий початковий стан .

Починаючи з будь-якого моменту часу , відрізок оптимальної траєкторії , від точки до точки також є оптимальною траєкторією.

Відносно початкового відрізка оптимальної траєкторії до точки можна стверджувати, що цей відрізок є оптимальною траєкторією, лише у тому випадку, коли точка фіксована (наприклад, у багатоточкових задачах керування), тобто коли за умовами припустима траєкторія обов'язково повинна проходити через точку . Якщо ж задана тільки початкова точка , то відрізок оптимальної траєкторії може і не бути оптимальною траєкторією, тобто може не доставляти оптимальне значення функціоналу (7).

4 Рівняння Беллмана в задачі з фіксованим часом і вільним правим кінцем

Розглянемо систему з законом руху (6) і критерієм оптимальності (2). Початковий стан системи заданий:

,(8)

час руху відомий, а кінцевий стан – невідомий. Побудована таким чином задача – це задача з фіксованим часом і вільним правим кінцем.

Позначимо через , оптимальну траєкторію, яка відповідає оптимальному керуванню . Зафіксуємо деякий момент часу і відповідну йому точку на оптимальній траєкторії. Відповідно до принципу оптимальності, відрізок траєкторії від точки до точки є оптимальною траєкторією і надає найменшого значення функціоналу

К-во Просмотров: 232
Бесплатно скачать Реферат: Метод динамічного програмування