Реферат: Синтез оптимальных уравнений

(см. (1.2), (1.3)) и начальному условию

y (t 0 )=x 0 . (1.10)

Если мы будем двигаться из точки x 0 до точки y( t ) (по рассматриваемой фазовой траектории), то затратим на это движение время tt 0 . Двигаясь затем из точки y( t ) оптимально, мы затратим на движение от точки y (t ) до точки x 1 время T( y( t )). В результате мы совершим переход из точки x 0 в точку x 1 , затратив на этот переход время (tt 0 )+T (y (t)). Но так как оптимальное время движения от точки x 0 до точки x 1 равно T (x 0 ), т. е. равно T (y (t 0 )), то T (y(t 0 ))≤(tt 0 )+T (y (t )). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину tt 0 , получаем отсюда и поэтому, переходя к пределу при t→ t 0 , находим

при ≤1. (1.11)

Но производная, указанная в левой части этого неравенства, вычисляется по формуле полной производной Поэтому согласно (1.9) и (1.10) неравенство (1.11) принимает вид Точки x 0 , u 0 здесь были произвольными. Таким образом, для любой (отличной от x 1 ) точки x фазового пространства и любой точки u области управления U выполнено соотношение

(1.12)

Пусть теперь (u (t ), x (t )) ─ оптимальный процесс, переводящий объект из фазового состояния x 0 в состояние x 1 , и t 0tt 1 ─ отрезок времени, в течение которого это оптимальное движение происходит, так что x (t 0 )=x 0 , x (t 1 )=x 1 и t 1 =t 0 + T (x 0 ). Движение по рассматриваемой оптимальной траектории от точки x 0 до точки x (t ) осуществляется в течение времени tt 0 , а движение от точки x (t ) до точкиx 1 ─ в течение времени T (x 0 ) ─ (tt 0 ). Быстрее, чем за время T (x 0 ) ─ (tt 0 ), из точки x (t ) попасть в точку x 1 невозможно. Итак, T (x 0 ) ─ (tt 0 ) есть время оптимального движения из точки x (t ) в точку x 1 , т. е. T (x (t ))=T (x 0 ) ─ (tt 0 ). Заменив здесь T через ω , т. е. ω (x (t ))=ω (x 0 ) + tt 0 ) и взяв производную по t , получаем

t 0tt 1 . (1.13)

Таким образом, для каждого оптимального процесса в течение всего движения выполняется равенство (1.13).

Если мы теперь введём в рассмотрение функцию

B (x, u (t ))=, (1.14)

То соотношения (1.12) и (1.13) могут быть записаны следующим образом:

B (x, u )≤1 для всех точек xx 1 и u ; (1.15)

B (x, u )≡1 для любого оптимального процесса (u (t ), x (t )). (1.16)

Итак, справедлива следующая

Т е о р е м а 1.1. Если для управляемого объекта, описываемого уравнением (1.5) и предписанного конечного состояния x 1 выполнены гипотезы 1 и 2, то имеют место соотношения (1.15) и (1.16) (оптимальность понимается в смысле быстродействия).

Эта теорема и составляет сущность метода динамического программирования для рассматриваемой задачи. Эту теорему можно сформулировать и несколько иначе. Написав соотношение (1.16)

Для t =t 0 , получим B (x 0 , u (t 0 ))=1, т. е. для любой точки x 0 (отличной от x 1 ) найдётся в U такая точка u (а именно u= u (t 0 )), что B (x 0 , u )=1. В сопоставлении с неравенством (1.15) получаем соотношение

для любой точки xx 1 . (1.16* )

Метод динамического программирования (1.15), (1.16) (или, что то же самое, (1.16* ), (1.16)) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции ω (x ), так как эта функция входит в соотношения (1.15) ─ (1.16* ). Во-вторых, уравнение Беллмана (1.16* ) (или соотношения (1.15), (1.16)) представляет собой уравнение в частных производных относительно функции ω , осложнённое к тому же знаком максимума. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является предположение о выполнении гипотез 1 и 2. Ведь оптимальные управления и функция ω нам заранее не известны, так что гипотезы 1 и 2 содержат предположение о неизвестной функции, и проверить выполнение этих гипотез по уравнениям движения объекта невозможно. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи этим методом оказалось, что функция ω (x ) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших, линейных задачах оптимального управления функция ω (x ) не является, как правило, всюду дифференцируемой. Тем не менее, методом динамического программирования можно нередко пользоваться как ценным эвристическим средством.

6. Принцип максимума. Продолжим теперь рассуждения предыдущего пункта, предположив функцию ω (x ) уже дважды непрерывно дифференцируемой (всюду, кроме точки x 1 ). Итак, будем предполагать, что выполнена следующая

Г и п о т е з а 3. функция ω (x ) имеет при x≠ x 1 вторые непрерывные производные i, j= 1,2,…,n , а функции fi (x, u ) ─ первые непрерывные производные где i, j= 1,2,…,n.

Пусть (u( t), x( t) ), t 0tt 1 , ─ оптимальный процесс, переводящий объект (1.2) (или (1.3)) из фазового состояния x 0 в состояние x 1 . Фиксируем некоторый момент времени t , t 0tt 1 , и рассмотрим функцию B (x, u (t ))=переменного x. В силу гипотезы 3 вытекает, что функция B (x, u (t )) всюду, кроме точки x 1 , имеет непрерывные производные по переменным x 1 ,x 2 ,…,xn :

(1.17)

В частности, так как x (t )≠x 1 (поскольку t <t 1 ), то функция B (x, u (t )) имеет вблизи точки x =x (t ) непрерывные производные по переменным x 1 ,x 2 ,…,xn . Далее, мы имеем в силу (1.15), (1.16) B (x, u (t ))≤1 для любого x≠ x 1 ; B (x, u (t ))=1 при x= x (t ).

Эти два соотношения означают, что функция B (x, u (t )) достигает в точке x =x (t ) максимума, и потому её частные производные по x 1 ,…, xn обращаются в нуль в этой точке:

(1.18)

Кроме того, дифференцируя функцию по t, находим

К-во Просмотров: 326
Бесплатно скачать Реферат: Синтез оптимальных уравнений