Курсовая работа: Моделювання оптимальної стратегії заміни обладнання за допомогою динамічного програмування
У завданнях динамічного програмування економічний процес залежить від часу (від декількох періодів (етапів) часу), тому перебуває ряд оптимальних рішень (послідовно для кожного етапу), що забезпечують оптимальний розвиток усього процесу в цілому. Завдання динамічного програмування називаються багатоетапними або багатокроковими. Динамічне програмування являє собою математичний апарат, що дозволяє здійснювати оптимальне планування багатокрокових керованих процесів і процесів, що залежать від часу. Економічний процес називається керованим, якщо можна впливати на хід його розвитку. Керуванням називається сукупність рішень, прийнятих на кожному етапі для впливу на хід процесу. В економічних процесах керування полягає в розподілі й перерозподілі засобів на кожному етапі. Наприклад, випуск продукції будь-яким підприємством – керований процес, тому що він визначається зміною складу встаткування, обсягом поставок сировини, величиною фінансування й т.д. Сукупність рішень, прийнятих на початку кожного року планованого періоду по забезпеченню підприємства сировиною, заміні встаткування, розмірам фінансування й т.д., є керуванням. Здавалося б, для одержання максимального обсягу випускає продукції, що, найпростіше вкласти максимально можлива кількість засобів і використати на повну потужність устаткування. Але це привело б до швидкого зношування встаткування й, як наслідок, до зменшення випуску продукції. Отже, випуск продукції треба спланувати так, щоб уникнути небажаних ефектів. Необхідно передбачити заходи, що забезпечують поповнення встаткування в міру зношування, тобто по періодах часу. Останнє хоча й приводить до зменшення первісного обсягу випускає продукції, що, але забезпечує надалі можливість розширення виробництва. Таким чином, економічний процес випуску продукції можна вважати складається з декількох етапів (кроків), на кожному з яких здійснюється вплив на його розвиток.
Початком етапу (кроку) керованого процесу вважається момент ухвалення рішення (про величину капітальних вкладень, про заміну встаткування певного виду й т.д.). Під етапом звичайно розуміють господарський рік.
Динамічне програмування, використовуючи поетапне планування, дозволяє не тільки спростити рішення завдання, але й вирішити ті з них, до яких не можна застосувати методи математичного аналізу. Спрощення рішення досягається за рахунок значного зменшення кількості досліджуваних варіантів, тому що замість того, щоб один раз вирішувати складне різноманітне завдання, метод поетапного планування припускає багаторазове рішення щодо простих завдань.
Плануючи поетапний процес, виходять із інтересів усього процесу в цілому, тобто при ухваленні рішення на окремому етапі завжди необхідно мати у виді кінцеву мету.
Однак динамічне програмування має й свої недоліки. На відміну від лінійного програмування, у якому симплексний метод є універсальним, у динамічному програмуванні такого методу не існує. Кожне завдання має свої труднощі, і в кожному випадку необхідно знайти найбільш підходящу методику рішення. Недолік динамічного програмування полягає також у трудомісткості рішення багатомірних завдань. При дуже великому числі змінних рішення завдання навіть на сучасних ЕОМ обмежується пам'яттю й швидкодією машини. Наприклад, якщо для дослідження кожного змінного одномірного завдання потрібно 10 кроків, то у двовимірному завданні їхня кількість збільшується до 100, у тривимірної – до 1000 і т.д.
Припустимо, якась система S перебуває в деякому початковому стані S0 й є керованою. Таким чином, завдяки здійсненню деякого керування U зазначена система переходить із початкового стану S0 у кінцевий стан Sк . При цьому якість кожного з реалізованих керувань U характеризується відповідним значенням функції W(U) . Завдання полягає в тім, щоб з безлічі можливих керувань U знайти таке U*, при якому функція W(U) приймає екстремальне (максимальне або мінімальне) значення W(U*) .
Завдання динамічного програмування мають геометричну інтерпретацію. Стан фізичної системи S можна описати числовими параметрами, наприклад витратою пального й швидкістю, кількістю вкладених коштів і т.д. Назвемо ці параметри координатами системи; тоді стан системи можна зобразити крапкою S, а перехід з одного стану S1 в інше S2 – траєкторією крапки S. Керування U означає вибір певної траєкторії переміщення крапки S з S1 в S2, тобто встановлення певного закону руху крапки S.
Сукупність станів, у які може переходити система, називається областю можливих станів. Залежно від числа параметрів, що характеризують стан системи, область можливих станів системи може бути різної. Нехай, наприклад, стан системи S характеризується одним параметром, – координатою x. У цьому випадку зміна координати, якщо на неї накладені деякі обмеження, зобразиться переміщенням крапки S по осі Оx або по її ділянці. Отже, областю можливих станів системи є сукупність значень x, а керуванням – закон руху крапки S з початкового стану S0 у кінцеве Sk по осі Ox або її частини (рис. 1.1).
S0 S Sk
0 x
Область можливих станів системи
Рисунок 1.1. Графічне зображення переходу системи S
Таким чином, завданню динамічного програмування можна дати наступну геометричну інтерпретацію. Із всіх траєкторій, що належать області можливих станів системи й з'єднуючих областей S0 й Sk , необхідно вибрати таку, на якій критерій W приймає оптимальне значення.
Щоб розглянути загальне рішення завдань динамічного програмування, уведемо позначення й зробимо для подальших викладів припущення.
Будемо вважати, що стан розглянутої системи S на K-м кроці (k=1, n) визначається сукупністю чисел X(k) =(x1 (k) , x2 (k) ,…, xn (k) ), які отримані в результаті реалізації керування uk, що забезпечило перехід системи S зі стану X(k-1) у стан X(k) . При цьому будемо припускати, що стан X(k) , у яке перейшла система S, залежить від даного стану X(k-1) і обраного керування uk і не залежить від того, яким образом система S прийшла в стан X(k-1) .
Далі із уважати, що якщо в результаті реалізації k-го кроку забезпечені певний доход або виграш, що також залежить від вихідного стану системи X(k-1) і обраного керування uk і рівний Wk (X(k-1), uk) , те загальний доход або виграш за n кроків становить
n
F=∑ Wk (X( k -1) , uk ) (1.1)
k=1
Таким чином, завдання динамічного програмування повинна задовольняти дві умови. Першу умову звичайно називають умовою відсутності післядії, а друге – умовою адитивності цільової функції завдання.
Виконання для завдання динамічного програмування першої умови дозволяє сформулювати для неї принцип оптимальності Беллмана. Перш ніж зробити це, треба дати визначення оптимальної стратегії керування. Під такою стратегією розуміється сукупність керувань U* =(u1 *, u2 *,…, un *), у результаті реалізації яких система S за n кроків переходить із початкового стану X(0) у кінцеве X(k) і при цьому функція (1.1) приймає найбільше значення.
Принцип оптимальності: яке б не був стан системи перед черговим кроком, треба вибрати керування на цьому кроці так, щоб виграш на даному кроці плюс оптимальний виграш на всіх наступних кроках був максимальним.
Звідси треба, що оптимальну стратегію керування можна одержати, якщо спочатку знайти оптимальну стратегію керування на n-м кроці, потім на двох останніх кроках, потім на трьох останніх кроках і т.д., аж до першого кроку. Таким чином, рішення розглянутого завдання динамічного програмування доцільно починати з визначення оптимального рішення на останньому, n-м кроці. Для того щоб знайти це рішення, мабуть, потрібно зробити різні припущення про те, як міг скінчитися передостанній крок, і з обліком цього вибрати керування un0, що забезпечує максимальне значення функції Wn (X(n-1) , un ). Таке керування un0 обране при певних припущеннях про те, як скінчиться попередній крок, називається умовно оптимальним керуванням. Отже, принцип оптимальності вимагає знаходити на кожному кроці умовно оптимальне керування для кожного з можливих варіантів попереднього кроку.
Щоб це можна було здійснити практично, необхідно дати математичне формулювання принципу оптимальності. Для цього введемо деякі додаткові позначення. Позначимо через Fn (X0 ) максимальний доход, одержуваний за n кроків при переході системи S з початкового стану X(0) у кінцевий стан X(k) при реалізації оптимальної стратегії керування U=(u1 , u2 ,…, un ), а через Fn-k (X(k) ) – максимальний доход, одержуваний при переході з будь-якого стану X(k) у кінцевий стан X(n) при оптимальній стратегії керування на що залишилися n-k кроках. Тоді:
Fn (X0 )=max[W1 (X(0) , u1 )+ … + Wn (X( n -1) , un )] (1.2)
Uk + j
Fn - k (X( k ) )=max[Wk +1 (X( k ) , uk +1 )+Fn - k -1 (Xk +1) )] (k=0, n-1) (1.3)
Uk +1
Останнє вираження являє собою математичний запис принципу оптимальності й зветься основного функціонального рівняння Беллмана або рекуррентного співвідношення. Використовуючи дане рівняння можна знайти рішення завдання динамічного програмування.