Elimination of active phase constraints in optimal control problems

Cover Page

Cite item

Full Text

Abstract

The problems of optimal control of continuous systems with phase constraints are considered. It is assumed that the trajectory of the system can be divided into sections, on each of which a set of active phase constraints is fixed. Such trajectories are typical for hybrid systems in which the transition from one site to another is considered a switch. Applying the necessary optimality conditions for hybrid systems with intermediate constraints, we obtain a solution to the initial problem with phase constraints.

Full Text

Введение. Задачи оптимального управления с фазовыми ограничениями имеют многочисленные приложения. Однако их решение с использованием необходимых условий оптимальности [1, 2] довольно трудное. В первую очередь это связано с применением в этих условиях в качестве множителей Лагранжа неотрицательных мер, при помощи которых учитываются активные и пассивные фазовые ограничения. На практике специалистам, как правило, известна схема “обхода” ограничений, т. е. последовательность участков траектории, на каждом из которых набор активных ограничений не меняется. Поэтому задача сводится к оптимизации управления на каждом участке, а также оптимизации позиций переключений, в которых меняются участки движения.

Процессы управления с переключениями характерны для гибридных систем (ГС), непрерывное движение которых описывается дифференциальными уравнениями, а мгновенные изменения состояния (переключения) – рекуррентными уравнениями или включениями. Наиболее общей моделью ГС является так называемая гибридная система переменной размерности (ГСПР), в моменты переключений которой меняется пространство состояний, в частности его размерность (краткий обзор работ по ГСПР см. в [3]).

Необходимые условия оптимальности гибридных систем с промежуточными ограничениями, обобщающие принцип максимума [4], получены в работах [5, 6]. В этих публикациях количество переключений задано, а сами переключения неуправляемы. Для решения задач оптимального управления с фазовыми ограничениями применяются ГСПР. При этом допускаются процессы с мгновенными многократными переключениями [3, 7]. Такие процессы, как правило, исключаются в задачах оптимизации ГС, несмотря на то, что именно они оказываются оптимальными не только в академических примерах, но и в приложениях, например в задачах группового управления.

В статье приводятся необходимые условия оптимальности ГСПР с промежуточными и терминальными ограничениями. Затем рассматривается задача оптимального управления непрерывной системой с фазовыми ограничениями, для решения которой предлагается метод исключения активных фазовых ограничений. Этот метод применяется, если известен план “активизации” фазовых ограничений, т. е. задана конечная последовательность изменения состава активных ограничений. В результате исключения получается задача оптимального управления ГСПР с промежуточными ограничениями, для решения которой используются приведенные ранее необходимые условия оптимальности. Эффективность предлагаемого подхода демонстрируется на примерах.

  1. Оптимизация ГСПР с промежуточными ограничениями. 1.1. П о с т а н о в к а  з а д а ч и. Пусть на промежутке времени T = [t0, tF] динамическая система совершает N переключений в моменты времени t1, …, tN, образующие вместе с моментом tF окончания движения неубывающую конечную последовательность T={t1,...,tN,tF}:

t0t1...tNtN+1tF. (1.1)

Между неравными последовательными моментами переключений состояние системы изменяется непрерывно, согласно дифференциальному уравнению:

x˙i(t)=fi(t,xi(t),ui(t)), tTi, i ∈ N, (1.2)

а в моменты переключений – дискретно в соответствии с рекуррентным уравнением:

xi(ti)=gi(ti,xi1(ti)), i=1,...,N. (1.3)

В соотношениях (1.2) N{i=0,1,...,N|ti<ti+1} – множество номеров ненулевых (по длине) частичных промежутков Ti = [ti, ti+1] непрерывного изменения системы; xi(t) – состояние системы в момент времени tTi, xi(t)Xi=niui(t) – управление непрерывным движением системы в момент времени tTi, ui(t)UipiUi – заданное множество допустимых значений управления, i ∈ N. При ti=ti+1 дифференциальное уравнение (1.2) опускается (iN), функция xi() определена в одной точке xi(ti)=xi, а значение ui(ti) управления в этой точке несущественно.

Функции fi:T×Xi×Uini, i=0,1,...,N, и gi:T×Xi1ni, i=1,...,N, непрерывны на всей области определения вместе с первыми частными производными по t и по компонентам вектора xi. Возможное равенство последовательных моментов в (1.1) означает, что система совершает мгновенные многократные переключения [3, 7].

Начальное состояние системы задано начальным условием

x0(t0) = 0. (1.4)

Конечная позиция системы определяется первым достижением терминальной поверхности:

GF(tF,xN(tF))=0. (1.5)

Переключения происходят на поверхностях, которые задаются уравнениями

Gi(ti,xi1(ti))=0. (1.6)

Функции GF:[t0,+)×XNlN, Gi:[t0,+)×Xi1li1, i=1,...,N, определяющие терминальные (1.5) и промежуточные (1.6) ограничения, непрерывно дифференцируемые. Терминальные условия, аналогичные (1.5), могут накладываться на левый конец траектории [8, 9] либо на оба конца траектории одновременно (например, условие периодичности).

Множество допустимых процессов D0(t0,x0) составляют тройки d=(T,x(),u()), включающие неубывающую последовательность T моментов переключений (1.1); последовательность x()={xi()}i=0N абсолютно непрерывных функций xi:TiXi, iN; последовательность u()={ui()}i=0N ограниченных измеримых функций ui:TiUi. Причем пары (xi(),ui()), iN, удовлетворяют дифференциальному уравнению (1.2) почти всюду на промежутке Ti, а последовательность xi(ti), i=0,1,...,N, – рекуррентному уравнению (1.3). В начальный момент времени выполняется условие (1.4), в конечный – терминальное условие (1.5), в моменты переключений – промежуточные ограничения (1.6). Подчеркнем, что количество N переключений и моменты T не фиксированы и у разных допустимых процессов могут не совпадать. При этом не исключается случай отсутствия переключений, когда N=0 и T={tF}.

На множестве D0(t0,x0) допустимых процессов задан функционал качества:

I0(t0,x0,d)=i=0Ntiti+1fi0(t,xi(t),ui(t))dt+i=1Ngi0(ti,xi1(ti))+FN(tF,xN(tF)), (1.7)

где скалярные функции fi0:Ti×Xi×Ui, gi0:T×Xi1+ и FN:[t0,+)×XN ограничены снизу и непрерывны вместе с первыми частными производными по t и по компонентам вектора xi. Функции gi0 неотрицательные. Последнее условие позволяет рассматривать каждое слагаемое gi0(ti,xi1(ti)) в (1.7) как затраты (или штраф) при переключении xi1(ti)xi(ti)=gi(ti,xi1(ti)) из состояния xi1(ti) в состояние xi(ti). В функционале (1.7) момент окончания tF обозначен также через tN+1, как и ранее в (1.1).

Требуется найти минимальное значение функционала (1.7) и оптимальный процесс d*=(T*,x*(),u*(),{v*})D0(t0,x0), на котором это значение достигается:

I0(t0,x0,d*)=mindD0(t0,x0)I0(t0,x0,d). (1.8)

Если наименьшее значение (1.8) не существует, то может быть поставлена задача нахождения минимизирующей последовательности допустимых процессов [8]. Количество переключений у процессов минимизирующей последовательности может оставаться конечным или неограниченно возрастать. Бесконечное количество переключений у оптимального процесса становится невозможным, если усилить условие ограниченности функции gi0 в (1.7), полагая gi0(t,xi1,vi)const>0) . Применение таких штрафов в функционале качества исключает фиктивные переключения, когда состояние не меняется: xi1(ti)=xi(ti), а также последовательности процессов с неограниченным ростом числа переключений как неминимизирующие.

Поставленная задача отличается от рассмотренной в [7] отсутствием дискретного управления переключениями, что несколько упрощает задачу. Отметим, что управляющие параметры в задаче (1.8) образуют управляющий комплекс, который включает: количество переключений N, моменты переключений t1,…,tN, управление непрерывным движением u() и момент tF окончания процесса управления. Как правило, решение поставленной задачи Imin сводится к решению ряда задач INmin с фиксированным числом переключений N, которое последовательно увеличивается: N=0,1,... Отметим, что в прикладных задачах количество переключений всегда ограничено техническими требованиями.

1.2. Н е о б х о д и м ы е  у с л о в и я  о п т и м а л ь н о с т и. Введем функции Понтрягина для непрерывного движения и переключений соответственно [7]:

Hiψi,t,xi,ui=ψifi(t,xi,ui)-λ0fi0(t,xi,ui), i=0,1,...,N, (1.9)

H^iψi,t,xi-1=ψigi(t,xi-1)-λ0gi0(t,xi-1), i=1,...,N,

Здесь λ0 – неотрицательный множитель, ψi=(ψi1,...,ψini) – вспомогательные вектор-функции, i=1,...,N. Предполагаем, что между моментами переключений функции ψi:Tini, i ∈ N, абсолютно непрерывны. Функции Понтрягина (1.9) используются в формулировке следующих условий оптимальности.

Т е о р е м а (необходимые условия оптимальности ГСПР). Пусть оптимальный процесс (T,x(),u()) имеет N переключений в моменты t1,…,tN: t0t1...tNtF. Тогда существуют функции ψi(), i=0,1,...,N, и такие числа λ0,λ1,…,λN+1, неравные нулю одновременно, что выполняются:

1) дифференциальные уравнения:

ψ˙i(t)=Hixi[t], tTi, i ∈ N;

2) промежуточные условия:

Hiti-Hi-1ti-H^it[ti]+λi+1-λiδti+ψi-1ti-H^ixi-1[ti]δxi-=0

при всех вариациях, связанных равенствами

Git[ti]δti+Gixi1[ti]δxi=0, i=1,...,N;

3) условие трансверсальности:

λ0FNttF-HNtF-λN+1δtF+FNxNtF+ψNtFδxN=0

для любых вариаций, связанных равенством

GFttFδtF+GFxNtFδxN=0;

4) условие максимума функции Понтрягина по управлению непрерывным движением:

Hi[t]=maxuiUiHi(ψi(t),t,xi(t),ui)

почти всюду на Ti, i ∈ N;

5) условия дополняющей нежесткости:

λi+1(titi+1)=0, i=0,1,...,N;

6) условия неотрицательности:

λi0, i=0,1,...,N+1.

Доказательство теоремы следует из необходимых условий, приведенных в [7] для задачи с дискретным управлением переключениями. В формулировке теоремы и далее принято следующее соглашение [10]: аргумент t, заключенный в квадратные скобки, означает, что функция вычислена на оптимальном процессе в указанный момент времени. Например, Hi[t]=Hi(ψi(t),t,xi(t),ui(t)),

Hixi[t]=Hixi(ψi(t),t,xi(t),ui(t)), H^ixi-1[ti]=H^ixi-1(ψi(ti),ti,xi-1(ti)).

Заметим, что если из условия 4) теоремы удается выразить оптимальное управление ui=ui(ψi,t,xi) как функцию времени, состояния и вспомогательных переменных, то, подставляя это управление в уравнения движения (1.2) и уравнения п. 1) теоремы, получаем краевую задачу с промежуточными условиями (1.3). Ее решение зависит от 2(n0+n1+...+nN) произвольных постоянных, моментов переключений t1,...,tN и множителей Лагранжа λ0,λ1,...,λN+1. Всего есть 2(n0+n1+...+nN+N)+3 параметров. Для нахождения этих параметров имеются следующие уравнения: начальные условия (1.4) определяются n0 равенствами, промежуточные ограничения (1.6) и условия 2) теоремы задают n0+n1+...+nN+N уравнений, терминальные условия (1.5) и условия трансверсальности 3) дают nN+1 равенств, рекуррентные уравнения (1.3) представляют собой n0+n1+...+nN равенств, а условия дополняющей нежесткости 5) записаны как система N+1 равенств. Всего имеется 2(n0+n1+...+nN+N)+2 уравнений, связывающих параметры. Этих условий хватает, так как коэффициенты λ0, λ1,…, λN+1 определяются с точностью до положительного множителя. Как правило, систему дополняют либо равенством λ0=0 (вырожденный [11], нерегулярный [9] случаи), либо равенством λ0=1 (невырожденный, регулярный случаи). Таким образом, теорема, как и принцип максимума [4], дает “полную” систему условий, для нахождения процесса, который может быть оптимальным.

  1. Задача оптимального управления с фазовыми ограничениями. 2.1. П о с т а н о в к а  з а д а ч и  с  ф а з о в ы м и  о г р а н и ч е н и я м и. Пусть на промежутке времени T=[t0,tF] движение динамической системы описывается дифференциальным уравнением

x˙(t)=f(t,x(t),u(t)), (2.1)

где x(t) – состояние системы в момент времени tT, x(t)X=nu(t) – значение управления в момент времени tT, u(t)Up. Функция f:T×X×UX непрерывна на всей области определения вместе с первыми частными производными по t и по компонентам вектора x.

Начальное состояние системы задано начальным условием

x(t0)=x0. (2.2)

Конечная позиция системы определяется первым достижением терминальной поверхности:

GF(tF,x(tF))=0. (2.3)

Функция GF:[t0,+)×Xl – непрерывно дифференцируемая. Терминальные условия, аналогичные (2.3), могут накладываться на левый конец траектории [8, 9] либо на оба конца траектории одновременно (например, условие периодичности).

В каждый момент времени tT состояние системы и управление удовлетворяют следующим ограничениям:

Q(t,x(t))0, (2.4)

q(t,x(t),u(t))0, (2.5)

u(t)U. (2.6)

Фазовые ограничения представлены неравенством (2.4), смешанные – неравенством (2.5), геометрические – включением (2.6). Функции Q:T×XM и q:T×X×Um – непрерывно дифференцируемые, Q=(Q1,...,QM)T; q=(q1,...,qm)T; множество U допустимых значений управления – замкнутое подмножество p. Другие формы записи ограничений применяются в [2, 8, 11].

Множество допустимых процессов D(t0,x0) составляют тройки d=(tF,x(),u()), включающие момент tF окончания движения; абсолютно непрерывную функцию x:TX; ограниченную измеримую функцию u:TU. Причем пары (x(),u()) удовлетворяют дифференциальному уравнению (2.1) почти всюду на промежутке T. В начальный момент времени выполняется условие (2.2), в конечный – терминальное условие (2.3), в любой момент tT – ограничения (2.4) – (2.6).

На множестве D(t0,x0) допустимых процессов задан функционал качества

I(t0,x0,d)=t0tFf0(t,x(t),u(t))dt+F(tF,x(tF)), (2.7)

где скалярные функции f0:T×X×U и F:[t0,+)×X ограничены снизу и непрерывны вместе с первыми частными производными по t и по компонентам вектора x.

Требуется найти минимальное значение функционала (2.7) и оптимальный процесс d* = (T*,x*(·),u*(·)) ∈ D(t0,x0), на котором это значение достигается:

I0(t0,x0,d*)=mindD(t0,x0)I0(t0,x0,d).

Если наименьшее значение функционала (2.7) не существует, то может быть поставлена задача нахождения минимизирующей последовательности допустимых процессов [8].

2.2. З а д а ч а  с о  с м е н о й  а к т и в н ы х  ф а з о в ы х  о г р а н и ч е н и й. Рассмотрим задачу минимизации функционала (2.7), в которой задана конечная последовательность изменения активных фазовых ограничений. Напомним, что ограничение типа нестрогого неравенства называется активным, если оно выполняется как равенство, и пассивным, если оно выполняется как строгое неравенство.

Пусть на промежутке T функционирования динамической системы (2.1) существуют N моментов переключений t1,…,tN, образующих вместе с моментом tF окончания движения неубывающую конечную последовательность T={t1,...,tN,tF}, удовлетворяющую условиям (1.1). Предполагаем, что между неравными последовательными моментами переключений состав (набор) активных фазовых ограничений в системе (2.4) постоянный, а в моменты переключений набор активных ограничений меняется. Иначе говоря, известен планактивизации фазовых ограничений, т. е. последовательность (порядок чередования) смены активных фазовых ограничений. Моменты переключений (1.1) не фиксированы и служат ресурсом управления. Нестрогие неравенства в (1.1) допускают совпадение некоторых последовательных моментов переключений. Если в результате оптимизации управления два последовательных момента переключений оказались равными, то это значит, что либо траектория управляемого процесса «касается» активного ограничения, либо предполагаемый на этом промежутке набор активных ограничений не отвечает оптимальному процессу и его (набор) надо заменить или исключить из рассмотрения. Кроме того, нестрогие неравенства задают замкнутое множество допустимых моментов переключений, что важно для существования решения задачи оптимизации.

Обозначим, как и ранее, через N{i=0,1,...,N|ti<ti+1} – множество номеров ненулевых (по длине) частичных промежутков Ti=  [ti,ti+1]. Рассмотрим подробнее движение на одном ненулевом по продолжительности промежутке Ti, i ∈ N. Предполагаем, что на этом промежутке k неравенств из (2.4) с разными номерами i1,…,ik выполняются как равенства

Qi1(t,x(t))=0,…, Qik(t,x(t))=0, tTi. (2.8)

Составим из этих активных на промежутке Ti фазовых ограничений систему уравнений:

Qi(t,x)=0, (2.9)

где Qi(t,x)=(Qi1(t,x),...,Qik(t,x))T – столбец из левых частей равенств (2.8). Так как равенства (2.9) верны на всем промежутке Ti, то, дифференцируя их в силу уравнений движения (2.1), получаем систему уравнений:

Qit(t,x)+Qix(t,x)f(t,x,u)=0. (2.10)

Отметим, что (2.10) представляют собой дополнительное смешанное ограничение типа равенства.

Выполняя такую процедуру для каждого ненулевого (по длине) промежутка Ti, получаем задачу оптимального управления, в которой пассивные фазовые ограничения исключены:

t0t1...tNtN+1tF,

x˙(t)=f(t,x(t),u(t)), (2.11)

Qi(ti,x(ti))=0, Qit(t,x(t))+Qixf(t,x(t),u(t))=0, (2.12)

q(t,x(t),u(t))0, u(t)U, tTi, i ∈ N, (2.13)

x(t0)=x0, GF(tF,x(tF))=0,

I0(t0,x0,d)=i=0Ntiti+1f0(t,x(t),u(t))dt+F(tF,x(tF))min. (2.14)

Заметим, что основное предположение об известном плане “активизации” фазовых ограничений в прикладных задачах, как правило, оправдывается. Специалисты, разрабатывающие системы управления, знают режимы эксплуатации, ограничения, а также порядок их “преодоления” в процессе управления. Поэтому последовательность, в которой нужно учитывать те или иные ограничения, известна. Заранее неизвестны моменты времени, в которые эти ограничения будут “возникать” в процессе управления. Эти моменты “переключений” состава активных ограничений являются ресурсом управления и находятся при оптимизации.

Если последовательность изменения состава активных фазовых ограничений точно не известна, то можно решить задачи с разными планами “активизации”, а затем выбрать наилучшее решение. Как правило, фазовых ограничений в задачах оптимального управления не очень много. Поэтому количество рациональных планов изменения состава активных ограничений не слишком большое.

2.3. И с к л ю ч е н и е  а к т и в н ы х  ф а з о в ы х  о г р а н и ч е н и й. В задаче (2.14) между неравными моментами переключений набор активных ограничений фиксирован. Рассмотрим процедуру исключения этих ограничений на одном ненулевом по продолжительности промежутке Ti.

Активные на промежутке Ti ограничения представляют собой систему алгебраических уравнений (2.9), которая определяет некоторое многообразие в пространстве T×X позиций системы (2.11). Предполагаем, что многообразие (2.9) можно задать параметрическими уравнениями, т. е. существует такая функция x=αi(t,xi) с вектором параметров xiXi=ni, что

Qi(t,αi(t,xi))0. (2.15)

Смешанное ограничение (2.10) рассматриваем как систему алгебраических уравнений относительно неизвестной u. Считаем, что ее решение можно записать в параметрической форме, используя новые управляющие параметры. Пусть существуют такие функция u=βi(t,xi,ui) и множество Uipi, что

Qit(t,αi(t,xi))+Qixf(t,αi(t,xi),βi(t,xi,ui))0, (2.16)

причем

q(t,αi(t,xi),βi(t,xi,ui))0βi(t,xi,ui))U (2.17)

при всех uiUi.

При подстановке функций x=αi(t,xi) и u=βi(t,xi,ui) в фазовые и в смешанные ограничения (2.12), (2.13) они выполняются “автоматически” (их можно удалить), а геометрическое ограничение заменяется новым геометрическим ограничением uiUi. Параметры xi и ui будем рассматривать как состояние и управление новой динамической системы. Составляем уравнения движения этой системы. Предполагая дифференцируемость функции x=αi(t,xi), находим ее производную в силу уравнений движения (2.11):

αitt,xi+αixit,xix˙i=ft,αit,xi,βit,xi,ui.

Выражая скорость изменения параметров, получаем

x˙i(t)=fi(t,xi(t),ui(t)). (2.18)

Таким образом, исключая активные фазовые ограничения на промежутке Ti, приходим к системе управления, движение которой происходит без фазовых и смешанных ограничений.

Заметим, что ограничения (2.8) становятся активными в момент ti, когда заканчивается движение системы на предыдущем участке Ti1=[ti1,ti]. Пусть на промежутке Ti1 выполнена процедура исключения активных ограничений Qi1(t,x)=0, т. е. найдена соответствующая функция x=αi1(t,xi1). Тогда в момент времени ti выполняется условие Qi1(ti,αi1(ti,xi1(ti))=0, которое можно записать в виде

Gi(ti,xi1(ti))=0, (2.19)

где Gi(ti,xi1)=Qi1(ti,αi1(ti,xi1)). Кроме того, в момент переключения ti траектория исходной систем остается непрерывной. Поэтому должно выполняться равенство

αi1(ti,xi1(ti))=αi(ti,xi(ti)).

Предполагаем, что его можно решить относительно xi, получая при этом

xi(ti)=gi(ti,xi1(ti)). (2.20)

Таким образом, порядок исключения активных на промежутке Ti фазовых ограничений (2.9) следующий:

1) получить параметрические уравнения x=αi(t,xi), удовлетворяющие (2.15);

2) получить параметрические уравнения u=βi(t,xi,ui), удовлетворяющие (2.16), (2.17);

3) составить дифференциальные уравнения (2.18), используя уравнения движения исходной системы;

4) записать ограничение (2.19) в момент переключения;

5) составить рекуррентное уравнение (2.20), используя условие непрерывности траектории исходной системы.

Описанная процедура кажется сложной из-за неоднозначности указанных действий. На самом деле, она аналогична методу исключения неизвестных в системах алгебраических уравнений. В общем случае этот метод трудно формализовать. Однако его применение вполне очевидное. Заметим, что фазовые ограничения являются, как правило, простыми алгебраическими неравенствами, часто линейными. В этих случаях выполнить исключение неизвестных несложно.

2.4. Г и б р и д н а я  м о д е л ь  з а д а ч и  с о  с м е н о й  а к т и в н ы х  ф а з о в ы х  о г р а н и ч е н и й. Задачу (2.14) со сменой активных ограничений можно представить как задачу (1.8) управления ГСПР с промежуточными условиями. Для этого надо исключить активные фазовые ограничения, используя процедуру, описанную в разд. 2.3. В результате исключения на каждом участке Ti непрерывного движения системы (2.11) образуются новые векторы состояния xi и управления ui, а сама система (2.11) заменяется новой динамической системой меньшей размерности. Характер функционирования системы становится гибридным. Непрерывное движение чередуется с переключениями, при которых меняется размерность пространства состояний и множества значений управления. Иначе говоря, непрерывная система (2.11) становится гибридной, а задача (2.14) со сменой активных фазовых ограничений заменяется задачей управления ГСПР:

t0t1...tNtN+1tF,

xi˙(t)=fi(t,xi(t),ui(t)),

ui(t)Ui, tTi, iN,

xi(ti)=gi(ti,xi-1(ti)),

Gi(ti,xi-1(ti))=0, i=1,...,N, (2.21)

x0(t0)=x0, GF(tF,αN(tF,xN(tF)))=0,

I0(t0,x0,d)=i=0Ntiti+1fi0(t,xi(t),ui(t))dt+FN(tF,xN(tF))min.

Все функции в (2.21) получаются при исключении ограничений (см. разд. 2.3), в частности, fi0(t,xi,ui)=f0(t,αi(t,xi),βi(t,xi,ui)), FN(t,xN)=F(t,αN(t,xN)). Постановка задачи (2.21) почти совпадает с рассмотренной в разд. 1.1 задачей управления ГС с промежуточными ограничениями. Отличие состоит в отсутствии в функционале качества суммы затрат на переключения. Поэтому для ее решения можно использовать необходимые условия, приведенные в разд. 1.2, при gi0=0, i=1,...,N.

Заметим, что количество переключений в задаче (2.21) считается известным, так как задан план “активизации” ограничений. Поэтому управляющий комплекс составляют моменты переключений t1,…,tN, момент tF окончания процесса управления и управление u()={ui()}i=0N непрерывным движением.

2.5. И с к л ю ч е н и е  л и н е й н ы х  ф а з о в ы х  о г р а н и ч е н и й  в  з а д а ч а  у п р а в л е н и я  л и н е й н о й  с и с т е м о й. Рассмотрим задачу управления линейной стационарной системой с линейными фазовыми ограничениями:

x˙(t)=Ax(t)+Bu(t), (2.22)

Qx(t)q, (2.23)

u(t)U, t[t0,tF]. (2.24)

Матрицы A, B , Q , q имеют размеры n × n, n × p, m × n, m × 1 соответственно. Начальные и конечные условия, а также минимизируемый функционал не указываются, так как речь пойдет только об исключении фазового ограничения (2.23).

Предполагаем, что план “активизации” ограничений известен, т. е. промежуток функционирования системы (2.22) разбивается моментами переключений t1,…,tN, удовлетворяющими (1.1), на промежутки Ti=[ti,ti+1], на каждом из которых часть неравенств (2.23) выполняются как равенства

Qix=qi. (2.25)

Решение линейной системы (2.25) алгебраических уравнений можно представить в виде

x=ϕi+Φixi, (2.26)

где ϕi – частное решение системы (2.25), Φi – фундаментальная матрица соответствующей однородной системы, а xi – столбец произвольных постоянных.

Дифференцируя (2.25) в силу уравнений движения (2.22) и подставляя (2.26), получаем

Qi(Ax+Bu)=0  QiBu=QiAx QiBu=QiA(ϕi+Φixi). (2.27)

Решение линейной системы (2.27) алгебраических уравнений можно представить в виде

u=ψi+Ψiui, (2.28)

где ψi – частное решение системы (2.27), Ψi – фундаментальная матрица соответствующей однородной системы, а ui – столбец произвольных постоянных. Геометрические ограничения (2.24) на значения управления u=ψi+ΨiuiUнужно обеспечить выбором ограничений uiUi. Поскольку матрица Ψiневырожденная, то Ui=Ψi1(Uψi).

Как видим, столбцы произвольных постоянных xi и ui становятся векторами состояния и управления новой динамической системы. Осталось получить дифференциальные уравнения непрерывного движения этой системы и рекуррентные уравнения переключений. Подставляя (2.25) и (2.28) в (2.22), находим

Φix˙i=A(ϕi+Φixi)+B(ψi+Ψiui)  x˙i=Φi1[A(ϕi+Φixi)+B(ψi+Ψiui)].

Записываем, фазовые ограничения в момент ti их активизации и условия непрерывности:

Qi1[ϕi1+Φi1xi1(ti)]=0, (2.29)

ϕi1+Φi1xi1(ti)=ϕi+Φixi(ti)  xi(ti)=Φi1[ϕi1ϕi+Φi1xi1(ti)]. (2.30)

Процедура исключения активных на промежутке Ti фазовых ограничений (2.25) закончена. Движение системы (2.22) на этом промежутке заменяется непрерывным движением новой системы:

x˙i=Φi1[A(ϕi+Φixi)+B(ψi+Ψiui)], ui(t)Ui, tTi, (2.31)

с переключением (2.30) и промежуточным условием (2.29) в момент ti:

xi(ti)=Φi1[ϕi1ϕi+Φi1xi1(ti)], Qi1[ϕi1+Φi1xi1(ti)]=0.

Векторы состояния x и управления u системы (2.22) выражаются через состояние xi и управление ui новой системы (2.31) по формулам (2.26) и (2.28). Заметим, что решения систем (2.25), (2.27) линейных алгебраических уравнений можно было записать, выражая базисные переменные через свободные. В этом случае новыми векторами состояния xi и управления ui стали бы соответствующие свободные переменные.

  1. Примеры. Рассмотрим два примера применения необходимых условий ГСПР для решения задач с фазовыми ограничениями. В первом примере модель движения простая. В зависимости от начальных условий оптимальные процессы реализуют разные планы “активизации” фазовых ограничений. Аналитическое решение подтверждается геометрическими соображениями. Второй пример – это классическая задача Фельдбаума А. А. [12] с двумя дополнительными фазовыми ограничениями. План “активизации” ограничений строится на основе известного “свободного” движения (без фазовых ограничений).

П р и м е р 1. Найти оптимальное управление в задаче быстродействия

x˙(t)=u(t),

u(t)U(x(t)),

x(t)0, t[0,T],

x(0)=A, x(T)=O,

Tmin. (3.1)

Здесь x=(x1,x2,x3)T, u=(u1,u2,u3)T – векторы состояния и управления, x3, u3; фазовое ограничение x0 определяет неотрицательный октант x10, x20, x30, допустимые значения управления ограничены по модулю:

U(x)=|u|1,   x1>0,x2>0,x3>0,|u|2,x1>0,x2>0,x3=0,|u|2,          x1x2=0,x3=0. (3.2)

В поставленной задаче имеются три фазовых ограничения и смешанное ограничение (3.2). Движение системы внутри положительного октанта x>0 происходит со скоростью, ограниченной неравенством |u|=(u1)2+(u2)2+(u3)21. При движении по координатной плоскости x3=0 внутри первой четверти (x1>0 и x2>0) допускается большая скорость, удовлетворяющая неравенству |u|=(u1)2+(u2)22, при этом, разумеется, u3=0. Наконец, скорость движения по оси абсцисс или оси ординат, когда x3=0, u3=0, а также x1=0 и u1=0 или x2=0 и u2=0, может быть самой большой, так как она ограничена неравенством |u|2. Требуется найти наименьшее время (3.1) перемещения системы из заданного начального состояния A(xA1,xA2,xA3) в начало координат O(0;0;0).

Предполагаем, что начальное состояние x(0)=A находится внутри положительного октанта, т. е. xA1>0, xA2>0, xA3>0, причем xA1xA2. “Симметричный” случай x1x2 рассматривается аналогично. В других случаях, когда начальное состояние принадлежит координатной оси или координатной плоскости, решение упрощается.

Составим план “активизации” фазовых ограничений. Возможны четыре варианта:

0) “свободное” движение (без активных фазовых ограничений);

1) движение с одним активным фазовым ограничением x3=0;

2) движение с одновременной активизацией двух фазовых ограничений x3=0 и x2=0;

3) движение с последовательной активизацией двух ограничений, сначала x3=0, а потом дополнительно x2=0.

Случай 0). Оптимальное “свободное” движение определяем при помощи принципа максимума. Составляем функцию Понтрягина Í=ψuλ0, где ψ=(ψ1,ψ2,ψ3) – вспомогательная вектор-функция, которая удовлетворяет уравнению ψ˙=0. Находим точку максимума функции Понтрягина по управлению u=ψT/|ψ|. Из условия трансверсальности получаем H[T]=λ0. Поскольку λ0>0, полагаем, что λ0=1. Тогда |ψ(T)|=1 и управление u=ψT. Так как вспомогательная переменная постоянна, то управление тоже постоянно. Из начальных и конечных условий заключаем, что u=OA¯/|OA¯|, а оптимальная траектория – отрезок OA. На рис. 1 отрезок OA изображен полужирной линией. Стрелкой обозначено направление движения. Точки A0 и A1 – проекции точки A на координатную плоскость Ox1x2 и координатную ось Ox1 соответственно. Наименьшее время движения, численно равное длине отрезка OA, обозначим как

T0=(xA1)2+(xA2)2+(xA3)2.

Полученный результат очевиден с геометрической точки зрения, так как кратчайшее расстояние между двумя точками евклидова пространства равно длине отрезка, соединяющего эти точки.

 

Рис. 1. Траектория “свободного” движения (без активных фазовых ограничений).

 

Случай 1). Предполагаем, что сначала система двигается “свободно” (без активных фазовых ограничений), затем в некоторый момент t1 она попадает на координатную плоскость x3=0 и двигается по ней до начала координат. Записываем соответствующую задачу оптимального управления ГСПР:

0<t1<T,

x˙01(t)=u01(t), x˙02(t)=u02(t), x˙03(t)=u03(t), |u0(t)|1, t[0;t1],

x0(0)=A, x03(t1)=0,

x˙11(t)=u11(t), x˙12(t)=u12(t), |u1(t)|2, t[t1;T],

x11(t1)=x01(t1), x12(t1)=x02(t1), x11(T)=0, x12(T)=0, (3.3)

Tmin. (3.4)

Активное на втором участке движения ограничение x3=0 исключено. Координата x3 и управление u3 удалены из векторов состояния x1=(x11,x12)T и управления u1=(u11,u12)T. Ограничение x3=0 в момент t1 записано как терминальное ограничение x03(t1)=0 для первого участка. Условия непрерывности траектории в момент t1 представлены уравнениями переключений (3.3) в момент t1.

Применяем для решения задачи (3.4) необходимые условия оптимальности ГСПР. Поскольку переключение происходит в момент t1, отличный от начального и конечного моментов времени, то из условий дополняющей нежесткости следует равенство нулю множителей Лагранжа λ1=λ2=0. Тогда λ00, поэтому можно взять λ0=1. Для каждого промежутка непрерывного движения записываем функцию Понтрягина, дифференциальные уравнения для вспомогательных переменных, выражение для оптимального управления:

H0=ψ01u01+ψ02u02+ψ03u031, ψ˙0=0, u0=ψ0|ψ0|, t[0;t1]; (3.5)

H1=ψ11u11+ψ12u121, ψ˙1=0, u1=ψ1|ψ1|2, t[t1;T]. (3.6)

Для момента переключения составляем функцию Понтрягина и записываем промежуточное условие:

H^1=ψ11x01+ψ12x02,

{|ψ1|2|ψ0|}δt1+{ψ01ψ11}δx01+{ψ02ψ12}δx02=0.

Поскольку вариации δt1, δx01δx02 произвольные, получаем в момент t1

|ψ1|2|ψ0|=0, ψ01=ψ11, ψ02=ψ12. (3.7)

В конечный момент времени T условие трансверсальности имеет вид

{|ψ1|21}δT+ψ11δx11+ψ12δx12=0.

Отсюда, учитывая равенства δx11=δx12=0 для фиксированного конечного состояния и произвольность вариации δT, получаем

|ψ1(T)|2=1. (3.8)

На каждом промежутке непрерывного движения вспомогательные переменные постоянны. Поэтому управление тоже постоянное. Обозначим через B(xB1,xB2,0) состояние системы в момент t1. Из уравнений движения на последнем участке следует, что

0=xB1+(Tt1)u11, 0=xB2(t1)+(Tt1)u12.

Отсюда |OB¯|2=(Tt1)2|u1|2. Так как |u1|=2, значит, Tt1=|OB¯|/2. Тогда

u11=xB12/|OB¯|, u12=xB22/|OB¯|. (3.9)

Итак, оптимальное управление (3.9) выражено через координаты точки B. Отметим еще, что, учитывая (3.8) и (3.6), имеем |ψ1|=1/2, следовательно, u1=2ψ1.

Переходим к первому участку, который заканчивается точкой B. Записываем условия (3.7):

|ψ0|=|ψ1|2=1, ψ01=ψ11=0.5u11, ψ02=ψ12=0.5u12.

Тогда из (3.5) следует, что u0=ψ0. Поэтому u01=0.5u11, u02=0.5u12. Интегрируя уравнения движения, имеем

xB1=xA1+u01t1, xB2=xA2+u02t1, 0=xA3+u03t1.

Координаты u01 и u02 пропорциональны координатам u11 и u12 соответственно. Поэтому векторы OB¯ и OA0¯ коллинеарны. Напомним, что A0 – проекция точки A на координатную плоскость Ox1x2.

Выражаем квадрат модуля управления u0:

1=(u01)2+(u02)2+(u03)2=(xB1)22|OB¯|2+(xB2)22|OB¯|2+(xA3)2t1=12(xA3)2t1.

Значит, t1=xA32. Поскольку скорость движения на первом участке единичная, то t1=AB. Поэтому AB=xA32, т. е. угол ABA0=π/4. Тогда точка B имеет координаты

xB1=kxA1, xB2=kxA2, tN,

где k=1xA3/|OA0¯|. Следовательно, оптимальное управление на первом участке

u0=BA¯|BA¯|  u01=xA12|OA0¯|, u02=xA22|OA0¯|, u03=12.

Таким образом, в случае 1) оптимальная траектория является ломаной ABO, представленной на рис. 2 полужирными отрезками. Стрелками указано направление движения. Время T1 движения по оптимальной траектории вычисляется по формуле

T1=AB+OB2=12(OA0+xA3)=12(xA3+(xA1)2+(xA2)2).

Заметим, что такая траектория существует, если OA0>xA3.

 

Рис. 2. Траектория с одним активным ограничением.

 

Случай 2). Предполагаем, что сначала система двигается “свободно” (без активных фазовых ограничений), затем в некоторый момент t1 она попадает на ось абсцисс и двигается по ней до начала координат. Иначе говоря, в момент t1 активными становятся два фазовых ограничения: x2=0, x3=0. Записываем соответствующую задачу оптимального управления ГСПР:

0<t1<T,

x˙01(t)=u01(t), x˙02(t)=u02(t), x˙03(t)=u03(t), |u0(t)|1, t[0;t1],

x0(0)=A, x02(t1)=0, x03(t1)=0,

x˙11(t)=u11(t), |u1(t)|2, t[t1;T],

x11(t1)=x01(t1), x11(T)=0, (3.10)

Tmin. (3.11)

Активные на втором участке движения фазовые ограничения x2=0 и x3=0 исключены. Координаты x2x3 и u2u3 удалены из векторов состояния x1=x11 и управления u1=u11. Ограничения x2=0, x3=0 в момент t1 записаны как терминальные ограничения x02(t1)=0, x03(t1)=0 для первого участка. Условия непрерывности траектории в момент t1 представлены уравнением переключения (3.10) в момент t1.

Применяем для решения задачи (3.11) необходимые условия оптимальности ГСПР. Поскольку переключение происходит в момент t1, отличный от начального и конечного моментов времени, то из условий дополняющей нежесткости следует равенство нулю множителей Лагранжа λ1=λ2=0. Тогда λ00, поэтому можно взять λ0=1. Для каждого промежутка непрерывного движения записываем функцию Понтрягина, дифференциальные уравнения для вспомогательных переменных, выражение для оптимального управления:

H0=ψ01u01+ψ02u02+ψ03u031, ψ˙0=0, u0=ψ0|ψ0|, t[0;t1], (3.12)

H1=ψ1u111, ψ˙1=0, u1=2 sign ψ1, t[t1;T]. (3.13)

Для момента переключения составляем функцию Понтрягина и записываем промежуточное условие:

H^1=ψ1x01, 2ψ1-ψ0δt1+ψ01-ψ1δx01=0.

Поскольку вариации δt1δx01 произвольные, получаем в момент t1

2|ψ1||ψ0|=0, ψ01=ψ1. (3.14)

В конечный момент времени T условие трансверсальности имеет вид

{2|ψ1|1}δT+ψ1δx11=0.

Отсюда, учитывая равенство δx11=0 для фиксированного конечного состояния и произвольность вариации δT, получаем

2|ψ1(T)|=1. (3.15)

На каждом промежутке непрерывного движения вспомогательные переменные постоянны. Поэтому управление тоже постоянное. Обозначим через C(xC1,0,0) состояние системы в момент t1. Из уравнений движения на последнем участке следует, что xC1=(Tt1)u1. Так как |u1|=2 и xC1>0, значит, u1=2 и Tt1=xC1/2. Отметим, что из условия (3.13) и (3.15) следует, что ψ1=0.5. Управление на втором участке найдено.

Переходим к первому участку, который заканчивается точкой С. Записываем условия (3.14):

|ψ0|=2|ψ1|=1, ψ01=ψ1=0.5.

Тогда из (3.12) вытекает, что u01=ψ01=0.5. Интегрируя уравнения движения, получаем

xC1=xA10.5t1, 0=xA2+u02t1, 0=xA3+u03t1.

Выражаем координаты u02 и управления и подставляем их в равенство |u0|2=1:

1=14+1t12[(xA2)2+(xA3)2]=14+1t12(AA1)2  t1=2AA13.

Напомним, что A1 – проекция точки A на ось абсцисс (см. рис. 1). Учитывая численное равенство t1=AC, заключаем, что AC3=2AA1, т. е. угол AСA1=π/3. Следовательно, абсцисса точки С равна xC1=xA1AA1/3. Значит, оптимальное управление на первом участке

u01=0.5, u02=3xA22AА1, u02=3xA32AА1.

Таким образом, в случае 2) оптимальная траектория представляет собой ломаную ACO, представленную на рис. 3 полужирными отрезками. Стрелками указано направление движения. Время T2 движения по оптимальной траектории вычисляется по формуле

T2=AC+OC2=xA12+AA132=xA12+32(xA2)2+(xA3)2.

Заметим, что такая траектория существует, если xA1>AA1/3.

 

Рис. 3. Траектория с одновременной активизацией двух ограничений.

 

Случай 3). Предполагаем, что сначала система двигается “свободно” (без активных фазовых ограничений), затем в некоторый момент t1 она попадает на координатную плоскость Ox1x2. Движение в первой четверти этой координатной плоскости продолжается до момента времени t2, когда система оказывается на оси абсцисс, по которой она перемещается в начало координат. Иначе говоря, в момент t1 активным становится фазовое ограничение x3=0, а в момент t2 дополнительно “активизируется” ограничение x2=0. Записываем соответствующую задачу оптимального управления ГСПР:

0<t1<t2<T,

x˙01(t)=u01(t), x˙02(t)=u02(t), x˙03(t)=u03(t), |u0(t)|1, t[0;t1],

x0(0)=A, x03(t1)=0, (3.16)

x˙11(t)=u11(t), x˙12(t)=u12(t), |u1(t)|2, t[t1;t2];

x11(t1)=x01(t1), x12(t1)=x02(t1), x12(t2)=0, (3.17)

x˙21(t)=u21(t), |u2(t)|2, t[t2;T];

x21(t2)=x11(t2), x21(T)=0, (3.18)

Tmin. (3.19)

Активное на втором участке движения фазовое ограничение x3=0 исключено. Координаты x3 и u3 удалены из векторов состояния и управления. Равенство x3=0 в момент t1 записано как терминальное ограничение (3.16) для первого участка. Условия непрерывности траектории в момент t1 представлены уравнением переключения (3.17) в момент t1. На третьем участке дополнительно исключается активное ограничение x2=0. Координаты x2 и u2 удаляются из векторов состояния и управления, в момент t2 добавляется терминальное для второго участка ограничение (3.17), а условия непрерывности траектории в момент t2 записывается как переключение (3.18).

Применяем для решения задачи (3.19) необходимые условия оптимальности ГСПР. Поскольку переключения происходят в разные моменты, отличные от начального и конечного момента времени, то из условий дополняющей нежесткости следует равенство нулю множителей Лагранжа λ1=λ2=λ3=0. Тогда λ00, поэтому можно взять λ0=1. Для каждого промежутка непрерывного движения записываем функцию Понтрягина, дифференциальные уравнения для вспомогательных переменных, выражение для оптимального управления:

H0=ψ01u01+ψ02u02+ψ03u031,   ψ˙0=0,   u0=ψ0|ψ0|,   t[0;t1],H1=ψ11u11+ψ12u121,   ψ˙1=0,   u1=ψ1|ψ1|2,   t[t1;t2],H2=ψ2u21,   ψ˙2=0,   u2=2 sign ψ2,   t[t2;T]. (3.20)

Для моментов переключения составляем функции Понтрягина (1.9), записываем промежуточные условия, из которых получаем соотношения для вспомогательных переменных. В момент времени t1:

H^1=ψ11x01+ψ12x02,

{|ψ1|2|ψ0|}δt1+{ψ01ψ11}δx01+{ψ02ψ12}δx02=0.

Поскольку вариации δt1, δx01δx02 произвольные, получаем

|ψ1|2|ψ0|=0, ψ01=ψ11, ψ02=ψ12. (3.21)

В момент времени t2:

H^2=ψ2x11, {2|ψ2|2|ψ1|}δt2+{ψ11ψ2}δx11=0.

Отсюда при произвольных вариациях δt2δx11 находим

2|ψ2|2|ψ1|=0, ψ11=ψ2. (3.22)

В конечный момент времени T условие трансверсальности имеет вид

{2|ψ2|1}δT+ψ2δx21=0.

Учитывая равенство δx21=0 для фиксированного конечного состояния и произвольность вариации δT, получаем

2|ψ2|=1. (3.23)

На каждом промежутке непрерывного движения вспомогательные переменные постоянны. Поэтому управление тоже постоянное. Обозначим через C(xC1,0,0) состояние системы в момент t2. Из уравнений движения на последнем участке следует, что xC1=(Tt2)u2. Так как |u1|=2 и xC1>0, значит, u2=2 и Tt2=xC1/2. Отметим, что из условий (3.21) и (3.23) следует, что ψ2=0.5. Управление на третьем участке найдено.

Переходим ко второму участку, который заканчивается точкой C. Записываем условия (3.22) с учетом равенства ψ2=0.5:

|ψ1|=2|ψ2|=1/2, ψ11=ψ2=0.5.

Тогда из (3.20) вытекает, что u1=2ψ1, u11=1. Так как |u1|=2, то u12=1. Положительное значение u12=1 не подходит, так как координата x22 уменьшается на втором участке. Следовательно, ψ11=0.5, ψ12=0.5. Обозначим через B(xB1,xB2,0) состояние системы в момент времени t1. Тогда равенство t2t1=BC/2 определяет продолжительность второго участка.

Переходим к первому участку, который заканчивается в точке B. Записываем условия (3.21) с учетом равенств |ψ1|=1/2, ψ11=0.5, ψ12=0.5:

|ψ0|=|ψ1|2=1, ψ01=ψ11=0.5, ψ02=ψ12=0.5.

Поскольку u0=ψ0, то u01=0.5, u02=0.5. Из условия |u0|=1 определяем u03=1/2. Положительное значение u03=1/2 не подходит, так как координата x03 уменьшается на первом участке. Оптимальное управление на первом участке найдено. Определим продолжительность этого участка. Интегрируя уравнение движения, получаем

xB1=xA10.5t1, xB2=xA20.5t1, 0=xA3t1/2.

Следовательно, t1=2xA3. Определяем координаты точки B(xA1xA3/2;xA2xA3/2;0). Заметим, что BA0=xA3. Поэтому угол ABA0 равен π/4.

Теперь определим абсциссу точки C. Интегрируя уравнения движения на втором участке, получаем при управлении u11=u12=1:

xC1=xB1(t2t1), 0=xB2(t2t1).

Следовательно, t2t1=xB2, xC1=xB1xB2=xA1xA2. Заметим, что угол BCA1 равен π / 4.

Таким образом, в случае 3) оптимальная траектория представляет собой ломаную ABCO, представленную на рис. 4 полужирными отрезками. Стрелками указано направление движения. Время T3 движения по оптимальной траектории вычисляется по формуле

T3=AB+BC2+OC2=xA1+xA22+22xA3.

Отметим, что такая траектория существует, если xA2>xA3.

 

Рис. 4. Траектория с последовательной активизацией двух ограничений.

 

В зависимости от начального состояния каждая из четырех найденных траекторий АО, АBO, АCO, АBCO может быть оптимальной. Поэтому нужно определить значение времени движения для каждой допустимой траектории и выбрать наименьшее:

T=min{T0,T1,T2,T3}. (3.24)

В формуле (3.24) считаем, что время движения по недопустимой траектории равно +.

Например, для начального состояния A(5;3;2) получаем (приближенно)

T0=6.16, T1=5.54, T2=5.62, T3=5.41.

Значит, наименьшее время T=5.41 достигается на траектории АBCO с двумя переключениями в точках B(3.59;1.59;0) и C(2;0;0). Для начального состояния A(4;3;5) находим

T0=7.07, T1=+, T2=7.05, T3=+,

т.е. траектории АBO и АBCO не существуют, а наименьшее время T=7.05 достигается на траектории АCO с одним переключением в точке C(0.63;0;0).

Решение примера может быть получено, используя соображения геометрической оптики. Действительно, минимальную длину пути (соответственно наименьшее значение времени) дает луч света, исходящий из начального состояния и попадающий в начало координат после преломления на координатной плоскости Ox1x2 или на оси абсцисс. Отношение синуса угла падения к синусу угла преломления равно отношению скоростей света в соответствующих средах.

Для траектории ABO преломление происходит в точке B на координатной плоскости. Отношение скоростей движения до и после преломления составляет 1:2. Угол падения равен π/2ABA0, а угол преломления – π/2. Поэтому ABA0=π/4. Эта величина была получена в случае 1).

Для траектории ACO преломление происходит в точке C на оси абсцисс. Отношение скоростей движения до и после преломления составляет 1:2. Угол падения равен π/2ACA1, а угол преломления – π/2. Поэтому ABA1=π/3. Эта величина была получена в случае 2).

Для траектории ABCO преломление происходит в точках B и C. Отношения скоростей движения до и после преломления равны 1:2 в точке B и 2:2 в точке C. Отсюда находим, что ABA0=π/4 и BCA1=π/4. Эти углы были получены в случае 3).

П р и м е р 2. Найти оптимальное управление в задаче быстродействия Фельдбаума А. А. [12] с дополнительными фазовыми ограничениями

x˙1(t)=x2(t),   x˙2(t)=u(t),|u(t)|1,x2(t)x1(t)5,   x2(t)2,   0tT,x1(0)=4.5,   x2(0)=0.5,   x2(T)=0,Tmin. (3.25)

Решение этой задачи без фазовых ограничений известно [4, 12]. Оптимальным для заданных начальных условий является релейное управление с одним переключением:

u(t)=1, 0tτ; u(t)=1, τtT,

где τ=0.5+4.625, T=0.5+24.625. Оптимальная фазовая траектория изображена на рис. 5 полужирной кривой ABCDEO, а ограничения – прямыми. Допустимое множество состояний системы представляет собой тупой плоский угол BFE, ограниченный прямыми x2=x15 и x2=2, пересекающимися в точке F(3;2). Как видим, оптимальный процесс нарушает ограничения – участки BC и DE фазовой траектории находятся вне угла BFE.

 

Рис. 5. Оптимальная траектория без фазовых ограничений.

 

Полное исследование задачи Фельдбаума А. А. с одним линейным фазовым ограничением проведено в [13] на основе классических условий Дубовицкого – Милютина. Получим решение задачи (3.25) с двумя ограничениями путем исключения активных фазовых ограничений.

Учитывая решение задачи (3.25) без фазовых ограничений (см. рис. 5), составим план “активизации” ограничений. На рис. 6 допустимое множество состояний (плоский угол BFE) не заштриховано. Начальное A(4.5;0.5) и конечное O(0;0) состояния лежат внутри угла BFE. Поэтому в начале и в конце процесса управления движение системы “свободное”, при этом оба фазовых ограничения – пассивные. Предполагаем, что в некоторый момент t1 становится активным первое ограничение x2x15, т. е. состояние системы оказывается на прямой BF. Затем система “движется” по этой прямой некоторой точки C, которую достигает в момент времени t2. В этот момент времени система “сходит” с прямой BF и продолжает “свободное” движение (без активных фазовых ограничений). “Свободное” движение заканчивается в момент t3 (в точке D), когда система “попадает” на прямую FE, т. е. активным становится ограничение x22. Далее, система передвигается “по ограничению” до точки E, которую достигает в момент t4. В этот момент система “покидает” ограничение и, оказавшись внутри допустимого множества, перемещается “свободно” до момента T окончания движения в точке O.

 

Рис. 6. Оптимальная траектория с фазовыми ограничениями.

 

Таким образом, предполагаем, что движение системы на промежутке [0,T] происходит по следующему плану: при t[0;t1] система движется “свободно” (без активных фазовых ограничений); при t[t1,t2] система перемещается по прямой x2=x15, при t[t2,t3] происходит “свободное” движение; при t[t3,t4] – передвижение по прямой x2=2; при t[t4,T] движение системы опять “свободное”. Моменты переключений t1, t2, t3, t4 удовлетворяют неравенствам

0<t1<t2<t3<t4<T. (3.26)

Первое и последнее неравенства строгие, поскольку промежутки “свободного” движения в начале и конце процесса управления ненулевые (по продолжительности). В случае t1=t2 ограничение x2x15 не становится активным и его можно удалить из плана “активизации”. Однако это неверно, так как оптимальная траектория без этого ограничения (дуга ABC на рис. 5) пересекает прямую x2=x15 . Аналогично убеждаемся, что равенство t3=t4 невозможно, поскольку ограничение x22 обязательно будет активным (дуга DEO на рис. 5) и его нельзя удалить. Случай равенства t2=t3, когда одно активное ограничение меняется на другое, рассмотрим позже.

Исключая активные фазовые ограничения, составляем задачу управления ГСПР. Напомним, что нижний индекс у вектора состояния ГС указывает номер текущего промежутка времени или, что то же самое, количество уже совершившихся переключений.

На промежутке [t1,t2] выполняется тождество

x2(t)=x1(t)5. (3.27)

Записываем уравнения движения системы (3.25) с учетом (3.27) и равенство x˙2(t)=x˙1(t), которое получается при дифференцировании (3.27). Получаем

x˙1(t)=x2(t)  x˙1(t)=x1(t)5; x˙2(t)=u(t) u(t)=x˙1(t) u(t)=x1(t)5.

Следовательно, движение системы (3.25) на промежутке [t1,t2] описывается уравнениями

x˙11(t)=x11(t)5; u1(t)=x11(t)5. (3.28)

Заметим, что система (3.28) одномерная. Переменная x2 исключена из уравнений. Тождество (3.27) будет выполняться, если оно верно в момент времени t1. Чтобы обеспечить равенство x2(t1)=x1(t1)5, записываем его как терминальное условие на предыдущем промежутке [0,t1]:

x02(t1)=x01(t1)5, (3.29)

которое дополняем условием непрерывности траектории

x12(t1)=x01(t1). (3.30)

Условие (3.29) является промежуточным ограничением для ГС, а равенство (3.30) определяет переключение ГСПР в момент t1.

На промежутке [t3,t4] выполняется тождество

x2(t)=2. (3.31)

Записываем уравнения движения системы (3.25) с учетом (3.31) и равенство x˙2(t)=0, которое получается при дифференцировании (3.31). Тогда

x˙1(t)=x2(t)  x˙1(t)=2; x˙2(t)=u(t) u(t)=0.

Следовательно, движение системы (3.25) на промежутке [t3,t4] описывается уравнениями

x˙31(t)=2, u3(t)=0.

Равенство (3.31) в момент времени t3 обеспечиваем промежуточным ограничением x21(t3)=2 и условием непрерывности x31(t3)=x21(t3).

На промежутках [0,t1], [t2,t3], [t4,T] уравнения движения систем (3.25) не меняются, а переключения в моменты t2, t4 происходят согласно уравнениям

x21(t2)=x11(t2), x22(t2)=x11(t2)5; x41(t4)=x31(t4), x42(t4)=2,

которые следуют из условия непрерывности траектории системы (3.25).

Таким образом, задаче (3.25) с фазовыми ограничениями соответствует задача оптимального управления ГСПР:

0<t1t2t3<T,x˙01(t)=x02(t),   x˙02(t)=u0(t),   |u0(t)|1,   t[0,t1],x02(t1)=x01(t1)5,  ​x12(t1)=x01(t1),x˙11(t)=x11(t)5,   u1=x11(t)2,   t[t1,t2],x21(t2)=x11(t2),   x22(t2)=x11(t2)5,   x˙21(t)=x22(t),  ​x˙22(t)=u2(t),   |u2(t)|1,   t[t2,t3],x21(t3)=2,   x31(t3)=x21(t3),x˙31(t)=1,   u3(t)=0,   t[t3,t4],x41(t4)=x31(t4),   x42(t4)=2,x˙41(t)=x42(t),   x˙42(t)=u4(t),   |u4(t)|1,   t[t4,T],x1(0)=4.5,   x2(0)=0.5,   x1(T)=0,   x2(T)=0, (3.32)

Tmin.

Применяем для решения задачи (3.32) необходимые условия ГСПР (см. разд. 1.2). Для каждого промежутка непрерывного движения составляем функцию Понтрягина (1.9), записываем дифференциальные уравнения для вспомогательных функций и выражение для оптимального управления:

H0=ψ01x02+ψ02u0λ0, ψ˙01=0, ψ˙02=ψ02, u0=sign ψ02, t[0,t1],

H1=ψ11(x115)λ0, ψ˙01=ψ11, u1=x115, |x115|1, t[t1,t2],

H2=ψ21x22+ψ22u2λ0, ψ˙21=0, ψ˙22=ψ22, u2=sign ψ22, t[t2,t3],

H3=ψ31(2)λ0, ψ˙31=0, u3=0, t[t3,t4],

H4=ψ41x42+ψ42u4λ0, ψ˙41=0, ψ˙42=ψ42, u4=sign ψ42, t[t4,T].

Составляем функции Понтрягина (1.9) для переключений и записываем условия трансверсальности для моментов переключений:

H^1=ψ11x01, ψ12(x12-5)-λ0-(ψ01x01+ψ02-λ0)+λ2-λ1δt1+(ψ01-ψ11)δx11+ψ02δx02=0,

в момент t=t1, где δx01=δx02, а вариация δt1 – любая;

H^2=ψ21x11+ψ22·(x11-5),,

{ψ22x22+|ψ22|λ0[ψ11(x115)λ0]+λ3λ2}δt2+(ψ11ψ21ψ22)δx11=0

в момент t=t2, где вариации δt2, δx11 – любые;

H^3=ψ31x31{ψ31(2)λ0(ψ21x22+|ψ22|λ0)+λ4λ3}δt3+(ψ21ψ31)δx21+ψ22δx22=0

в момент t=t3, где δx22=0, а вариация δt3 – любая;

H^4=ψ41x31+ψ42·(-2),

{ψ41x42+|ψ42|λ0[ψ31(2)λ0]+λ5λ4}δt4+(ψ31ψ41)δx31+ψ31δx32=0

в момент t=t4, где δx32=0, а вариации δt4, δx31 – любые;

H^4=ψ41x31+ψ42·(-2),

{ψ41x42+|ψ42|λ0[ψ31(2)λ0]+λ5λ4}δt4+(ψ31ψ41)δx31+ψ31δx32=0

в момент t=t4, где δx32=0, а вариации δt4, δx31 – любые. Упрощаем полученные условия, учитывая уравнения переключений и промежуточные ограничения:

ψ02x02|ψ02|+λ2λ1=0,   ψ11ψ01=ψ02,   t=t1,ψ22x22+|ψ22|+λ3λ2=0,   ψ11ψ21=ψ22,   t=t2,|ψ22|+λ4λ3=0,   ψ21ψ31=0,   t=t3,|ψ42|+λ5λ4=0,   ψ31ψ41=0,   t=t4. (3.33)

В конечный момент времени T из условия трансверсальности получаем

ψ41x42+|ψ42|λ0=0  |ψ42|=λ0. (3.34)

Осталось записать условия дополняющей нежесткости:

λ1(t1)=0, λ2(t1t2)=0, λ3(t2t3)=0, λ4(t3t4)=0, λ5(t4T)=0, (3.35)

а также условие неотрицательности λi0, i=0,1,...,5.

Будем решать систему уравнений (3.33) – (3.35). В случае (3.26), когда моменты переключений не совпадают, из условий (3.35) следует, что все множители Лагранжа, за исключением λ0, равны нулю. Поэтому можно взять λ0=1. При этом уравнения (3.33), (3.34) принимают вид

ψ02x02|ψ02|=0, ψ11ψ01=ψ02, t=t1,

ψ22x22+|ψ22|=0, ψ11ψ21=ψ22, t=t2,

|ψ22|=0, ψ21ψ31=0, t=t3,

|ψ42|=0, ψ31ψ41=0, t=t4,

|ψ42|=1.

На последнем промежутке времени [t4,T] из условия |ψ42(t4)|=0 следует, что ψ42(t4)=0. Поэтому функция ψ42(t) имеет постоянный знак при t(t4,T). Она либо убывает, либо возрастает, согласно уравнению ψ˙42=ψ41=const. Значит, управление u4 постоянно. Однако если u4=1, то будет нарушено ограничение x22. Потому u4(t)=1 при t[t4,T]. Тогда фазовая траектория OE имеет вид x41=0.5(x42)2, начинается в точке E(2;2) и заканчивается в начале координат O(0;0). Время движения на этом участке Tt4=2.

На промежутке времени [t2,3] из условия |ψ22(t3)|=0 следует, что ψ22(t3)=0. Поэтому функция ψ22(t) имеет постоянный знак при t(t2,t3). Она либо убывает, либо возрастает, согласно уравнению ψ˙22=ψ21=const. Значит, управление u2 постоянно. Причем u2=1 при t(t2,t3), поскольку скорость движения на этом промежутке убывает, так как x22(t2)>x22(t3)=2. Заметим, что u2(t2)=1, поэтому ψ22(t2)<0, тогда

ψ22(t2)x22(t2)+|ψ22(t2)|=0 ψ22(t2)[x22(t2)+1]=0 x22(t2)=1.

Значит, x21(t2)=4, поскольку состояние системы в момент t2 находится на прямой x2=x15. Фазовая траектория CD, соответствующая управлению u2=1 и проходящая через точку C(4;1), имеет вид x21=4.50.5(x22)2. Она начинается в точке C и заканчивается на прямой x2=2 в точке D(2.5;2). Время движения по этому участку t3t2=1.

На отрезке DE уравнение движения x˙31=2. Поэтому x31(t)=2.52(tt3), t[t3;t4]. Время движения по этому участку t4t3=0.25. На участке BC движение описывается уравнением x˙11=x115, причем в момент t2 система находится в точке C, т. е. абсцисса x11(t2)=4. Следовательно, x11(t)=5ett2, u1(t)=ett2, t[t1,t2]. Заметим, что x11(t1)<5, значит, x01(t1)<5 и x02(t1)<0.

Определим знак ψ02 в момент переключения t1. Если ψ02(t1)>0, то из условия трансверсальности имеем ψ02(t1)[x02(t1)1]=0. Значит, x02(t1)=1, что противоречит полученному выше условию отрицательности: x02(t1)<0. Если ψ02(t1)<0, то ψ02(t1)[x02(t1)+1]=0. Следовательно, x02(t1)=1, тогда x01(t1)=4. В этом случае t1=t2, что противоречит предположению t1<t2. Таким образом, ψ02(t2)=0. Учитывая, уравнение ψ˙02=ψ01=const, делаем вывод, что функция ψ01 имеет постоянный знак на промежутке (0;t1). Значит, управление постоянно: либо u0=1, либо u0=1. В последнем случае скорость x02(t) возрастает, поэтому x02(t1)>0, что противоречит условию отрицательности: x02(t1)<0. Фазовая траектория AB, соответствующая управлению u0=1 и проходящая через точку A(4.5;0.5), имеет вид x01=4.6250.5(x02)2. Она начинается в точке A и заканчивается на прямой x2=x15 в точке B(4.5;0.5). Время движения по этому участку t1=1.

Вычисляем время движения по траектории ABCDEO. Время перемещения по отрезку BC определяется из условия x11(t1)=4.5, т. е. x11(t1)=5et1t2=4.5. Следовательно, t2t1=ln2. Суммируя время движения по всем участкам, получаем T=4.25+ln2.

Решение задачи получено при условиях (3.26). Ранее было показано, что все неравенства в (3.26) обязательно строгие, за исключением, быть может, случая t2=t3. Следовательно, траектория проходит через точку пересечения прямых x2=x15 и x2=2. Тогда в точке F управление u2=35=2, что противоречит ограничению |u|1. Значит, t2t3, т. е. t2<t3.

Таким образом, траектория с четырьмя моментами переключений является оптимальной. Наименьшее время достижения начала координат T=4.25+ln2.

Заключение. Предлагаемый подход для решения задач оптимального управления непрерывными системами с фазовыми ограничениями вполне эффективен, хотя и громоздкий. Методика применения необходимых условий оптимальности гибридных систем аналогична использованию принципа максимума для непрерывных систем. Трудно формализуемым местом предлагаемого подхода является процедура планирования порядка активизации фазовых ограничений. Решающую роль при этом играют практические представления о характере оптимального процесса. Если таких представлений нет, то приходится рассматривать разные планы «активизации» фазовых ограничений, что, разумеется, усложняет решение задачи.

Разработанный метод исключения активных фазовых ограничений можно применять не только для непрерывных систем. Он распространяется на задачи оптимального управления непрерывно-дискретными и гибридными системами с фазовыми ограничениями. При этом методика замены фазовых ограничений на промежуточные ограничения для гибридной системы переменной размерности остается неизменной.

×

About the authors

A. S. Bortakovskii

Moscow Aviation Institute (National Research University); National University of Science and Technological University (MISiS)

Author for correspondence.
Email: asbortakov@mail.ru
Russian Federation, Moscow; Moscow

References

  1. Дубовицкий А.Я., Милютин А.А. Задачи на экстремум при наличии ограничений // ЖВМиМФ. 1965. Т. 5. № 3. С. 395–453.
  2. Милютин А.А., Дмитрук А.В., Осмоловский Н.П. Принцип максимума в оптимальном управлении. М.: Изд-во Центра прикладных исследований при механико-математическом факультете МГУ, 2004.
  3. Бортаковский А.С. Необходимые условия оптимальности гибридных систем переменной размерновсти // Изв. РАН. ТиСУ. 2022. № 1. С. 28–40.
  4. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Физматгиз, 1961.
  5. Sussmann H.J. A Maximum Principle for Hybrid Optimal Control Problems // Proc. 38th IEEE Conf. on Decision and Control. Phoenix, 1999.
  6. Дмитрук А.В., Каганович А.М. Принцип максимума для задач оптимального управления с промежуточными ограничениями. // Нелинейная динамика и управление. Вып. 6. М: Физматлит, 2008. С. 101–136.
  7. Bortakovskii A.S. Necessary Optimality Conditions for Hybrid System of Variable Dimension with Intermediate Constraints // J. Math. Sci. 2023. V. 270. No. 5. P. 640–653.
  8. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. М.: Наука, 1973.
  9. Иоффе А.Д., Тихомиров В.М. Теория экстремальных задач. М.: Наука, 1974.
  10. Федоренко Р.П. Приближенное решение задач оптимального управления. М.: Наука, 1978.
  11. Bасильев Ф.П. Методы оптимизации. М.: Факториал Пресс, 2002.
  12. Фельдбаум А.А. О синтезе оптимальных систем с помощью фазового пространства // Аи Т. 1955. Т. 16. № 2. С. 129–149.13.
  13. Dmitruk A., Samylovskiy I. Optimal Synthesis in a Time-Optimal Problem for the Double Integrator System with a Linear State Constraint // J. Dynamical and Control Systems. 2023. V. 29. P. 21–42.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Trajectory of “free” movement (without active phase restrictions).

Download (13KB)
3. Fig. 2. Trajectory with one active constraint.

Download (14KB)
4. Fig. 3. Trajectory with simultaneous activation of two restrictions.

Download (14KB)
5. Fig. 4. Trajectory with sequential activation of two restrictions.

Download (13KB)
6. Fig. 5. Optimal trajectory without phase constraints.

Download (26KB)
7. Fig. 6. Optimal trajectory with phase constraints.

Download (32KB)

Copyright (c) 2024 Russian Academy of Sciences

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».