![]()
Пользовательского поиска
|
Управляемой цепью Маркова (УЦМ) называется случайный процесс,
обладающий марковским свойством и включающий в качестве элемента математической
модели конструкцию (кортеж) .
Решение, принимаемое в каждый конкретный момент (шаг процесса), назовем частным
управлением.
Таким образом, процесс функционирования системы, описываемой УЦМ, выглядит следующим образом:
·
если система находится в состоянии и
принимается решение
,
то она получает доход
;
·
состояние системы в последующий момент времени
(шаг) определяется вероятностью ,
то есть существует вероятность того, что система из состояния
перейдет
в состояние
,
если выбрано решение
.
Очевидно, общий доход за n шагов является случайной величиной, зависящей от начального состояния и качества, принимаемых в течение хода процесса решений, причем это качество оценивается величиной среднего суммарного дохода (при конечном времени) или среднего дохода за единицу времени (при бесконечном времени).
Стратегией p называется последовательность решений:
(18),
где
— вектор управления.
Задание стратегии означает полное описание конкретных решений, принимаемых на всех шагах процесса в зависимости от состояния, в котором находится в этот момент процесс.
Если в последовательности (векторе) p все одинаковы,
то такая стратегия называется стационарной, т. е. не зависящей от номера шага.
Стратегия
называется марковской, если решение
,
принимаемое в каждом конкретном состоянии, зависит только от момента времени n,
но не зависит от предшествующих состояний.
Оптимальной будет такая стратегия, которая максимизирует полный ожидаемый доход для всех i и n. В теории УМЦ разработаны два метода определения оптимальных стратегий: рекуррентный и итерационный.
![]() |