Пользовательского поиска
|
Управляемой цепью Маркова (УЦМ) называется случайный процесс, обладающий марковским свойством и включающий в качестве элемента математической модели конструкцию (кортеж) . Решение, принимаемое в каждый конкретный момент (шаг процесса), назовем частным управлением.
Таким образом, процесс функционирования системы, описываемой УЦМ, выглядит следующим образом:
· если система находится в состоянии и принимается решение , то она получает доход ;
· состояние системы в последующий момент времени (шаг) определяется вероятностью , то есть существует вероятность того, что система из состояния перейдет в состояние , если выбрано решение .
Очевидно, общий доход за n шагов является случайной величиной, зависящей от начального состояния и качества, принимаемых в течение хода процесса решений, причем это качество оценивается величиной среднего суммарного дохода (при конечном времени) или среднего дохода за единицу времени (при бесконечном времени).
Стратегией p называется последовательность решений:
(18),
где
— вектор управления.
Задание стратегии означает полное описание конкретных решений, принимаемых на всех шагах процесса в зависимости от состояния, в котором находится в этот момент процесс.
Если в последовательности (векторе) p все одинаковы, то такая стратегия называется стационарной, т. е. не зависящей от номера шага. Стратегия называется марковской, если решение , принимаемое в каждом конкретном состоянии, зависит только от момента времени n, но не зависит от предшествующих состояний.
Оптимальной будет такая стратегия, которая максимизирует полный ожидаемый доход для всех i и n. В теории УМЦ разработаны два метода определения оптимальных стратегий: рекуррентный и итерационный.