![]()
Пользовательского поиска
|
доходов состоит также из постоянных, не зависимых от n величин, то можно предположить, что с ростом n общая величина доходов будет возрастать линейно.
Представим графически линейную зависимость суммарного дохода от
числа шагов .
показывает
зависимость суммарного дохода, если система “стартовала” из состояния
.
Соответственно, прямая
изображает
ту же зависимость для состояния
.
Обе прямые могут быть описаны линейными уравнениями
:
(20),
где
g — угловой коэффициент прямой ;
— доход в i-том состоянии в конце процесса
Легко заметить, что при таком представлении зависимости величина
непосредственно ожидаемого дохода q (см. формулу (19)) заменяется g. Отличие
здесь лишь в том, что g является величиной постоянной для всего процесса, в то
время как q меняется на каждом шаге. Величина
показывает,
на сколько в среднем отличается доход, когда процесс заканчивается в том или
ином состоянии. В теории марковских цепей
называют
весом, так как разница
при
двух состояниях показывает средний выигрыш от того, в каком состоянии мы
находимся в конце процесса (независимо от выбранной стратегии).
Таким образом, подводя итоги общих рассуждений, можно сказать, что свойство эргодичности позволяет нам считать справедливым приближенное равенство:
(21)
На этом предположении и основан итерационный метод. Суть его сводится к тому, что при разных стратегиях путем последовательных приближений определяются значения сумм.
(22)
Таким образом, если ранее (при рекуррентном методе) искалась стратегия, обеспечивающая на каждом шаге максимум суммы непосредственно ожидаемого
![]() |