Пользовательского поиска
|
доходов состоит также из постоянных, не зависимых от n величин, то можно предположить, что с ростом n общая величина доходов будет возрастать линейно.
Представим графически линейную зависимость суммарного дохода от числа шагов .
показывает зависимость суммарного дохода, если система “стартовала” из состояния . Соответственно, прямая изображает ту же зависимость для состояния . Обе прямые могут быть описаны линейными уравнениями :
(20),
где
g — угловой коэффициент прямой ;
— доход в i-том состоянии в конце процесса
Легко заметить, что при таком представлении зависимости величина непосредственно ожидаемого дохода q (см. формулу (19)) заменяется g. Отличие здесь лишь в том, что g является величиной постоянной для всего процесса, в то время как q меняется на каждом шаге. Величина показывает, на сколько в среднем отличается доход, когда процесс заканчивается в том или ином состоянии. В теории марковских цепей называют весом, так как разница при двух состояниях показывает средний выигрыш от того, в каком состоянии мы находимся в конце процесса (независимо от выбранной стратегии).
Таким образом, подводя итоги общих рассуждений, можно сказать, что свойство эргодичности позволяет нам считать справедливым приближенное равенство:
(21)
На этом предположении и основан итерационный метод. Суть его сводится к тому, что при разных стратегиях путем последовательных приближений определяются значения сумм.
(22)
Таким образом, если ранее (при рекуррентном методе) искалась стратегия, обеспечивающая на каждом шаге максимум суммы непосредственно ожидаемого