takomillashtirishni"> takomillashtirishni"> takomillashtirishni" />

"Policy Collapse" nima va nima sabablar?

"Siyosat qulashi" degan iborani "https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic- agentlar-a3c-c88f72a5e9f2 "rel =" nofollow noreferrer "> takomillashtirishni o'rganish uchun qo'llanma .

Tahminimcha, siyosat yomon yomon parametr tufayli ta'limni yomonlashtirsa, siyosatning yiqilishi deb hisoblayman, lekin u o'qish darajasi, partiya hajmi va boshqalar bo'lsa-da, lekin uni aniq va tushunarli qilib tushuntira olmadim. batafsil ma'lumot.

3

1 javoblar

"policy collapse" uchun veb-qidiruv "" takomillashtirishni o'rganish " bu savolni, stats.stackexchange.com bilan bog'langan va so'zni topgan sharhlar bo'limida topadi. So'zlar bir-birining yonida paydo bo'ladigan bog'liq bo'lmagan mavzularda ikkita boshqa natijalar mavjud. Keyin Google-dan 5 natijaga erishdi.

policy collapse bo'yicha qidiruv uchun Google kitoblari ngrams hech qanday murojaat topa olmaydi.

Salbiy isbot qilish qiyin, biroq, bu keng qo'llanilgan atama emas, deb o'ylayman.

Biroq, sharh haqiqiy hodisani nazarda tutayotgan ko'rinadi. Masalan, takomillashtiruvchi vosita, tajriba orttirgan holda optimal siyosat uchun funksiya qiymatini birlashtirmasdan, aslida ajralib chiqadi (va taxminiy ko'rsatkich parametrlari ham ajralib chiqadi).

Bu ish qadriyatlarini baholash uchun chiziqli bo'lmagan funktsiyalar taxminlarini ishlatganda yuz berishi mumkin. Keyinchalik umuman olganda, sizda quyidagi muammolarga duch kelganingizda yuz berishi mumkin:

  • Funktsiya taxminiyligi, ayniqsa, chiziqli bo'lmagan (hatto lineer funktsiya yondoshuvlari ham ajralib tursa ham)

  • Bootstrap uslubini ishlatish, masalan. Temporal Difference (TD) o'rganish (SARSA va Q-learning), qadriyatlarni ketma-ket qadamlarga tatbiq etilgan qiymatdan baholanadigan qiymat.

  • Tanlovdan tashqari ta'lim.

  • Tegishli siyosatni o'rganishga intilib,

Sutton va Bartoning kitobida "o'lik triad" deb nomlanadi. Agar "o'lik uchlik" va "takomillashtiruvchi o'rganish" uchun veb-qidiruvni amalga oshirsangiz, siz ko'plab natijalarni topasiz. Tadqiqotning davom etadigan maydoni bu ta'sirga qarshi qanday kurashishning eng yaxshi usulidir. Atari o'yinlarini o'ynashni o'rganadigan DQN modelini taqdim etgan qog'oz < Tadqiqotchilar ta'sirga qarshi barqarorlikka yordam beradigan ikkita narsani qo'llashdi:

  • Tajribalarni takrorlash, bu erda o'tishlar darhol o'rganilmaydi, lekin yechimchini o'qitish uchun mini-paketlardan namuna olinadigan hovuzga qo'yiladi.

  • Bootstrap bashoratlari ta'lim tarmog'ining "muzlatilgan" nusxasidan olingan, har bir N mashg'ulot bosqichida yangilangan - ya'ni TD maqsadini hisoblashda $ R + \ gamma \ hat {q} (S ', A' \ theta) $, ushbu eski nusxasini tarmoqdan foydalaning.

Siz bog'laydigan sharh bo'limidan, hatto ushbu narsalarni qo'llash kafolatlangan tuzatish emas va ba'zi bir qarorlarni qabul qiladi. Bunday holatda tajriba replaying uchun mini-partiya hajmi oshib ketdi, bu esa video o'yinining variantini o'ynatuvchi agentni barqarorlashtirishga yordam berdi. Pong .

4
qo'shib qo'ydi