Paper: Continuous Deep Q-Learning with Model-based Acceleration
Paper Continuous Deep Q Learning With Model Based Acceleration
| Oppdatering: 2020.10.28 | root @ xxxxx
Referanseblogg:
1: https://zhuanlan.zhihu.com/p/28563483 (Modellbasert vs. modellfri -> Dyna-1 og Dyna-2 -> Utvid Dyna [NAF] -> Overvåket NoDyna)
to: https://blog.csdn.net/weixin_42137700/article/details/103255186 (Homomorphism-Based RL vs. Latent-Space Modellering)
3: https://blog.csdn.net/weixin_44125720/article/details/103098632 (Utvid Dyna [NAF])
Denne artikkelen diskuterer flere metoder for å forbedre prøveeffektiviteten til modellfri dyp forsterkningslæring. Først foreslår vi en metode for å anvende standard q læringsmetode på høydimensjonale kontinuerlige oppgaver ved hjelp av standardisert fordelfunksjon (NAF). Dette gjør det mulig for oss å forenkle mer standard karakter-kritikeralgoritmer, samtidig som vi beholder fordelene med tilnærming av ikke-lineær verdifunksjon, og lar oss vedta enkle og effektive adaptive letemetoder. Resultatene viser at sammenlignet med den nylig foreslåtte AC-algoritmen, lærer algoritmen vår raskere og den oppnådde strategien er mer nøyaktig. Vi undersøkte videre hvordan vi kan akselerere modellfri RL ved å slå sammen læringsmodeller uten å ofre strategiens optimalitet når modellinnlæringen ikke er perfekt. Vi viser at selv om Q-læring kan innlemme erfaring utenfor politikken, vil læring hovedsakelig fra utpolitikkutforskning (gjennom modellbasert planlegging) sjelden forbedre algoritmens samlede prøveeffektivitet. Vi antar at dette er forårsaket av behovet for å observere både vellykkede og mislykkede handlinger for å få et nøyaktig estimat av Qfunction. Vi beviste at en alternativ metode basert på strategisyntese kan øke prøvenes kompleksitet, men bare hvis modellinnlæringsalgoritmen er nøye valgt. Vi beviste at opplæring av nevrale nettverksmodeller ikke gir vesentlige forbedringer i vårt felt, men enkle iterative modifiserte, tidsvarierende lineære modeller gir betydelige forbedringer i feltene der de kan brukes.
personlig mening
Den viktigste NAF-algoritmen forbedrer DQN, og bruker deretter iLQG-algoritmen til å velge den beste strategien, og gjentas i modellen som erfaring for å akselerere den modellfrie tilpasningen.
iLQG : https://blog.csdn.net/qq_24464155/article/details/101352810
PILCO : https://zhuanlan.zhihu.com/p/27537744
PPO: https://link.zhihu.com/?target=https%3A//blog.openai.com/openai-baselines-ppo/