Heurisztikusan gyorsított megerősítéses tanulási módszerek - áttekintés

Szerzők

  • Tompa Tamás Miskolci Egyetem
  • Kovács Szilveszter Miskolci Egyetem

DOI:

https://doi.org/10.35925/j.multi.2020.3.48

Kulcsszavak:

megerősítéses tanulás, heurisztikusan gyorsított megerősítéses tanulás, szakértői tudásbázis, Q-learning, fuzzy Q-learning

Absztrakt

A klasszikus megerősítéses tanulási módszerek (Q-learning, SARSA) mindegyike egy megfelelően definiált jutalomfüggvény által, a környezettől kapott visszajelzések ismeretében számos próbálkozással térképezi fel az adott probléma megoldásához vezető utat. A rendszer a tanulási folyamat kezdetén semmilyen tudással nem rendelkezik a probléma megoldásával kapcsolatban, a megoldás tudásbázisát a tanulási fázis során állítja elő, az a célja, hogy iterációról-iterációra feltérképezze azt. Ennek következtében azonban a tanulási folyamat, illetve a probléma megoldása alatt lejátszódó iterációk száma meglehetősen hosszadalmas lehet. Ez a folyamat felgyorsítható lehet abban az esetben, ha áll rendelkezésre részleges információ a megoldásra vonatkozóan és az injektálható a rendszerbe. A heurisztikusan gyorsított megerősítéses tanulási módszerek ember által, valamilyen formában megadott tudást visznek be rendszerbe, amely által a konvergenciasebesség és a megoldás alatt eltelt lépések száma csökkenhető. Jelen cikk célja, hogy áttekintse azon megerősítéses tanulási módszereket, melyek heurisztikusan gyorsítottak, azaz ember által megadott előzetes (a priori) illetve részleges tudásbázis injektálását teszik lehetővé a megerősítéses tanuló rendszerbe.         

##submission.downloads##

Megjelent

2020-10-02