Must Learning With Statistics

[강화학습 추천서] 심층 강화학습 인 액션 본문

일반 포스팅

[강화학습 추천서] 심층 강화학습 인 액션

Doublek Park 2020. 11. 23. 01:22

모든 학문에는 끝판왕 분야가 있기 마련입니다. 개인적으로 통계학에서는 '베이지안 통계학'이 끝판왕이라고 생각하며, 인공지능 관련(머신러닝, 딥러닝)분야에서의 끝판왕은 '강화학습'이라고 생각합니다.

이런 끝판왕 학문들은 공통점이 있는데, 공부하기가 참 어렵다는 것입니다. 기본적으로 내용이 어려운 것도 있지만, 가장 중요한 것은 다양한 교육자료가 부족하기 떄문입니다. 우리는 엄청나게 많은 시간을 구글에서 설명자료를 찾는데 투자합니다. 목적은 최대한 쉽고 간단하게 설명한 포스팅을 찾기 위함입니다. 하지만 이 두 분야는 그러기가 참 쉽지 않습니다. 애초에 글들이 많이 안올라와 있는 것이 가장 큰 이유입니다. 올라와 있는 자료들도 어디선가 많이 본 자료들을 재탕 및 재활용하는 포스팅들을 심심치 않게 볼 수도 있기마련입니다.

베이지안 통계학에서의 핵심인 Sampling(Importance Sampling, Gibbs Sampling 등..) 기법들은 현대 기계학습과 딥러닝 분야에서 많이 사용되는 주제이기때문에 그래도 다양한 포스팅들을 볼 수 있는 것 같습니다. 하지만 강화학습은 그러지 못한 것이 현실입니다. 강화학습을 활용하는 프로젝트를 리딩하고 있는 저로써는 정말로 공부하기 어려운 주제 중 하나라고 매일매일 느끼고 있습니다.

 

 

출판사 '제이펍'에서 출판한 인공지능 관련 서적들

 

 

강화학습을 입문하는 사람들의 기본적인 진입 패턴은 아마도 다음과 같을 겁니다.

1. 리차드 S. 소튼의 [Introduction to Reinforcement Learning] 입문 혹은 David Silver의 강화학습 강의 영상(유튜브) 

(Introduction to Reinforcement Learning은 현재 '단단한 강화학습'으로 변역이 되어 출간되었음)

2. 김성훈 교수님의 강화학습 강의 (유튜브)

3. 팡요랩의 강화학습 강의 (유튜브)

아마 이 안에서 강화학습 입문이 시작될 확률이 매우 높을 거라고 생각합니다. 사실 어떤 것부터 시작해도 똑같은 문제에 직면하기 마련입니다. 이유는 위 3가지의 교육자료는 동일한 Source를 기반으로 진행되었기 때문입니다. 강화학습을 구현 하면서 정말 어려운 것이, 예제는 이해하겠는데, 이걸 '실전'에 적용시킬 때는 완전히 다른 세계가 펼처지는 것이 정말 큰 어려움으로 다가옵니다.

이런 상황에서 우리는 다방면으로 강화학습을 적용시킨 사례들과 참고할 수 있는 코드를 공부할 수 있으면 좋은데, 구글에서는 'CartPole'예제를 뺴두고는 딱히 찾을 수가 없는 것이 현실입니다. 강화학습은 풀고자 하는 문제에 따라 정말 천지차이인데, 참고할만한 자료가 많이 부족한 것이 큰 문제입니다.

이 문제를 해결해줄만한 책이 이번에 제이펍에서 출판한 [심층 강화학습 인 액션]입니다.

 

심층 강화학습 인 액션 (제이펍)

 

보통의 강화학습 교육자료들은 강화학습의 근본이 되는 '마르코프 결정 프로세스' 및 '벨만 방정식'을 기준으로 빌드업을 합니다. 강화학습을 하는 입장에서 위 이론은 무조건 숙지하고 있어야하는 것이 맞지만 수리모형이 기본이 되는 책의 전개는 많은 독자들이 어려움을 겪게 되는 문제가 발생합니다. 이 책에서 추구하는 방향은 난이도를 낮추고자 하는 것에 있습니다. 

수식을 활용한 전개보다는 사례와 비유를 통한 설명에 더 비중을 두고 있습니다. 또한 구글에서 보던 "그 자료"를 더이상 안 볼 수가 있습니다. 물론 Cart Pole예제를 사용하기는 하지만, 접근 방식을 더 심층적인 내용에서 쉽게 풀어쓴 것을 느낄 수가 있는 책이었습니다. 그렇기에 강화학습을 공부하기에 매우 훌륭한 책 중 하나라고 생각이 들었습니다.

나머지, 이 책의 장점 중 하나는 'Multi Agent'에 대한 설명이 포함이 되었다는 것입니다. 강화학습을 공부하고 연구하는 사람들의 최종목적지는 'Multi Agent'에 있습니다. 하지만 검색하면 뭐 나오는 것이 없습니다. (차라리 CartPole같은 중복 예제라도 나와줬으면 좋겠습니다.) 이 책은 이 부분을 다루고 있기에, 강화학습에 매우 큰 도움이 될 수가 있습니다.

저도 이 책을 읽으면서 제가 진행 중이고 연구중이던 프로젝트에서 잘 안풀리던 문제를 해결할 수 있는 하나의 돌파구를 찾은 것 같기에 매우 만족하고 있습니다. 계속 두고두고 참고하면서 읽을 것 같습니다. 매우 추천되는 책 중 하나입니다.

 

다만, 한가지 유의할점은 강화학습에 대한 지식이 0인 상태로 읽으면 많이 어려울 수도 있으며, DQN에 대한 기본 지식또한 필요하지 않을까라고 생각이 듭니다. 제가 '마르코프 의사결정 프로세스', '벨만 방정식' ,'DQN'등의 기본지식들은 있는 상황에서 책을 접했기에 큰 어려움은 없었으나, 만약 그러지 않으신 독자들에게는 책이 처음에 무슨 소리를 하는지 모를 수도 있을 것 같다라는 생각이 들었습니다. 쉽게 설명한 만큼, 수리적 이론과 증명 내용은 부족할 수도 있기 때문입니다.

아마, 다른 강화학습 책 혹은 Introduction to Reinforcement Learning의 번역본인 [단단한 강화학습] 책의 앞 부분에 해당하는 기본 내용들에 대해 학습을 하고 이 책을 접하시면 효율이 올라갈 것 같습니다.

이 책을 시작할 때는 저는 다음과 같다고 생각합니다.

- 마르코프 의사결정과 벨만 방정식을 숙지한 상황

- DQN, Actor-Critic 등에 대해서 들어는본 적이 있는 상황

이 정도에서 이 책을 접하시면 매우 큰 도움이 될 수 있을거라고 생각합니다.

[이 포스팅은 제이펍으로 부터 서평이벤트 당첨으로 작성되었습니다.]

 

 

Comments