본문 바로가기

강화학습 공부

(5)
강화학습 공부 5 이번 강의까지가 본격적으로 가기 전 마지막 강의야. 6부터 10이 본격적인 강의니까 여기까지를 마스터 해야되. 어떻게 유도되었는 지도 다 알아야되. 난 정리하면서 거의 마스터 수준이고 이해도가 엄청 높아진 것 같아. 너네도 혹여나 내 글을 본다면 1부터 천천히 혼자 식을 이해해보려고 해봐. 그럼 이해를 쉽게 할 거야.AutoML에서의 강화학습은 Policy Gradient지만 난 그냥 10강까지는 다 볼라고. 이미 안다고 그냥 지나치기에는 기초를 엄청 확실히 해야 내가 연구를 원활하게 진행할 수 있다는 것을 꺠달았어. 기초 없이 논문만 본다고 아이디어가 그냥 나오지도 않고 논문을 제대로 이해를 할 수 있을 것 같진 않아. AUtoML을 하려고 하는 애들도 있을 거야. 그럼 강화학습과 RNN은 마스터를 하..
강화학습 공부 4 자 이번엔 lecture 4야. 5까지가 기본중 기본이라고 보면 되. 6부터가 진짜니까 5까지는 잘 들어야되. // Lecture 4 : Model-Free Prediction자 우리는 저번 시간에 MDP 환경에서 planning을 배웠어. 즉 환경을 다 아는 상황에서의 policy를 평가하는 방법(prediction)과 최적의 policy를 구하는 (control)을 배웠지. control에는 두가지 방법이 있엇어. policy iteration, value iteration.... prediction에는 iterative policy evaluation이 있었어. 그치? 그리고 마지막에 계산할게 너무 많다고 했어. 그래서 sample backup에 대해서 잠간 배웠어.이거의 장점은 MDP가 아닌 환경..
강화학습 공부 3 강화학습 3번째 강의야 // Lecture 3: Planning by Dynamic Programming우리는 Lecture 2에서 MDP를 배웠지. 그리고 내가 강화학습 문제는 Planning과 reinforcement learning 문제로 나눌 수 있다고 했어. 그 두 차이는 환경을 아냐 모르냐라고 했지. 지금 Planning은 환경을 아는 상태. 즉 MDP일 떄를 말하고 환경에 대한 모델이 있을 때 최적의 policy를 찾는 방법이야 // Outline개요야6번은 강의에 설명 안해서 안배울 것이고 234가 핵심.저번 강의에서는 벨만 수식이 핵심이였어. 여태까지는 벨만 수식으로 표현한 것을 행렬로 만들고 어떻게 넘겨서 한방으로 풀 수가 있다고 했었지. 근데 이렇게 할 시 문제가 너무 커서 조그만한 ..
강화학습 공부 2 이번에 Lecture 2 : Markov Decision Processes을 배울 거임. // 1 제목넘겨 // 2 목차넘겨대충 3번까지가 메인 핵심 // Introduction to MDPs먼저 MDP가 뭔지 알지? Markov Decision Process 인거 모른거면 내꺼 전꺼 안본거고, 이건 Fully Observable 한 상황이란 건 알고 잇어야해.이 왠만한 강화학습 문제는 다 MDP로 표현할 수 있대. POMDP도 MDP로 변환시킬 수 있고, 등등.... 뭐 무튼 그렇대 // Markov Property" 미래는 과거로부터 독립적이고 현재만 필요"즉 현재 State만 필요하고, 사실 history 자체는 없어도 된대.그래서 정의가 하나 나오는 데 이건 전에 배웠던 거지.이런 걸 마르코프 상..
강화학습 공부 1 우선, 이 모든 목적은 AutoML의 전문가가 되기 위한 초석이라고 생각함. 차근차근히 하나씩 말해보자. 나는 David Silver 교수님의 강의를 들으면서 공부한 내용을 정리할 생각임. 절대 쉽게 보면 안되는 게, 내가 느낀 바로는 지도 학습도 공부해보고 직접 돌려보기도 햇었지만, 솔직히 강화학습이 훨씬 더 어렵다. 내가 번호를 매기는 데, 이거는 각 슬라이드에 대한 설명이니 슬라이드를 보면서 이걸 보면 됨.내가 다 맞는거 아니니까 그냥 틀리면 댓글로 남겨주세요.정리목적이라.... 그냥 음슴체나 반말로 하겠음. 다시 말하지만 정리목적임. 그리고 써본 사람은 알겠지만 이거 말 길게 치는 거 은근 귀찮음.~했습니다 라던지 ~ 했었습니다 이렇게 쓰기에는 너무 길음. 음슴체나 반말로 공부 정리. 강의자료는 ..