본문 바로가기

연구실4

[Pytorch] loss가 줄어들지 않을 때 Pytorch로 neural net을 설계/구현한 뒤 학습을 했을 때 loss가 줄어들지 않는 이유는 굉장히 많을 것이다. 목표 문제를 풀기 위한 neural net의 설계(layer 수, activation function 등)가 잘못되었을 수도 있고 자잘한 구현 상의 오류가 있을 수도 있기 때문이다. 이번 글에서는 최근에 내가 regression model과 적절한 loss function을 설계하고 이를 학습했을 때 loss가 전혀 줄어들지 않았던 이유와 해결 방법을 기록하고자 한다. 먼저, 아래 코드는 정상적으로 돌아가는 코드의 일부분이다. dynamic이라는 간단한 mlp-based neural net과 dynamic_optim이라는 adma optimizer가 선언되어 있다. dynamic m.. 2020. 8. 4.
Towards Interpretable Reinforcement Learning sing Attention Augmented Agents 논문을 선정한 이유 최근 attention 기법에 대해 흥미를 많이 느끼고 있었는데, 심층 강화학습(Deep Reinforcement Learning, DRL)에 적용된 논문이 있어 찾아 읽어보게 되었다. 논문의 목표 논문 제목에서 볼 수 있듯이, interpretable한 DRL 모델을 만들고자 한 것이다. DNN(Deep Neural Network, DNN)가 강화학습에 접목된 DRL은 DNN과 같이 학습 과정이 블랙 박스라는 단점이 있다. 이 논문에서는 제안 모델이 어떤 시점에 어느 지역에 attention을 가하는지를 불 수 있기 때문에 interpretable RL이라고 하였다. 논문의 주된 제안 방법 입력 영상에 대해 attention 기법을 적용하여 DRL의 입력으로 활용 구체적인 제안 방법.. 2020. 6. 21.
강화학습(PPO) 손실(loss)값의 진동 현상에 대한 생각 학습 진행도 확인일반적으로 강화학습을 진행할 때, reward의 추이를 보고 학습이 진행되고 있는지를 평가한다. 하지만, sensing image/video와 같은 영상 기반의 DRL은 단순히 reward의 추이를 보고 학습이 진행되고 있는지를 확인하기 어렵다. (delayed reward, 데이터 비효율성 등의 이유로 인해, 당장 reward가 향상되고 있는지 판별하기 애매한 경험이 있다.) 따라서, DRL의 학습 진행도를 확인하기 위해 나는 각 network의 loss를 확인하려 했으나, 예상되는 값이 아니라 많이 놀랐다. 이러한 현상의 원인을 내 생각대로 정리했다.더 공부해서 해당 글을 수정해 나갈 생각이다.작업 명세작업 이름 : Jaco 로봇의 pick up 작업 observation : Imag.. 2020. 6. 17.
Deep Reinforcement Learning using Genetic Algorithm for Parameter Optimization 논문을 선정한 이유 연구실 논문 리딩 세미나 중에 교수님께서 유전 알고리즘(Genetic Algorithm, GA)에 대한 내용을 말씀하셨다. 리딩할 논문들을 찾아보던 중 마침 GA를 이용한 강화학습 논문이 눈에 들어왔다. 논문의 목표 강화학습(Reinforcement Learning, RL)에서의 하이퍼 파라미터(hyper parameter)들은 전반적인 학습 과정(learning process)에 많은 영향을 끼친다. 강화학습의 하이퍼 파라미터로는 신경망(ex. policy, value)의 학습률, 감가율(discounting factor) 등이 있다. 잘못된 강화학습 하이퍼 파라미터 설정은 지역 최적화(local optimum)의 원인이 되기도 한다. (특히, continuous control 문제.. 2020. 6. 16.