본문 바로가기

전체 글6

[Pytorch] loss가 줄어들지 않을 때 Pytorch로 neural net을 설계/구현한 뒤 학습을 했을 때 loss가 줄어들지 않는 이유는 굉장히 많을 것이다. 목표 문제를 풀기 위한 neural net의 설계(layer 수, activation function 등)가 잘못되었을 수도 있고 자잘한 구현 상의 오류가 있을 수도 있기 때문이다. 이번 글에서는 최근에 내가 regression model과 적절한 loss function을 설계하고 이를 학습했을 때 loss가 전혀 줄어들지 않았던 이유와 해결 방법을 기록하고자 한다. 먼저, 아래 코드는 정상적으로 돌아가는 코드의 일부분이다. dynamic이라는 간단한 mlp-based neural net과 dynamic_optim이라는 adma optimizer가 선언되어 있다. dynamic m.. 2020. 8. 4.
입력 영상 기반 로봇 조작 작업 학습 진행(1) 작업 명세 작업 이름 : Jaco 로봇의 pick up 작업 observation : Image(84*84*3) action : arm velocity control(6-D) + gripper position control(3-D) reward : 물체에 온전히 reach가 될 때마다 +0.1, +(물체 높이의 변화량을 정규화한 값) transition function : deterministic discount factor : 0.99 이슈 로봇 손(end-effector)이 물체에 온전히 접근을 잘하지만 들어 올리지 못하는 상황 예상 원인 및 해결 전략 RL 알고리즘 : 나는 지금까지 Distributed PPO를 이용해 문제를 해결하고자 하였다. PPO는 행동을 결정하는 policy와 학습에 이용되.. 2020. 7. 9.
Towards Interpretable Reinforcement Learning sing Attention Augmented Agents 논문을 선정한 이유 최근 attention 기법에 대해 흥미를 많이 느끼고 있었는데, 심층 강화학습(Deep Reinforcement Learning, DRL)에 적용된 논문이 있어 찾아 읽어보게 되었다. 논문의 목표 논문 제목에서 볼 수 있듯이, interpretable한 DRL 모델을 만들고자 한 것이다. DNN(Deep Neural Network, DNN)가 강화학습에 접목된 DRL은 DNN과 같이 학습 과정이 블랙 박스라는 단점이 있다. 이 논문에서는 제안 모델이 어떤 시점에 어느 지역에 attention을 가하는지를 불 수 있기 때문에 interpretable RL이라고 하였다. 논문의 주된 제안 방법 입력 영상에 대해 attention 기법을 적용하여 DRL의 입력으로 활용 구체적인 제안 방법.. 2020. 6. 21.
강화학습(PPO) 손실(loss)값의 진동 현상에 대한 생각 학습 진행도 확인일반적으로 강화학습을 진행할 때, reward의 추이를 보고 학습이 진행되고 있는지를 평가한다. 하지만, sensing image/video와 같은 영상 기반의 DRL은 단순히 reward의 추이를 보고 학습이 진행되고 있는지를 확인하기 어렵다. (delayed reward, 데이터 비효율성 등의 이유로 인해, 당장 reward가 향상되고 있는지 판별하기 애매한 경험이 있다.) 따라서, DRL의 학습 진행도를 확인하기 위해 나는 각 network의 loss를 확인하려 했으나, 예상되는 값이 아니라 많이 놀랐다. 이러한 현상의 원인을 내 생각대로 정리했다.더 공부해서 해당 글을 수정해 나갈 생각이다.작업 명세작업 이름 : Jaco 로봇의 pick up 작업 observation : Imag.. 2020. 6. 17.