로봇 조작 작업 학습1 강화학습(PPO) 손실(loss)값의 진동 현상에 대한 생각 학습 진행도 확인일반적으로 강화학습을 진행할 때, reward의 추이를 보고 학습이 진행되고 있는지를 평가한다. 하지만, sensing image/video와 같은 영상 기반의 DRL은 단순히 reward의 추이를 보고 학습이 진행되고 있는지를 확인하기 어렵다. (delayed reward, 데이터 비효율성 등의 이유로 인해, 당장 reward가 향상되고 있는지 판별하기 애매한 경험이 있다.) 따라서, DRL의 학습 진행도를 확인하기 위해 나는 각 network의 loss를 확인하려 했으나, 예상되는 값이 아니라 많이 놀랐다. 이러한 현상의 원인을 내 생각대로 정리했다.더 공부해서 해당 글을 수정해 나갈 생각이다.작업 명세작업 이름 : Jaco 로봇의 pick up 작업 observation : Imag.. 2020. 6. 17. 이전 1 다음