본문 바로가기

로봇 조작 작업3

입력 영상 기반 로봇 조작 작업 학습 진행(1) 작업 명세 작업 이름 : Jaco 로봇의 pick up 작업 observation : Image(84*84*3) action : arm velocity control(6-D) + gripper position control(3-D) reward : 물체에 온전히 reach가 될 때마다 +0.1, +(물체 높이의 변화량을 정규화한 값) transition function : deterministic discount factor : 0.99 이슈 로봇 손(end-effector)이 물체에 온전히 접근을 잘하지만 들어 올리지 못하는 상황 예상 원인 및 해결 전략 RL 알고리즘 : 나는 지금까지 Distributed PPO를 이용해 문제를 해결하고자 하였다. PPO는 행동을 결정하는 policy와 학습에 이용되.. 2020. 7. 9.
강화학습(PPO) 손실(loss)값의 진동 현상에 대한 생각 학습 진행도 확인일반적으로 강화학습을 진행할 때, reward의 추이를 보고 학습이 진행되고 있는지를 평가한다. 하지만, sensing image/video와 같은 영상 기반의 DRL은 단순히 reward의 추이를 보고 학습이 진행되고 있는지를 확인하기 어렵다. (delayed reward, 데이터 비효율성 등의 이유로 인해, 당장 reward가 향상되고 있는지 판별하기 애매한 경험이 있다.) 따라서, DRL의 학습 진행도를 확인하기 위해 나는 각 network의 loss를 확인하려 했으나, 예상되는 값이 아니라 많이 놀랐다. 이러한 현상의 원인을 내 생각대로 정리했다.더 공부해서 해당 글을 수정해 나갈 생각이다.작업 명세작업 이름 : Jaco 로봇의 pick up 작업 observation : Imag.. 2020. 6. 17.
Deep Reinforcement Learning using Genetic Algorithm for Parameter Optimization 논문을 선정한 이유 연구실 논문 리딩 세미나 중에 교수님께서 유전 알고리즘(Genetic Algorithm, GA)에 대한 내용을 말씀하셨다. 리딩할 논문들을 찾아보던 중 마침 GA를 이용한 강화학습 논문이 눈에 들어왔다. 논문의 목표 강화학습(Reinforcement Learning, RL)에서의 하이퍼 파라미터(hyper parameter)들은 전반적인 학습 과정(learning process)에 많은 영향을 끼친다. 강화학습의 하이퍼 파라미터로는 신경망(ex. policy, value)의 학습률, 감가율(discounting factor) 등이 있다. 잘못된 강화학습 하이퍼 파라미터 설정은 지역 최적화(local optimum)의 원인이 되기도 한다. (특히, continuous control 문제.. 2020. 6. 16.