입력 영상 기반 로봇 조작 작업 학습 진행(1)

작업 명세

작업 이름 : Jaco 로봇의 pick up 작업
observation : Image(84*84*3)
action : arm velocity control(6-D) + gripper position control(3-D)
reward : 물체에 온전히 reach가 될 때마다 +0.1, +(물체 높이의 변화량을 정규화한 값)
transition function : deterministic
discount factor : 0.99

이슈

로봇 손(end-effector)이 물체에 온전히 접근을 잘하지만 들어 올리지 못하는 상황

예상 원인 및 해결 전략

RL 알고리즘
: 나는 지금까지 Distributed PPO를 이용해 문제를 해결하고자 하였다. PPO는 행동을 결정하는 policy와 학습에 이용되는 (experience) data를 수집하는 policy가 반드시 같아야 하는 on policy RL 알고리즘이다. on policy RL과 off policy RL 모두 각각 상반되는 장단점이 존재한다. PPO와 같은 on policy RL은 과거의 data를 이용하지 못한다는 점에서 비교적 low data efficiency를 갖게 된다. 반면에, off policy RL 또한 PER 논문에서 해결하고자 했던 바와 같이 현재 행동을 결정하는 policy와 과거에 data를 수집했던 policy가 너무 다르거나 그 data가 현재 행동을 결정하는 policy의 학습에 도움이 되지 않을 때 학습이 불안정해지거나 학습 속도가 느려질 수 있다는 문제가 있다. 그럼에도 불구하고 과거 data를 학습에 이용할 수 있는 off policy는 비교적 high data efficiency를 갖기 때문에 continuous control tasks를 해결하고자 한 타 논문들은 대부분 off policy RL이 더욱 효과적이라고 말한다.
=> 이에 따라, off policy RL 알고리즘으로 변경해 학습해 볼 예정이다.
물체가 가려지는 현상
: 기존에 발표된 로봇 조작 작업 학습 논문들을 생각해보면, 대부분 카메라 시점이 3인칭 관점이다. 반면에, 나는 로봇이 바라보는 1인칭 시점을 갖는 sensing image로 학습을 하고 있다. 위의 영상을 자세히 보면 확인할 수 있겠지만 로봇 팔이 물체를 가려 agent 입장에서 물체가 어디에 있는지 확인할 수 없는 경우가 자주 발생한다. 특히, 로봇 손이 물체에 어느 정도 reach 되었을 때 그 물체를 가리는 현상이 더욱 빈번하게 발생하게 된다.
=> RNN을 통해 이전 sensing image들의 feature 정보들을 알게 함으로써 임의의 순간에 로봇 팔이 물체를 가리더라도, 과거 정보를 토대로 물체의 위치가 추론될 수 있지 않을까 생각한다.
=> 또, 현재 테스트해보고 있는 것은 아래와 같이 z-축으로 길다란 물체를 잡도록 학습하고 있다. 이러한 물체의 경우에는 팔이 이 물체에 reach 하더라도 sensing image에서 물체의 모든 부분을 가려지지 않기 때문이라고 생각이 든다. 물론, 이 방법이 물체를 가려질 때 그 물체를 잡을 수 있는 하나의 기술 또는 방법이 아니지만 테스트용으로 진행해보고 있다.

정은진공부해

입력 영상 기반 로봇 조작 작업 학습 진행(1)

티스토리툴바