robotic manipulation1 입력 영상 기반 로봇 조작 작업 학습 진행(1) 작업 명세 작업 이름 : Jaco 로봇의 pick up 작업 observation : Image(84*84*3) action : arm velocity control(6-D) + gripper position control(3-D) reward : 물체에 온전히 reach가 될 때마다 +0.1, +(물체 높이의 변화량을 정규화한 값) transition function : deterministic discount factor : 0.99 이슈 로봇 손(end-effector)이 물체에 온전히 접근을 잘하지만 들어 올리지 못하는 상황 예상 원인 및 해결 전략 RL 알고리즘 : 나는 지금까지 Distributed PPO를 이용해 문제를 해결하고자 하였다. PPO는 행동을 결정하는 policy와 학습에 이용되.. 2020. 7. 9. 이전 1 다음