Abstract In this paper, we propose a deep Q-network (DQN)-based agent that successfully avoids collisions using only low-cost proximity sensors. One of the previous works on collision avoidance using deep reinforcement learning requires expensive sensors such as a LiDAR or a depth camera. However, these expensive sensors were not only cost-competitive, but also led to the use of overqualified sensors for collision avoidance. Therefore, in this paper, the agent uses only low-cost proximity sensors to successfully avoid collisions. The proposed method has been verified to work in environments with varying numbers of obstacles using only proximity sensors, such as easy, normal, and hard level environments.
Keywords collision avoidance; low-cost proximity sensor; deep reinforcement learning
1. 서론
충돌 회피를 성공하기 위한 솔루션으로 심층강화학습(DRL; deep reinforcement learning)이 많이 사용되고 있다. 기존 DRL을 활용한 충돌 회피 관련 연구는 고가의 라이다 장비를 사용하여 충돌 회피에 성공한 사례가 있다 [1]. 이는 512개의 거리 값을 이용하여 충돌 회피를 성공했지만, 라이다 장비가 너무 비싸다는 단점이 있었다. 이를 해결하기 위해 고가의 라이다 장비를 깊이 카메라로 대체하려는 시도가 있었다 [2]. 하지만 깊이 카메라의 경우에도 라이다와 함께 사용해야 하는 한계가 있었다. 이와 같이 라이다 또는 카메라를 충돌회피에 이용하는 경우에는 센서 가격이 비쌀 뿐만 아니라, 충돌 회피 시 불필요한 정보를 과하게 사용하게 되는 단점이 있었다. 이 논문은 저가형 근접센서만을 이용하여 충돌 회피에 성공한 DQN 기반 에이전트를 소개한다. E-puck 로봇에 있는 6개의 저가형 근접 센서만을 이용하여 충돌 회피 및 목적지 도달을 하는 end-to-end 학습에 성공한다.
2. DQN 기반 충돌 회피 알고리즘
이 논문에 나오는 환경에서 충돌 회피 하는 것은 주어진 상태와 행동이 이전의 모든 상태 및 행동과 독립적이기 때문에 Markov Decision Process (MDP) 문제라 정의하고, 문제 해결을 위해 DQN 알고리즘을 사용한다. DQN 기반 에이전트는 시점 t인 상태에서 정책π에 따라 행동을 할 때 받는 누적 보상의 기댓값을 최대화하는 방식으로 학습한다.
2.1. Environment
E-puck로봇에 있는 근접센서 중 ps0, ps1, ps2, ps5, ps6, ps7을 사용한다. 훈련 환경은 충돌 회피를 학습할 수 있는 공간, 목적지 도착을 학습할 수 있는 공간, Local Minima(LM)를 극복할 수 있는 공간으로 나뉜다. 각 공간에서 무작위로 출발을 하게 되며, 목적지에 도착하거나 충돌하면 다시 출발 위치를 부여 받게 된다.
2.2. State
State 는 총 3개의 프레임으로 구성되며 각각은 식 (2)와 같이 목적지와의 상대 거리 , 로봇과 목적지와의 상대 헤딩 각도 , 6개의 근접 센서 값 로 이루어져 있다
2.3. Reward
Reward 구조는 목적지 관련 보상 과 충돌 회피 관련 보상 으로 나뉜다.
2-4. Action
행동은 근접 센서의 한계로 (5)와 같이 선정한다.
3. 실험 결과
3.1. Train
손실 값은 수렴하고, 누적 보상은 증가한다. 훈련 환경에서 에이전트가 훈련 될수록 충돌은 줄어들고 목적지에 도달하는 성공 횟수는 높아지는 것을 볼 수 있다.
3.2. Test
Map의 크기는 2 x 2 [m]이고, 목적지는 (0,0)인 중심이다. 가로가 1.8 [m]인 정사각형 테두리를 1000개의 점으로 균등하게 나누고, 각 점에서 출발하여 목적지까지 도달하는 테스트이다. Test 환경은 easy, normal, hard 로 Easy 는 장애물의 개수 8개로 30cm떨어진 거리로 이루어진다. Normal 은 13cm 떨어진 거리로 배치되며, 장애물의 개수는 12개이다. Hard는 장애물의 개수 16개로local minima [LM]를 직면하는 환경이다
각 테스트 환경에서 로봇의 궤적을 나타낸다.
표 1. 충돌 회피 및 목적지 도달 비율.
Collision | LM | Success | |
Easy | 0.0 % | 0.0 % | 100.0 % |
Normal | 0.3 % | 2.4 % | 97.3 % |
hard | 1.0 % | 26.8 % | 72.2 % |
Collision 은 로봇과 장애물과의 거리가2cm이내로 들어왔을 경우, LM는 충돌하지 않고 평균 도착 시간의 4배 이상 동안 도착하지 못하는 경우이다. Success 는 충돌없이 목적지에 도착한 경우이다. 표1의 수치는 각각이 일어난 횟수를 1000으로 나눈 값이다. 결과적으로 충돌 회피는 99% 이상 성공이지만, LM 을 극복하지 못한다. 이는 입력 데이터가 오직 6개의 근접 센서 값이라는 한계가 있고, 장애물의 위치를 입력 데이터에 추가해서 해결할 수 있다고 생각한다.
4. 결론
이 논문은 저가용 근접 센서만을 이용해서 충돌 회피에 성공한 DQN 기반 에이전트를 소개한다. 12개 이내의 장애물이 있는 테스트 환경에서 97% 이상 충돌 없이 목적지에 도착하는 것을 확인할 수 있다. 이는 향후 저가형 센서를 이용한 DRL 모델을 개발하는데 많은 기여를 할 것이다.
참고문헌
[1] P. Long, T. Fan, X. Liao, W. Liu, H. Zhang and J. Pan, "Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning," 2018 IEEE International Conference on Robotics and Automation (ICRA), Brisbane, QLD, Australia, 2018, pp. 6252-6259, doi: 10.1109/ICRA.2018.8461113.
[2] J. Choi, K. Park, M. Kim and S. Seok, "Deep Reinforcement Learning of Navigation in a Complex and Crowded Environment with a Limited Field of View," 2019 International Conference on Robotics and Automation (ICRA), Montreal, QC, Canada, 2019, pp. 5993-6000, doi: 10.1109/ICRA.2019.8793979.
[3] Y. M. Adam, N. Binti Sariff and N. A. Algeelani, "E-puck Mobile Robot Obstacles Avoidance Controller Using the Fuzzy Logic Approach," 2021 2nd International Conference on Smart Computing and Electronic Enterprise (ICSCEE), Cameron Highlands, Malaysia, 2021, pp. 107-112, doi: 10.1109/ICSCEE50312.2021.9497939.
[4] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis, "Human-level control through deep reinforcement learning," Nature, vol. 518, no. 7540, pp. 529-533, Feb. 2015, doi: 10.1038/nature14236.