[REVIEW] Hierarchical multi-robot navigation and formation in unknown environments via deep reinforcement learning and distributed optimization

728x90

기존 vs 본 연구
- Single robot navigation
  - global map 을 사용할 수 없는 경우 매번 지도를 구축하는 것이 필요하며 비효율적임
  - 동적 장애물이 있는 환경에서 어려움
  - 이를 해결하기 위해 DWA 알고리즘과 DRL 이 나왔음
  - 이전 map에 크게 의존함
  - local 인식 기반으로 global navigation 과 collision avoidance 를 모두 달성하는 방법은 아직 부족함
  <aside> 👉🏻 실제 제어 문제에 적합한 DRL 중 DDPG 알고리즘을 사용하였음
- </aside>
- Multi-robot navigation
  - 중앙 집중식으로 해결하게 되면 일반화에 약함
  <aside> 👉🏻 agent 와 가까운 agent를 포함하는 CADRL을 사용한 다중 로봇 충돌 방지를 제안
- </aside>
- Multi-robot formation
  - 보다 복잡하고 실용적인 작업을 수행하는 데 도움이 됨
  - 탐색 방법과 유사한 약점이 있음
  <aside> 👉🏻 DDPG 를 통해 목표에 도달하는 것과 초기 형성을 유지하는 것이 훈련됨
- </aside>
본 연구
- 대형 온라인 재구성을 허용
- 로봇 수에 따라 확장 가능
- DDPG 기반 단일 로봇 탐색 접근 방식
- Curriculum Learning 사용
- Reward Shaping
- Optimization formation
- Navigation 과 formation 을 모두 고려한 속도 조절 모듈
- Structural diagram of the hierarchical framework
- 1. Lidar 를 통해 주변 환경 인지
  2. DDPG network 를 통해 Navigation 에 필요한 V와 W 를 출력
  3. Distributed Optimization 을 통해 Formation control 수행
  4. (2),(3) 을 조합한 최적의 V, W 를 출력
- Observation
- - O_l 은 Lidar data
  - O_g 은 Goal 거리
  - O_v 는 현재 로봇의 선속도 각속도
  - O_o 는 장애물을 피하는데 필요한 최소 거리 각도
- LiDAR-data extension.
- 1. CNN 을 통해 360 도 Lidar data의 특징점을 추출
  2. 첫 번째 두 신호를 마지막에 복제
- Action space
- Reward function
  - 크게는 충돌 보상과 목적지 도달 보상으로 나뉨
- Curriculum Learning
- - Train Environment 는 다음과 위와 같이 설계하였고, 각각은 Curriculum Learning 을 사용하여 점진적 난이도를 부여하였음
- Nework Lidar-data
- 위와 같이 Lidar data 를 CNN 을 이용하여 60개의 Feature 로 추출함
- - 추출한 데이터를 V , W 에 mapping 한 후 actor 는 action을 취함
  - Critic 은 actor 의 action과 함께 Q-value 를 산출
- Algorithm
  - - 위와 같은 방식으로 training environemnt 를 선택하게 됨
    - H 모양 환경과 지그재그 환경을 이용하여 확률분포를 산출
    - 확률분포에 맞게 확률적으로 선택하여 training 을 하게 됨
    - 점직적으로 어려운 환경에서 학습할 수 있도록 하이퍼파라미터 수정
  - - 각 훈련 환경에서 action 후 reward 와 S_t+1 을 받고 저장하는 과정
    - 일정 주기마다 traning environment 를 바꿔줌
    - formation 을 유지하기 위해 가장 낮은 비용으로 실행 가능한 구성을 계산함
    - 최종적으로 navigation 과 formation을 통합한 V, W를 출력하는 과정
- 결과
- - 학습 결과 결국 끝에서는 모든 Training Environment 에서 100% 성공률을 달성함
  - 학습 결과 끝에서는 부드러운 움직임으로 빠른 평균 속도로 목적지에 도달하게 됨
- - 0.7m 와 같이 너무 가까운 곳은 가지 않고 0.85와 같은 여유롭다고 하는 지점으로 통과함
  - Local 인식 기반으로 이를 파악하고 경로를 설정하는 것
- - 위 사례를 보면 DWA 알고리즘과 비교했을 때 미리 local minima 를 회피하는 것을 알 수 있음
  - MAPF 와 비교해봐도 전혀 local minima 에 빠지지 않는 것을 볼 수 있음
  - 동적 장애물 또한 미리서부터 충돌을 회피하려고 하는 경향이 있음
- - 장애물의 동적 속도에 따른 성공률을 나타냄
  - 빠른 속도의 동적 장애물은 회피하지 못하는 것을 볼 수 있음
  - 로봇의 갯수가 늘어나도 상대적으로 적은 time consumption임을 알 수 있음

결론
1. Curriculum Learning & DDPG network
2. 정적 , 동적 장애물이 있는 미지의 환경을 목표로 한 hierarchical framework 제시
3. 높은 성공률로 정적 , 동적 장애물과의 충돌 방지에 성공
4. 대규모로 늘리는 것이 가능하며 탐색 성능이 향상될 것임

728x90

'About my life > Undergraduate Researcher' 카테고리의 다른 글

[영어] 미국 현지인이 사용하는 문법 검사 도구 (50)	2023.11.25
[ICROS] DQN-based Collision Avoidance using Low-cost Proximity Sensors (44)	2023.11.22
[REVIEW] Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey (16)	2023.11.21
[논문] SCI, SCIE, SSCI, AHCI 저널 등급 확실한 구분 및 의미 (1)	2023.11.21
[PAPER] 효과적인 논문 작성을 위한 학술 검색과 유용한 도구들 (0)	2023.11.20

[REVIEW] Hierarchical multi-robot navigation and formation in unknown environments via deep reinforcement learning and distributed optimization

'About my life > Undergraduate Researcher' 카테고리의 다른 글

'About my life/Undergraduate Researcher' Related Articles

티스토리툴바