본문 바로가기

About my life/Undergraduate Researcher

[REVIEW] Hierarchical multi-robot navigation and formation in unknown environments via deep reinforcement learning and distributed optimization

728x90
반응형
  • 기존 vs 본 연구
    • Single robot navigation
      • global map 을 사용할 수 없는 경우 매번 지도를 구축하는 것이 필요하며 비효율적임
      • 동적 장애물이 있는 환경에서 어려움
      • 이를 해결하기 위해 DWA 알고리즘과 DRL 이 나왔음
      • 이전 map에 크게 의존함
      • local 인식 기반으로 global navigation 과 collision avoidance 를 모두 달성하는 방법은 아직 부족함
      <aside> 👉🏻 실제 제어 문제에 적합한 DRL 중 DDPG 알고리즘을 사용하였음
    • </aside>
    • Multi-robot navigation
      • 중앙 집중식으로 해결하게 되면 일반화에 약함
      <aside> 👉🏻 agent 와 가까운 agent를 포함하는 CADRL을 사용한 다중 로봇 충돌 방지를 제안
    • </aside>
    • Multi-robot formation
      • 보다 복잡하고 실용적인 작업을 수행하는 데 도움이 됨
      • 탐색 방법과 유사한 약점이 있음
      <aside> 👉🏻 DDPG 를 통해 목표에 도달하는 것과 초기 형성을 유지하는 것이 훈련됨
    • </aside>
  • 본 연구
    • 대형 온라인 재구성을 허용
    • 로봇 수에 따라 확장 가능
    • DDPG 기반 단일 로봇 탐색 접근 방식
    • Curriculum Learning 사용
    • Reward Shaping
    • Optimization formation
    • Navigation 과 formation 을 모두 고려한 속도 조절 모듈
    • Structural diagram of the hierarchical framework
      1. Lidar 를 통해 주변 환경 인지
      2. DDPG network 를 통해 Navigation 에 필요한 V와 W 를 출력
      3. Distributed Optimization 을 통해 Formation control 수행
      4. (2),(3) 을 조합한 최적의 V, W 를 출력
    • Observation
      • O_l 은 Lidar data
      • O_g 은 Goal 거리
      • O_v 는 현재 로봇의 선속도 각속도
      • O_o 는 장애물을 피하는데 필요한 최소 거리 각도
    • LiDAR-data extension.
      1. CNN 을 통해 360 도 Lidar data의 특징점을 추출
      2. 첫 번째 두 신호를 마지막에 복제
    • Action space
    • Reward function
      • 크게는 충돌 보상과 목적지 도달 보상으로 나뉨
    • Curriculum Learning
      • Train Environment 는 다음과 위와 같이 설계하였고, 각각은 Curriculum Learning 을 사용하여 점진적 난이도를 부여하였음
    • Nework Lidar-data
    • 위와 같이 Lidar data 를 CNN 을 이용하여 60개의 Feature 로 추출함
      • 추출한 데이터를 V , W 에 mapping 한 후 actor 는 action을 취함
      • Critic 은 actor 의 action과 함께 Q-value 를 산출
    • Algorithm
        • 위와 같은 방식으로 training environemnt 를 선택하게 됨
        • H 모양 환경과 지그재그 환경을 이용하여 확률분포를 산출
        • 확률분포에 맞게 확률적으로 선택하여 training 을 하게 됨
        • 점직적으로 어려운 환경에서 학습할 수 있도록 하이퍼파라미터 수정
        • 각 훈련 환경에서 action 후 reward 와 S_t+1 을 받고 저장하는 과정
        • 일정 주기마다 traning environment 를 바꿔줌
        • formation 을 유지하기 위해 가장 낮은 비용으로 실행 가능한 구성을 계산함
        • 최종적으로 navigation 과 formation을 통합한 V, W를 출력하는 과정
    • 결과
      • 학습 결과 결국 끝에서는 모든 Training Environment 에서 100% 성공률을 달성함
      • 학습 결과 끝에서는 부드러운 움직임으로 빠른 평균 속도로 목적지에 도달하게 됨
      • 0.7m 와 같이 너무 가까운 곳은 가지 않고 0.85와 같은 여유롭다고 하는 지점으로 통과함
      • Local 인식 기반으로 이를 파악하고 경로를 설정하는 것
      • 위 사례를 보면 DWA 알고리즘과 비교했을 때 미리 local minima 를 회피하는 것을 알 수 있음
      • MAPF 와 비교해봐도 전혀 local minima 에 빠지지 않는 것을 볼 수 있음
      • 동적 장애물 또한 미리서부터 충돌을 회피하려고 하는 경향이 있음
      • 장애물의 동적 속도에 따른 성공률을 나타냄
      • 빠른 속도의 동적 장애물은 회피하지 못하는 것을 볼 수 있음
      • 로봇의 갯수가 늘어나도 상대적으로 적은 time consumption임을 알 수 있음
  • 결론
    1. Curriculum Learning & DDPG network
    2. 정적 , 동적 장애물이 있는 미지의 환경을 목표로 한 hierarchical framework 제시
    3. 높은 성공률로 정적 , 동적 장애물과의 충돌 방지에 성공
    4. 대규모로 늘리는 것이 가능하며 탐색 성능이 향상될 것임

 

728x90
반응형