728x90
반응형
- 기존 vs 본 연구
- Single robot navigation
- global map 을 사용할 수 없는 경우 매번 지도를 구축하는 것이 필요하며 비효율적임
- 동적 장애물이 있는 환경에서 어려움
- 이를 해결하기 위해 DWA 알고리즘과 DRL 이 나왔음
- 이전 map에 크게 의존함
- local 인식 기반으로 global navigation 과 collision avoidance 를 모두 달성하는 방법은 아직 부족함
- </aside>
- Multi-robot navigation
- 중앙 집중식으로 해결하게 되면 일반화에 약함
- </aside>
- Multi-robot formation
- 보다 복잡하고 실용적인 작업을 수행하는 데 도움이 됨
- 탐색 방법과 유사한 약점이 있음
- </aside>
- Single robot navigation
- 본 연구
- 대형 온라인 재구성을 허용
- 로봇 수에 따라 확장 가능
- DDPG 기반 단일 로봇 탐색 접근 방식
- Curriculum Learning 사용
- Reward Shaping
- Optimization formation
- Navigation 과 formation 을 모두 고려한 속도 조절 모듈
- Structural diagram of the hierarchical framework
-
- Lidar 를 통해 주변 환경 인지
- DDPG network 를 통해 Navigation 에 필요한 V와 W 를 출력
- Distributed Optimization 을 통해 Formation control 수행
- (2),(3) 을 조합한 최적의 V, W 를 출력
- Observation
-
- O_l 은 Lidar data
- O_g 은 Goal 거리
- O_v 는 현재 로봇의 선속도 각속도
- O_o 는 장애물을 피하는데 필요한 최소 거리 각도
- LiDAR-data extension.
-
- CNN 을 통해 360 도 Lidar data의 특징점을 추출
- 첫 번째 두 신호를 마지막에 복제
- Action space
- Reward function
- 크게는 충돌 보상과 목적지 도달 보상으로 나뉨
- Curriculum Learning
-
- Train Environment 는 다음과 위와 같이 설계하였고, 각각은 Curriculum Learning 을 사용하여 점진적 난이도를 부여하였음
- Nework Lidar-data
- 위와 같이 Lidar data 를 CNN 을 이용하여 60개의 Feature 로 추출함
-
- 추출한 데이터를 V , W 에 mapping 한 후 actor 는 action을 취함
- Critic 은 actor 의 action과 함께 Q-value 를 산출
- Algorithm
-
- 위와 같은 방식으로 training environemnt 를 선택하게 됨
- H 모양 환경과 지그재그 환경을 이용하여 확률분포를 산출
- 확률분포에 맞게 확률적으로 선택하여 training 을 하게 됨
- 점직적으로 어려운 환경에서 학습할 수 있도록 하이퍼파라미터 수정
-
- 각 훈련 환경에서 action 후 reward 와 S_t+1 을 받고 저장하는 과정
- 일정 주기마다 traning environment 를 바꿔줌
- formation 을 유지하기 위해 가장 낮은 비용으로 실행 가능한 구성을 계산함
- 최종적으로 navigation 과 formation을 통합한 V, W를 출력하는 과정
-
- 결과
-
- 학습 결과 결국 끝에서는 모든 Training Environment 에서 100% 성공률을 달성함
- 학습 결과 끝에서는 부드러운 움직임으로 빠른 평균 속도로 목적지에 도달하게 됨
-
- 0.7m 와 같이 너무 가까운 곳은 가지 않고 0.85와 같은 여유롭다고 하는 지점으로 통과함
- Local 인식 기반으로 이를 파악하고 경로를 설정하는 것
-
- 위 사례를 보면 DWA 알고리즘과 비교했을 때 미리 local minima 를 회피하는 것을 알 수 있음
- MAPF 와 비교해봐도 전혀 local minima 에 빠지지 않는 것을 볼 수 있음
- 동적 장애물 또한 미리서부터 충돌을 회피하려고 하는 경향이 있음
-
- 장애물의 동적 속도에 따른 성공률을 나타냄
- 빠른 속도의 동적 장애물은 회피하지 못하는 것을 볼 수 있음
- 로봇의 갯수가 늘어나도 상대적으로 적은 time consumption임을 알 수 있음
- 결론
- Curriculum Learning & DDPG network
- 정적 , 동적 장애물이 있는 미지의 환경을 목표로 한 hierarchical framework 제시
- 높은 성공률로 정적 , 동적 장애물과의 충돌 방지에 성공
- 대규모로 늘리는 것이 가능하며 탐색 성능이 향상될 것임
728x90
반응형
'About my life > Undergraduate Researcher' 카테고리의 다른 글
[영어] 미국 현지인이 사용하는 문법 검사 도구 (50) | 2023.11.25 |
---|---|
[ICROS] DQN-based Collision Avoidance using Low-cost Proximity Sensors (44) | 2023.11.22 |
[REVIEW] Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey (16) | 2023.11.21 |
[논문] SCI, SCIE, SSCI, AHCI 저널 등급 확실한 구분 및 의미 (1) | 2023.11.21 |
[PAPER] 효과적인 논문 작성을 위한 학술 검색과 유용한 도구들 (0) | 2023.11.20 |