논문 선정 이유
→ sim to real 을 극복하기 위해 어떤 방법을 사용하고 있는 지
→ 현재 연구에서는 Deep Reinforcement Learning 을 어디에 적용하고 있는 지
목적
→ 일반적으로 분리수거를 잘 못하거나 실수로 잘못된 쓰레기통에 넣어 쓰레기통을 오염시킴
→ 각각의 쓰레기통으로 분리수거 하는 자율 로봇을 배치하여 오염을 줄이고자 함
→ 지속적으로 학습 가능하며 , 더 나아질 수 있고, real environment 에서 수행할 수 있는 것을 만들고자 함
기존
→ simulation 많이 사용하였는데 실제와 다른 경우가 매우 많고, 모든 상황을 학습하기 어렵기에 일반화 어려움
→ 실제 로봇 문제에는 시각적 인식 , 계획 등 다양한 구성 요소의 통합이 필요한데 , 여러가지 고유의 문제가 있음
→ Real world 에 맞게 확장할 수 있는 end-to-end 학습 방법이 불분명
→ Real environment 에서 학습하는 것은 어려움
→ Reinforcement Learning [RL] 에는 sample complexity 가 존재함
→ Imitation Learning [IL] 복잡함
본 연구
대규모 실제 사무실 건물에서 재활용품과 쓰레기를 분류하는 Deep Reinforcement Learning (DRL)시스템 개발
① Script policy 를 이용하여 데이터를 수집하고 , 초기 policy 를 Bootstrapping 함
② Simulation 환경에서 Online training 을 하여 최신 policy 배포
③ Robot Classrooms 을 만들어서 20개의 로봇으로 데이터 수집
④ Real environment 에 23 대의 로봇을 배치시켜서 데이터 수집
⑤ 위 과정을 반복하면서 PI-QT-Opt Training 을 하는 것
해결해야 하는 문제
① 다양한 위치의 공간에 폐기물을 잡을 수 있어야 함
② 이전에 보지 못한 물체에 대해 일반화할 수 있어야 함
③ 변형이 많거나 복잡한 형태를 조작할 수 있어야 함
④ 잘못 배치된 폐기물을 확인할 수 있어야 함
⑤ 올바른 공간에 폐기물을 옮길 수 있어야 함
해결한 문제
① sample complexity → Script , Sim , Real 에서 효율적으로 해결
② time complexity → Script , Sim , Real 순서로 학습하여 해결
③ generalization → RL 새로운 영역을 경험함에 따라 계속 업그레이드 가능 , 실제 데이터
④ 복잡한 분류 작업을 간단한 작업으로 하기 위해서 multi-task curriculum learning 사용
⑤ partially observable → LSTM 을 사용
⑥ 새로운 객체 인식 문제 → ShapeMask 기반 Computer Vision System 입력을 추가로 통합
- Script Policy 를 통해 무작위로 인식하고 집고 들어올리는 행위를 학습함
- 이미지를 Convolution Neural Network 에 입력
- ShapeMask 를 이용하여 객체 인식 성능 보조
- 두 가지의 이미지를 통합하여 LSTM 에 입력
- State , Action에 따른 Q 값을 Cross-Entropy Loss 를 이용하여 최적화
- simulation 은 한계가 있지만 어느 정도의 policy를 만드는데 도움을 줄 수 있음
- 어느 정도의 policy를 만드는데 방대한 데이터가 필요하므로 simulation을 사용
- Real environment 에서는 거의 한 번 봤던 물체를 다시 한 번 보기 힘들기 때문에 로봇 교실 이용
- 실제 물리적 문제들을 극복하기 위해 적합함
- 데이터를 수집하기에 real environment 보다 훨씬 수월함
결과
- 최고 성능 설계가 까다로운 폐기물 시나리오에서 잘못 배치된 물체의 84.35% 를 분류할 수 있음
- 사무실 직원이 채우는 폐기물 스테이션의 오염을 최대 53%까지 줄임
- 각각의 방법을 모두 통합한 PI-QT_Opt 알고리즘이 가장 성능이 좋았음
- 지속적으로 새로운 경험을 학습할 수 있음
결론
- 지속적으로 개선시키는 것이 가능하지만 독특하고 다양한 물체를 일반화하는 것은 여전히 어려운 문제로 남아있음
- 최종 Policy 인 PI-QT Opt 도 성공률이 100% 가 아니기에 더 크고 견고한 모델 성능이 필요함
논문 선정 이유
- 인간이 로봇을 직접 학습시키는 학습 시스템
기존 연구 및 연구 목적
- Deep Learning 발전과 Computing power 발전으로 새로운 로봇 기능이 연구되고 있음
- 그럼에도 불구하고 이러한 Learning system 은 generalization이 어렵고 , Real task 를 위한 과도한 train data 가 필요함
- 기존 존재하는 학습 시스템같은 경우에는 얼마나 자주 실패하는 지, 어떤 상황에서 실패를 하는 지, 이를 해결하기 위해 어떻게 하면 지속적으로 개선할 수 있는 지 방법이 불분명함
본 연구
- 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
- 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
- 인간은 process를 monitoring 하면서 어려운 상황에 개입
- 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
- Sample본 연구
- 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
- 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
- 인간은 process를 monitoring 하면서 어려운 상황에 개입
- 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
- Sample본 연구
- 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
- 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
- 인간은 process를 monitoring 하면서 어려운 상황에 개입
- 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
- Sample본 연구
- 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
- 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
- 인간은 process를 monitoring 하면서 어려운 상황에 개입
- 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
- Sample
- Sirius 는 인간과 로봇이 공유 제어를 통해 협력할 수 있도록 함
- 로봇은 자율적으로 실행되며 인간은 이를 monitoring 함
- Deploy 데이터는 로봇의 policy 를 개선하기 위해 사용됨
- Robot Deployment 와 Policy Update 는 하나의 System 에서 함께 발생됨
- Human Demonstration (HD) 은 Policy train 하는데 전달되고 , 새롭게 학습된 Policy는 Target enviornment 에 Depoly 됨
- HD , Deploy policy 1,2,3 ㆍㆍㆍ를 통해 Policy 를 training 함
- Supervised Learning environment 에서 train sample 의 weight 를 재조정하기 위해 Human Intervention 을 활용함
- w(s,a) 가 이에 해당됨
- Deploy data 의 크기가 커지면 memory 에 부담 , 학습 속도 저하 , 중요한 sample 을 학습하기 어려워 짐
- 중요한 momory sample 을 만들기 위해 재구성함
- FIFO , FILO , LFI , Uniform 과 같은 다양한 memory management 전략을 사용함
- 학습에 가장 도움이 되는 가치 있는 인간 및 중요한 상태 sample 을 유지, 계속해서 업데이트 되기 때문에 최신 데이터는 고품질 데이터임
- 4가지의 Task 에 대해 Human-in-the-Loop framework 의 성과를 평가했음
- BC-RNN 은 Imitation learning 알고리즘
- IWR은 최첨단 Human-in-the-Loop 학습법
- Implicit Q-learning (IQL)은 Offline RL 알고리즘
결과
- Batch 가 계속됨에 따라 인간의 작업량은 줄어들었음
- simulation 에서는 8% 성능이 , 실제 하드웨어에서는 27% 성능이 향상되었음
- 두 배 빠른 학습 속도
- 85% 메모리 크기 감소
- Videa 실제 배포 초기 단계
- Videa 실제 배포 최종 단계
- 실제 배포 최종 단계에서는 Human Intervention 이 거의 들어가지 않는 것을 알 수 있음
한계
- 한 명의 인간 운영자로만 수행되기 때문에 개인의 역량에 따라 편향될 수 있음 → 광범위한 인간 연구로 향상시킬 수 있을 것임
- 계속해서 성능을 개선시키기 위해서는 여전히 인간이 로봇을 모니터링 해야함 → automated runtime monitoring and error detection strategies 을 통합하면 인간의 정신적 부담을 덜어줄 수 있다고 함
결론
- weighted behavioral cloning method 를 이용하여 batch data 를 효과적으로 사용
- Human Invention 을 통한 효율적인 학습 시스템 개발
- memory management strategy 을 사용하여 더 빠른 학습 속도와 적은 memory 를 사용
- Batch monitoring 인간의 지속적인 monitoring 없이 로봇 오류를 감지할 수 있는 흥미로운 연구가 될 것임
논문 선정 이유
- 새로운 연구
- Large Language Model 적용 가능성
기존 연구 및 연구 목적
- Large Language Model (LLM) 이 개발되어 많은 연구 분야에 통합되고 있음
- 하지만 물리적 세계에 대한 근거(위치)가 부족함
- 이러한 모델을 사용하여 로봇에 대한 언어, 지각 및 행동 사이의 연결하는 것은 아직 공개된 연구 질문으로 남아 있음
- 아래에 있는 연구들이 서로 어떻게 다르고 어떻게 구축되는 지에 대한 심도 있는 논의를 제공함
- 이 분야에서 아직 해야 할 일이 훨씬 더 많다는 사실을 연구 커뮤니티에 전달하는 것
본 연구
① SayCan
② Socratic Models
③ Code as Policies
④ Inner Monologue
→ Visual Language Model (VLM) 출력은 모두 LLM을 사용하여 입력 자연어 명령으로 취하고
다음 형식으로 로봇 계획을 생성한다는 점에서 공통 시스템 수준 구조를 공유함
- 기존 비디오 채팅 인터페이스를 사용하여 명령을 입력
- 비디오 스트리밍을 통해 broadcasting 하여 로봇에게 동작을 지시할 수 있음
- 랩탑에서 원격으로 수행할 수 있음
- 사용자가 채팅 기반 Interface 를 통해 Acess 할 수 있음
- 사용자가 대화를 통해 Ability 와 Task 를 결정해줌
- Task가 가능하면 RT-1 (모바일 조작기)을 사용하여 실제 세계에서 작업을 실행함
- 각 단계에서 해석 가능한 Interface 를 통해 Affordance 와 Language model 점수를 출력함
- 녹색 명령을 주면 Affordance Functions 을 이용하여 LLM Planning 생성
- 각 계획은 utility 와 feasible 을 통해 선택되는데 , 언어 모델의 확률 점수와 Affordance 값의 조합을 기반으로 선택됨
- 그 다음 계획은 RL 또는 Supervised Learning 으로 Pre-training 된 Language Policy 에 의해 실행됨
Summary :
채팅을 통해 명령을 주면 LLM 모델과 Affordance 값을 이용하여 적절한 action을 뽑아내고 , 목적을 달성하기 위한 하위 계획들을 세워나감. 계획을 세우고 나서는 RT-1 모바일 조작기를 이용하여 실제 세계에서 작업을 함.
Socratic Models: VLM-informed LLM Planing
- 단계별 계획을 생성하기 전에 pre-training 된 Visual Language Model , Audio Language Model을 사용하여 LLM 에 추가로 이미지에 대한 텍스트 설명을 제공함
- 인식 및 계획 사이에 텍스트를 사용한다는 것
- 광범위한 감지 기능과 조건부 policy 기술로 확장될 수 있지만 , 간결하게 설명하는 데 어려울 수 있음
- ViLD 를 사용하여 screen 에서 객체를 감지
- 해당 정보를 객체 이름으로 InstructGPT에 LLM planner 로 전달
- CLIPort 함수 호출하여 입력 데이터 분포와 일치하는 텍스트 템플릿에 매핑
→ 사후 기초 생선 단계 대신에 사전 훈련된 Visual Language Models (VLM) , Audio Language Models (ALM) 을 사용하여 추가정보를 제공
→ SM 은 대화를 통해 사용자와 상호 작용할 수 있음
→ VLM, Language Models (LM), ALM 을 사용하는 SM 연구
Summary :
사용자가 채팅을 통해 명령을 주면 SM 이 VLM , LM , ALM 을 호출하여 대화를 주고 받는다. 이 때 SM 은 사용자의 언어 중 키워드를 뽑아내서 각 함수를 통해 각 모델에 텍스트로 전달함. 그 텍스트를 분석해서 각 모델에게서 output을 얻어내고 , SM 모델을 그것을 취합해서 사용자에게 문장의 형태로 피드백을 해줌.
Inner Monologue: LLM Planning with Feedback
- SayCan , SM 모두 피드백을 사용하여 재계획하지 않음
- SayCan 모델에 확장하여 언어 기반 피드백을 (SM) 포함하도록 VLM , 인간 피드백 , 장면 설명 형태로 해결함.
Summary :
SayCan 이랑 똑같은데 피드백을 해줌.
Icode as Policies: LLM Planning with Code
- 계획 생성하는 대신 코드 작성 LLM 을 사용하여 if-else 조건 , for/while 을 포함하여 전체 코드 표현으로 확장
- loops, arithmetic, third-party libraries 모두 포함하여 re-planning , feedback , low-level 코드를 만들어 냄
- Policy 코드는 인식 및 제어 API 모음을 모듈로 사용할 수 있고, LLM 이 사용 중인 함수를 이용하여 새로운 작업을 위해 재구성할 수 있음
- 생성된 코드는 로봇에서 직접 실행됨
- 하나의 명령을 수행하는데 LLM 간에 행동이 다를 수 있음
- 다른 프로그래밍 언어로 학습된 모델은 다른 언어 또는 형식에서 표현력이 떨어질 수 있음
- 실제 로봇의 종류에 따라 매우 다르며 이를 해결하기 위해서는 domain 별 코드에 대해 훈련된 더 큰 모델이 필요할 수 있다고 함
Summary :
chat gpt 에게 summary 넣고 코드 달라고 하는 것과 비슷함
결론
-> 인간 중심 환경에서 자유롭기 위해서는 LLM 지원 로봇이 “Wild” 에서 일반화 성능을 보여야 함
-> 이는 학습 매커니즘의 견고성에 따라 달라짐
-> Sample complexity 는 아직도 미결 문제
-> Robot controller 의 지연시간을 완화할 수 있어야 함
-> 위와 같은 문제들을 해결하는 것은 여전히 어려운 과제로 남아 있음
Reference
- Alexander Herzog∗†, Kanishka Rao∗‡, Karol Hausman∗‡, Yao Lu∗‡, Paul Wohlhart∗†, Mengyuan Yan† , Jessica Lin† , Montserrat Gonzalez Arenas‡ , Ted Xiao‡ , Daniel Kappler†, Daniel Ho† , Jarek Rettinghouse† Yevgen Chebotar‡ , Kuang-Huei Lee‡, Keerthana Gopalakrishnan‡ , Ryan Julian‡, Adrian Li† , Chuyuan Kelly Fu†, Bob Wei† , Sangeetha Ramesh† , Khem Holden‡, Kim Kleiven† , David Rendleman‡, Sean Kirmani† , Jeff Bingham†, Jon Weisz†, Ying Xu†, Wenlong Lu†, Matthew Bennice†, Cody Fong†,David Do†, Jessica Lam†, Yunfei Bai†, Benjie Holson†, Michael Quinlan†, Noah Brown‡,Mrinal Kalakrishnan†, Julian Ibarz‡, Peter Pastor†, Sergey Levine‡∗Authors with equal contribution †Everyday Robots ‡Robotics at Google. Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators. Robotics: Science and Systems 2023 Daegu, Republic of Korea, July 10-July 14, 2023
- Liu, Huihan, et al. "Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment." arXiv preprint arXiv:2211.08416 (2022).
- Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691, 2022.
- Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, et al. Inner monologue: Embodied reasoning through planning with language models. arXiv preprint arXiv:2207.05608, 2022.
- Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, and Andy Zeng. Code as policies: Language model programs for embodied control. arXiv preprint arXiv:2209.07753, 2022.
- Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, et al. Socratic models: Composing zero-shot multimodal reasoning with language. arXiv preprint arXiv:2204.00598, 2022
- Google DeepMind. Demonstrating Large Language Models on Robots. Robotics: Science and Systems 2023 Daegu, Republic of Korea, July 10-July 14, 2023
'About my life > Undergraduate Researcher' 카테고리의 다른 글
[PAPER] 효과적인 논문 작성을 위한 학술 검색과 유용한 도구들 (0) | 2023.11.20 |
---|---|
[Linux] booting -> Login 이후 검은화면 (0) | 2023.07.28 |
[Journal] Progress report (0) | 2023.06.26 |
[Journal] Outline (0) | 2023.06.26 |
webots simulation DQN (0) | 2023.03.02 |