본문 바로가기

About my life/Undergraduate Researcher

[RSS] Robotics: Science and Systems

728x90
반응형

논문 선정 이유

→ sim to real 을 극복하기 위해 어떤 방법을 사용하고 있는 지

→ 현재 연구에서는 Deep Reinforcement Learning 을 어디에 적용하고 있는 지

목적

→ 일반적으로 분리수거를 잘 못하거나 실수로 잘못된 쓰레기통에 넣어 쓰레기통을 오염시킴

→ 각각의 쓰레기통으로 분리수거 하는 자율 로봇을 배치하여 오염을 줄이고자 함

→ 지속적으로 학습 가능하며 , 더 나아질 수 있고, real environment 에서 수행할 수 있는 것을 만들고자 함

기존

→ simulation 많이 사용하였는데 실제와 다른 경우가 매우 많고, 모든 상황을 학습하기 어렵기에 일반화 어려움

→ 실제 로봇 문제에는 시각적 인식 , 계획 등 다양한 구성 요소의 통합이 필요한데 , 여러가지 고유의 문제가 있음

→ Real world 에 맞게 확장할 수 있는 end-to-end 학습 방법이 불분명

→ Real environment 에서 학습하는 것은 어려움

→ Reinforcement Learning [RL] 에는 sample complexity 가 존재함

→ Imitation Learning [IL] 복잡함

본 연구

대규모 실제 사무실 건물에서 재활용품과 쓰레기를 분류하는 Deep Reinforcement Learning (DRL)시스템 개발

 

① Script policy 를 이용하여 데이터를 수집하고 , 초기 policy 를 Bootstrapping 함

② Simulation 환경에서 Online training 을 하여 최신 policy 배포

③ Robot Classrooms 을 만들어서 20개의 로봇으로 데이터 수집

④ Real environment 에 23 대의 로봇을 배치시켜서 데이터 수집

⑤ 위 과정을 반복하면서 PI-QT-Opt Training 을 하는 것

해결해야 하는 문제

① 다양한 위치의 공간에 폐기물을 잡을 수 있어야 함

② 이전에 보지 못한 물체에 대해 일반화할 수 있어야 함

③ 변형이 많거나 복잡한 형태를 조작할 수 있어야 함

④ 잘못 배치된 폐기물을 확인할 수 있어야 함

⑤ 올바른 공간에 폐기물을 옮길 수 있어야 함

해결한 문제

① sample complexity → Script , Sim , Real 에서 효율적으로 해결

② time complexity → Script , Sim , Real 순서로 학습하여 해결

③ generalization → RL 새로운 영역을 경험함에 따라 계속 업그레이드 가능 , 실제 데이터

④ 복잡한 분류 작업을 간단한 작업으로 하기 위해서 multi-task curriculum learning 사용

⑤ partially observable → LSTM 을 사용

⑥ 새로운 객체 인식 문제 → ShapeMask 기반 Computer Vision System 입력을 추가로 통합

 

  1. Script Policy 를 통해 무작위로 인식하고 집고 들어올리는 행위를 학습함
  2. 이미지를 Convolution Neural Network 에 입력
  3. ShapeMask 를 이용하여 객체 인식 성능 보조
  4. 두 가지의 이미지를 통합하여 LSTM 에 입력
  5. State , Action에 따른 Q 값을 Cross-Entropy Loss 를 이용하여 최적화
  • simulation 은 한계가 있지만 어느 정도의 policy를 만드는데 도움을 줄 수 있음
  • 어느 정도의 policy를 만드는데 방대한 데이터가 필요하므로 simulation을 사용
  • Real environment 에서는 거의 한 번 봤던 물체를 다시 한 번 보기 힘들기 때문에 로봇 교실 이용
  • 실제 물리적 문제들을 극복하기 위해 적합함
  • 데이터를 수집하기에 real environment 보다 훨씬 수월함

결과

  • 최고 성능 설계가 까다로운 폐기물 시나리오에서 잘못 배치된 물체의 84.35% 를 분류할 수 있음
  • 사무실 직원이 채우는 폐기물 스테이션의 오염을 최대 53%까지 줄임
  • 각각의 방법을 모두 통합한 PI-QT_Opt 알고리즘이 가장 성능이 좋았음
  • 지속적으로 새로운 경험을 학습할 수 있음

결론

  • 지속적으로 개선시키는 것이 가능하지만 독특하고 다양한 물체를 일반화하는 것은 여전히 어려운 문제로 남아있음
  • 최종 Policy 인 PI-QT Opt 도 성공률이 100% 가 아니기에 더 크고 견고한 모델 성능이 필요함

 

논문 선정 이유

  • 인간이 로봇을 직접 학습시키는 학습 시스템

기존 연구 및 연구 목적

  • Deep Learning 발전과 Computing power 발전으로 새로운 로봇 기능이 연구되고 있음
  • 그럼에도 불구하고 이러한 Learning system 은 generalization이 어렵고 , Real task 를 위한 과도한 train data 가 필요함
  • 기존 존재하는 학습 시스템같은 경우에는 얼마나 자주 실패하는 지, 어떤 상황에서 실패를 하는 지, 이를 해결하기 위해 어떻게 하면 지속적으로 개선할 수 있는 지 방법이 불분명함

본 연구

  • 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
  • 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
  • 인간은 process를 monitoring 하면서 어려운 상황에 개입
  • 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
  • Sample본 연구
    • 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
    • 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
    • 인간은 process를 monitoring 하면서 어려운 상황에 개입
    • 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
    • Sample본 연구
      • 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
      • 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
      • 인간은 process를 monitoring 하면서 어려운 상황에 개입
      • 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
      • Sample본 연구
        • 최신 로봇 기능을 활용하면서 인간과 로봇이 작업 분담을 통해 학습할 수 있는 Sirius 제시
        • 로봇은 안정적으로 작동하는 의사 결정의 대부분을 처리
        • 인간은 process를 monitoring 하면서 어려운 상황에 개입
        • 핵심 아이디어는 human trust 로 train sample 을 재평가하고 weighted behavioral cloning [WBC] 을 이용하여 policy 를 optimize 함
        • Sample
  • Sirius 는 인간과 로봇이 공유 제어를 통해 협력할 수 있도록 함
  • 로봇은 자율적으로 실행되며 인간은 이를 monitoring 함
  • Deploy 데이터는 로봇의 policy 를 개선하기 위해 사용됨
  • Robot Deployment 와 Policy Update 는 하나의 System 에서 함께 발생됨
  • Human Demonstration (HD) 은 Policy train 하는데 전달되고 , 새롭게 학습된 Policy는 Target enviornment 에 Depoly 됨
  • HD , Deploy policy 1,2,3 ㆍㆍㆍ를 통해 Policy 를 training 함
  • Supervised Learning environment 에서 train sample 의 weight 를 재조정하기 위해 Human Intervention 을 활용함
  • w(s,a) 가 이에 해당됨
  • Deploy data 의 크기가 커지면 memory 에 부담 , 학습 속도 저하 , 중요한 sample 을 학습하기 어려워 짐
  • 중요한 momory sample 을 만들기 위해 재구성함
  • FIFO , FILO , LFI , Uniform 과 같은 다양한 memory management 전략을 사용함
  • 학습에 가장 도움이 되는 가치 있는 인간 및 중요한 상태 sample 을 유지, 계속해서 업데이트 되기 때문에 최신 데이터는 고품질 데이터임
  • 4가지의 Task 에 대해 Human-in-the-Loop framework 의 성과를 평가했음
  • BC-RNN 은 Imitation learning 알고리즘
  • IWR은 최첨단 Human-in-the-Loop 학습법
  • Implicit Q-learning (IQL)은 Offline RL 알고리즘

결과

  • 실제 배포 최종 단계에서는 Human Intervention 이 거의 들어가지 않는 것을 알 수 있음

한계

  • 한 명의 인간 운영자로만 수행되기 때문에 개인의 역량에 따라 편향될 수 있음 → 광범위한 인간 연구로 향상시킬 수 있을 것임
  • 계속해서 성능을 개선시키기 위해서는 여전히 인간이 로봇을 모니터링 해야함 → automated runtime monitoring and error detection strategies 을 통합하면 인간의 정신적 부담을 덜어줄 수 있다고 함

결론

  • weighted behavioral cloning method 를 이용하여 batch data 를 효과적으로 사용
  • Human Invention 을 통한 효율적인 학습 시스템 개발
  • memory management strategy 을 사용하여 더 빠른 학습 속도와 적은 memory 를 사용
  • Batch monitoring 인간의 지속적인 monitoring 없이 로봇 오류를 감지할 수 있는 흥미로운 연구가 될 것임

논문 선정 이유

  • 새로운 연구
  • Large Language Model 적용 가능성

기존 연구 및 연구 목적

  • Large Language Model (LLM) 이 개발되어 많은 연구 분야에 통합되고 있음
  • 하지만 물리적 세계에 대한 근거(위치)가 부족함
  • 이러한 모델을 사용하여 로봇에 대한 언어, 지각 및 행동 사이의 연결하는 것은 아직 공개된 연구 질문으로 남아 있음
  • 아래에 있는 연구들이 서로 어떻게 다르고 어떻게 구축되는 지에 대한 심도 있는 논의를 제공함
  • 이 분야에서 아직 해야 할 일이 훨씬 더 많다는 사실을 연구 커뮤니티에 전달하는 것

본 연구

① SayCan

② Socratic Models

③ Code as Policies

④ Inner Monologue

→ Visual Language Model (VLM) 출력은 모두 LLM을 사용하여 입력 자연어 명령으로 취하고

다음 형식으로 로봇 계획을 생성한다는 점에서 공통 시스템 수준 구조를 공유함

  1. 기존 비디오 채팅 인터페이스를 사용하여 명령을 입력
  2. 비디오 스트리밍을 통해 broadcasting 하여 로봇에게 동작을 지시할 수 있음
  3. 랩탑에서 원격으로 수행할 수 있음
  1. 사용자가 채팅 기반 Interface 를 통해 Acess 할 수 있음
  2. 사용자가 대화를 통해 Ability 와 Task 를 결정해줌
  3. Task가 가능하면 RT-1 (모바일 조작기)을 사용하여 실제 세계에서 작업을 실행함
  4. 각 단계에서 해석 가능한 Interface 를 통해 Affordance 와 Language model 점수를 출력함
  • 녹색 명령을 주면 Affordance Functions 을 이용하여 LLM Planning 생성
  • 각 계획은 utility 와 feasible 을 통해 선택되는데 , 언어 모델의 확률 점수와 Affordance 값의 조합을 기반으로 선택됨
  • 그 다음 계획은 RL 또는 Supervised Learning 으로 Pre-training 된 Language Policy 에 의해 실행됨

Summary :

채팅을 통해 명령을 주면 LLM 모델과 Affordance 값을 이용하여 적절한 action을 뽑아내고 , 목적을 달성하기 위한 하위 계획들을 세워나감. 계획을 세우고 나서는 RT-1 모바일 조작기를 이용하여 실제 세계에서 작업을 함.


Socratic Models: VLM-informed LLM Planing

  • 단계별 계획을 생성하기 전에 pre-training 된 Visual Language Model , Audio Language Model을 사용하여 LLM 에 추가로 이미지에 대한 텍스트 설명을 제공함
  • 인식 및 계획 사이에 텍스트를 사용한다는 것
  • 광범위한 감지 기능과 조건부 policy 기술로 확장될 수 있지만 , 간결하게 설명하는 데 어려울 수 있음
  1. ViLD 를 사용하여 screen 에서 객체를 감지
  2. 해당 정보를 객체 이름으로 InstructGPT에 LLM planner 로 전달
  3. CLIPort 함수 호출하여 입력 데이터 분포와 일치하는 텍스트 템플릿에 매핑

→ 사후 기초 생선 단계 대신에 사전 훈련된 Visual Language Models (VLM) , Audio Language Models (ALM) 을 사용하여 추가정보를 제공

→ SM 은 대화를 통해 사용자와 상호 작용할 수 있음

→ VLM, Language Models (LM), ALM 을 사용하는 SM 연구

Summary :

사용자가 채팅을 통해 명령을 주면 SM 이 VLM , LM , ALM 을 호출하여 대화를 주고 받는다. 이 때 SM 은 사용자의 언어 중 키워드를 뽑아내서 각 함수를 통해 각 모델에 텍스트로 전달함. 그 텍스트를 분석해서 각 모델에게서 output을 얻어내고 , SM 모델을 그것을 취합해서 사용자에게 문장의 형태로 피드백을 해줌.


Inner Monologue: LLM Planning with Feedback

  • SayCan , SM 모두 피드백을 사용하여 재계획하지 않음
  • SayCan 모델에 확장하여 언어 기반 피드백을 (SM) 포함하도록 VLM , 인간 피드백 , 장면 설명 형태로 해결함.

Summary :

SayCan 이랑 똑같은데 피드백을 해줌.


Icode as Policies: LLM Planning with Code

  • 계획 생성하는 대신 코드 작성 LLM 을 사용하여 if-else 조건 , for/while 을 포함하여 전체 코드 표현으로 확장
  • loops, arithmetic, third-party libraries 모두 포함하여 re-planning , feedback , low-level 코드를 만들어 냄
  • Policy 코드는 인식 및 제어 API 모음을 모듈로 사용할 수 있고, LLM 이 사용 중인 함수를 이용하여 새로운 작업을 위해 재구성할 수 있음
  • 생성된 코드는 로봇에서 직접 실행됨
  • 하나의 명령을 수행하는데 LLM 간에 행동이 다를 수 있음
  • 다른 프로그래밍 언어로 학습된 모델은 다른 언어 또는 형식에서 표현력이 떨어질 수 있음
  • 실제 로봇의 종류에 따라 매우 다르며 이를 해결하기 위해서는 domain 별 코드에 대해 훈련된 더 큰 모델이 필요할 수 있다고 함

Summary :

chat gpt 에게 summary 넣고 코드 달라고 하는 것과 비슷함

 

결론

-> 인간 중심 환경에서 자유롭기 위해서는 LLM 지원 로봇이 “Wild” 에서 일반화 성능을 보여야 함

-> 이는 학습 매커니즘의 견고성에 따라 달라짐

-> Sample complexity 는 아직도 미결 문제

-> Robot controller 의 지연시간을 완화할 수 있어야 함

-> 위와 같은 문제들을 해결하는 것은 여전히 어려운 과제로 남아 있음

 

Reference

  1. Alexander Herzog∗†, Kanishka Rao∗‡, Karol Hausman∗‡, Yao Lu∗‡, Paul Wohlhart∗†, Mengyuan Yan† , Jessica Lin† , Montserrat Gonzalez Arenas‡ , Ted Xiao‡ , Daniel Kappler†, Daniel Ho† , Jarek Rettinghouse† Yevgen Chebotar‡ , Kuang-Huei Lee‡, Keerthana Gopalakrishnan‡ , Ryan Julian‡, Adrian Li† , Chuyuan Kelly Fu†, Bob Wei† , Sangeetha Ramesh† , Khem Holden‡, Kim Kleiven† , David Rendleman‡, Sean Kirmani† , Jeff Bingham†, Jon Weisz†, Ying Xu†, Wenlong Lu†, Matthew Bennice†, Cody Fong†,David Do†, Jessica Lam†, Yunfei Bai†, Benjie Holson†, Michael Quinlan†, Noah Brown‡,Mrinal Kalakrishnan†, Julian Ibarz‡, Peter Pastor†, Sergey Levine‡∗Authors with equal contribution †Everyday Robots ‡Robotics at Google. Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators. Robotics: Science and Systems 2023 Daegu, Republic of Korea, July 10-July 14, 2023
  2. Liu, Huihan, et al. "Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment." arXiv preprint arXiv:2211.08416 (2022).
  3. Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691, 2022.
  4. Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, et al. Inner monologue: Embodied reasoning through planning with language models. arXiv preprint arXiv:2207.05608, 2022.
  5. Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, and Andy Zeng. Code as policies: Language model programs for embodied control. arXiv preprint arXiv:2209.07753, 2022.
  6. Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, et al. Socratic models: Composing zero-shot multimodal reasoning with language. arXiv preprint arXiv:2204.00598, 2022
  7. Google DeepMind. Demonstrating Large Language Models on Robots. Robotics: Science and Systems 2023 Daegu, Republic of Korea, July 10-July 14, 2023

 

728x90
반응형