About my life/Undergraduate Researcher (17) 썸네일형 리스트형 [Journal] Progress report June Week 5 Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey Curriculum Learning 에 대한 모든 것 논문에서 제시하는 Framework를 사용하여 미결 문제 찾기 RL , CL 연구를 위한 방향성 제시 What is Curriculum Learning ? --> 인간 발달 , 정규 교육 등 보편적인 학습 방법 --> 연속적인 하위 게임에서 새로운 기술을 배우고 이전 게임에서 배운 지식을 바탕으로 달성해야하는 새로운 요소가 도입됨. --> 학습을 가속화하거나 향상시키기 위해 에이전트가 시간이 지남에 따라 휙득하는 경험을 정렬하는 역할로 과거의 경험을 정리하는 일과, 목표에 대한 훈련을 통해 .. [Journal] Outline Do to list Git push Code manage Code modify Why use CL ? What is CL ? What is the problem with version1 now ? What do you need to overcome the problem? How are you going to apply CL ? Apply CL in webots simulation Performance Test Compared to the previous one Set additional comparison groups Real environment test Results organization Journal writing Modifying & adding Priority Why use CL ? What .. webots simulation DQN 으아 ....진짜 쉬운 게 아니었구나 .. 머리속으로는 되게 만만해보였거든,,, 강화학습도 짜여져 있는 코드 순서대로 읽으면서 이해하는 건 할만 했거든... 구현해야될 기능들이 많아질 수록 머리가 복잡해지고 그래서 새하얀 A4에 구현해야될 순서를 하나부터 열까지 다 적어서 이해했다는.... 코드뿐이 아니라 webots 자체만으로도 정말 얼마나 많은 시간을 투자했는 지 모르겠구려 .. 1. webots simulation 자체 공부 (어떻게 원하는 데이터를 뽑을 지, webots에는 어떤 기능이 있는 지, 제어하고 싶은 로봇에는 어떤 장치들이 있고, 그 장치들을 어떻게 제어할 지 등등) -> 이거 진짜 며칠을 걸린지 모르겠다. webots doc 보고는 잘 모르겠어서 머리 쥐어 짜다가, 이것 저것 해결해보.. Webots error 와...진짜 해도 해도 끝이 없구만...! 오늘 하루종일 뭐를 한 것인지 현타도 오고 삽질 한 것 같아 여기다가 적어본다. linux 환경에서 drivers, cuda, cudnn, tensorflow 를 호환되는 버전으로 설치완료. webots 상에서 tensorflow 할 때 gpu 사용 가능 DQN 구현을 위해 window 환경에서 각종 github 찾아봄. gym, baselines, Gridworld 등을 이용하여 DQN 구현 예시가 있었는데, 이때부터 시작이었음. baselines 이 pip install stable-baselines 를 통해 했는데, import는 되는데 error 가 떴음. 예제에는 from Gridworld import Gridworld 라 되어있는데, Gridwolrd.. Present Path 1. webot simulation 에서 DRL 기반 collision avoidance 를 성공 시키는 것.어떤 알고리즘 선택할 지.e-puck 어떤 것을 input (position, sensor value, image ㆍㆍㆍ) 값으로 할지.state, reward, action, parameter ㆍㆍㆍ 등 결정.2. real environment 에서 collision avoidance를 성공 시키는 것.real environment 와 simulation 의 gap을 어떻게 극복할지..3. heuristic 하게 collision avoidance 한 것보다 성능을 좋게 collision avoidance 하는 것.기존에 있던 알고리즘 혹은 methods 이용해서 구현. - 연구의 첫 시작부터 .. Long Short-Term Memory (LSTM) LSTM : RNN 의 단점을 보완한 모형으로, the problems of long-term dependencies 를 해결함 RNN은 위와 같은 방식으로 값을 전달하게 되는데 아래와 같은 문제가 발생한다고 한다. 타우값이 (-1,1) 이라서 앞의 정보에 반복적으로 곱해지다 보면 앞의 정보를 충분히 전달 할 수 없고, 이러한 문제를 long-trem dependencies 이라 한다고 한다. LSTM의 구조를 봐보면 아래와 같다. Forget Gate : 과거 정보를 얼마나 잊을 지 결정 Input Gate & Candidate : 현 시점의 정보를 얼마나 사용할 건지 & 현 시점의 정보 계산 Memory Cell Calculate : memory cell 과거 정보와 현재 정보를 단순히 저장함 Out.. Convolutional Neural Networks (CNN) CNN : 인공 신경망 (ANN)의 한 종류로 , 흔히 이미지 인식 및 처리 (to analyze visual imagery)에 사용되고, CNN의 구조를 잘 보면 특정 자극에 대한 시각 피질의 뉴런 반응과 유사하다고 한다. _ Wikipedia -> input -> padding -> convolution -> pooling -> convolution -> ㆍㆍㆍ -> flattening -> output -> 특정 자극에 대한 시각 피질의 뉴런 반응을 인공적으로 유사하게 만든 신경망이라 이해하겠다. -> +) 이미지에서 픽셀 단위 한 개가 중요한 게 아니라 어떤 뭉쳐있는 픽셀들이 특징점이 있는 것이므로 (개의 머리,몸통 등) convolution layer 할 때 filter, stride 를 잘 선.. 이전 1 2 다음