전기및전자공학부 명현 교수 연구팀:
DreamWaQ: Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via Deep Reinforcement Learning - 「Preprint」

지난 3월 29일, 우리 대학 전기및전자공학부 명현 교수 연구팀이 로봇의 시각 센서를 활용하기 어려운 환경에서도 강인한 블라인드 보행이 가능한 드림워크(DreamWaQ) 기술을 개발했다고 밝혔다.
 

시각 센서 없이는 걷지 못하는 기존 로봇

연구팀은 상용 보행 로봇이 일반적인 평지에서는 잘 걷지만, 시각 정보를 활용하지 않고 계단을 오르거나, 자갈 같은 장애물을 극복할 수 없다는 문제점을 실감했다. 그래서 험난한 지형 환경이나 재난 환경에서 보행 로봇이 시각 센서를 활용하지 않고 강인한 보행을 하기 위한 소프트웨어 개발을 시작하게 되었다. 작년 4월부터 진행된 이번 연구는 ‘사람이 어두운 밤에 화장실을 갈 때 비교적 안전하게 걸을 수 있는 것은 그간의 경험과 학습을 통해 가능하다는 사실’에 착안하여 로봇에게도 유사하게 적용해 보자는 아이디어로 이어졌다.
 

상황 추정 네트워크와 정책 네트워크

크게 상황 추정 네트워크와 정책 네트워크가 사용되었다. 상황 추정 네트워크는 주변 환경을 해석하는 신경망이다. 특정 시간 내의 일련의 센서 데이터를 기반으로 환경적인 특성, 지형의 미끄러운 정도, 계단의 패턴, 로봇이 운반하는 적재중량 등을 나타내는 상황을 암시적으로 추정한다. 그뿐만 아니라, 로봇의 속도를 명시적으로 추정할 수 있다. 따라서, 드림워크를 활용한 로봇은 추가적인 상태 추정기의 개발이 없어도 긴 시간 안정적인 보행 제어가 가능하도록 도와준다. 정책 네트워크는 이런 추정된 상황을 바탕으로 실제 로봇의 관절 각도를 제어하도록 출력이 되는 제어기 신경망이다.

상황 추정 네트워크는 강화학습 탐색을 통해 수집된 데이터를 기반으로 지도 학습된다. 강화학습 탐색은 시뮬레이션에서 학습 중에 수행되어, 탐색 중 참값 정보를 가져와 상황 추정 네트워크 학습에 활용할 수 있다. 반면, 정책 네트워크는 행동자-비평자 방식을 통해 학습된다. 여기서 행동자-비평자 방식이란 가능한 모든 상태를 탐색하고 행동자 네트워크를 활용하여 특정 작업 즉, 다양한 지형을 강인하게 극복하기 위한 의사 결정을 하는 것을 의미한다.
 

연구진 단체 사진(왼쪽부터) 명현 교수, 이 마데 아스윈 나렌드라 박사과정, 유병호 박사과정, 오민호 박사과정. 맨 앞에는 드림워크 기술이 탑재된 사족보행 로봇 드림워커.                                                                  명현 교수 제공
연구진 단체 사진
(왼쪽부터) 명현 교수, 이 마데 아스윈 나렌드라 박사과정, 유병호 박사과정, 오민호 박사과정. 맨 앞에는 드림워크 기술이 탑재된 사족보행 로봇 드림워커.                                                                                                   명현 교수 제공

 

보행 로봇 제어 기술

기존의 보행 제어 기술은 주변 환경 인지 성능에 크게 의존한다는 단점이 있었다. 관성센서(IMU)와 관절 각도 정보만 활용하기보다 시각센서를 활용하는 것이 환경 인지에 용이했으며, 시각센서가 불안정하면 제어 성능이 좋지 못했다. 심층 강화학습을 활용한 연구도 활발히 진행되고 있었다. 하지만, 학습된 환경에서만 잘 동작하는 한계가 있어 시뮬레이션에서 구현되지 못하는 여러 요소가 제어기 성능을 하락시켰다.

기존 연구를 토대로 연구팀은 학습되지 않은 상황에서 얼마나 강인하게 동작 가능한지가 성능의 지표가 되는 것으로 판단하였다. 그리하여, 해결 방안으로 복잡한 네트워크를 구현하기보다, 행동자-비평자 네트워크와 인코더로 구성된 매우 간단하고 가벼운 신경망 구조를 사용하였고, 놀랍게도 학습되지 않은 상황에서도 훌륭하게 대처하는 모습을 보여주었다.
 

로봇공학 분야의 심층 강화학습 활용

본 연구는 심층 강화학습이 실제 로봇의 실시간 제어의 해결책으로 충분히 채택될 수 있음을 보여주었다. 2016년 알파고를 비롯해, 최근 몇 년 동안 심층 강화학습의 적용 사례들은 많이 나왔지만, 로봇 공학 분야에서 심층 강화학습의 적용은 시뮬레이션에 그쳤고, 실제 로봇에 적용된 사례조차도 실시간성을 보장하기 어려웠다. 연구팀이 개발한 드림워크는 관성센서 및 관절 센서 등의 센서 데이터 처리를 기반으로 실제 로봇을 직접 제어하기 위해 심층 강화학습을 활용하였다는 점에서 연구적 의의가 있다.

명 교수는 연구를 진행하면서 “기술적인 어려움, 하드웨어 통신 두절 등의 예상치 못한 문제로 문제 해결이 어려웠다”고 밝히며, “궁극적인 목적인 안전하고 강인한 보행 제어를 위해 항상 신중하게 설계하고 분석하여 해결했다”고 말했다. 마지막으로, “연구는 자기만족이 아니라 세상에 유익을 줄 수 있어야 하므로, 경제적, 사회적 임팩트를 지닌 기술을 개발해 공공의 안전과 유익을 줄 수 있는 방향으로 연구하고 도전하길 바란다.”고 덧붙였다.
 

저작권자 © 카이스트신문 무단전재 및 재배포 금지