(논문명) Learning-based DVFS with Zero Thermal Throttling for Mobile Devices ... - <ACM MobiSys>

zTT의 학습 기반 CPU/GPU 동적 주파수 제어 개념도     정송 교수 제공
zTT의 학습 기반 CPU/GPU 동적 주파수 제어 개념도                                     정송 교수 제공

    우리 학교 AI대학원과 전기및전자공학부 정송 교수 연구실의 김세연 박사과정생과 이경한 박사졸업생이 지난 6월 코로나19로 인해 온라인으로 개최된 2021년도 ACM MobiSys 학회에서 Best Paper Award를 수상했다. 이번 논문의 연구 분야인 DVFS(Dynamic Voltage and Frequency Scaling)기술은 프로세서의 전력 효율을 높이기 위해 꾸준히 연구가 진행되어온 분야이며, 모바일 프로세서를 포함하여 모든 프로세서(CPU, GPU, Memory, 등)는 이러한 기술이 탑재되어 있다.

논문 내용

    전력 소모와 애플리케이션 성능은 상충관계이다. 애플리케이션의 성능을 높일수록 전력 소모 또한 높아지는, 즉 과열되기 때문에 논문에서 이 문제를 해결하기 위한 방법을 제시했다. 이러한 상충관계는 최적화 형태의 문제로 쉽게 표현될 수 있다. 하지만 제시한 최적화 문제의 해를 구하기 위해서는 애플리케이션 성능, 전력 소모에 따른 미래 온도의 상관관계를 표현할 수 있는 모델이 필요하다. 전력 소모에 관한 모델링은 많이 연구되어왔지만 모든 애플리케이션의 성능을 매번 모델링하는 것은 현실적으로 어려운 문제이다. 또한, 모바일 기기의 특성상 애플리케이션이 다양한 환경에서 동작하기 때문에 쉽지 않다. 따라서 연구팀은 온라인 샘플링 기반의 적응형 모델을 활용하는 심층 강화학습을 통해 zTT(zero Thermal Throttling)를 고안하여 이 문제를 해결했다.

    본 연구에서 정의한 상태는 각 프로세서의 전력 소모, 온도, 클럭 주파수, 애플리케이션의 성능이며 행동은 프로세서들의 클럭 주파수로 정의를 하였다. 즉, 매번 상태를 모니터링하여 실시간으로 최적의 클럭 주파수를 찾아야 하는 문제로 정의된다. 이 문제를 강화 학습 방식으로 풀려고 하니, 상태 정보의 차원이 커져서 기존의 강화 학습으로는 문제를 빠르게 풀기가 어렵다는 한계가 있었다. 이에, 기존 모델링 기반의 연구를 분석하여 정보의 손실이 없는 한에서 간단한 심층 신경망을 설계하여 심층 강화 학습 기법을 사용하였다.

이전 연구와의 차이점

    기존 DVFS 연구의 목표는 기기의 성능을 최대한 보장하면서 전압과 클럭 주파수는 최소한으로 쓰는 것이다. 현재 스마트폰을 포함한 대부분의 기기에서 사용되는 DVFS의 경우, 각 프로세서의 사용량에 따라서 미리 설정된 클럭 주파수를 세팅한다. 그러다가 만약 일정 온도 이상으로 넘어가면 열쓰로틀링*을 통해 주파수를 급격히 낮추는 방식이다. 본 연구에서는 이를 지적하며 프로세서 온도와 전력 소모, 성능을 동시에 고려하였다. 즉, 주어진 환경에서 과열이 될 것 같은 상황을 학습하여 프로세서가 과도하게 자원을 사용하는 것을 사전에 방지할 수 있도록 하였다. 동시에, 각 프로세서(CPU, GPU)가 애플리케이션이 필요로 하는 자원을 학습하여 특정 프로세서가 지나치게 많은 자원을 사용하지 않도록 하였다.

연구 과정 중 어려움

    강화 학습은 현재 상태에서 어떤 행동을 취했을 때, 같은 확률로 정해진 상태로 넘어가는 특성(Markov property)을 이용한다. 즉, 다음 상태는 오직 현재 상태와 행동에 의해서만 예측될 수 있어야 한다. 하지만 온도의 경우, 기기 내에서 발생한 열이 갇혀 있다가 어느 정도 시간이 흐른 뒤에 변화가 생긴다. 제시한 보상함수의 특성상 정상적인 온도에서는 상관이 없지만, 가끔 과열되는 지점에서 특성이 깨지는 경우가 있었다. 따라서 과열 지점 근처에서 행동의 범위를 제한하는 방식과 해당 샘플의 학습 우선순위를 높이는 방식을 통해 성공적으로 학습을 할 수 있었다.
마지막으로 연구팀의 김세연 박사과정생은 “많은 연구는 기존 기술의 한계를 극복하는 간단한 아이디어에 의해서 시작한다”고 강조하며, “문제를 혼자서 고민하기보다 우리 학교의 인프라를 활용하여 다양한 소통과 지도를 통한 좋은 경험을 쌓길 바란다”고 덧붙였다. 


쓰로틀링*
PC, 노트북, 모바일 기기의 CPU, GPU 등이 지나치게 과열될 때 기기의 손상을 막고자 클럭과 전압을 강제적으로 낮추거나 강제로 전원을 꺼서 발열을 줄이는 기능

저작권자 © 카이스트신문 무단전재 및 재배포 금지