(김재철 AI 대학원 윤세영 교수 연구팀) :
MEDIAR: Harmony of Data-Centric and Model-Centric for Multi-Modality Microscopy - 「NeurIPS 2022 Cell Segmentation Challenge」

우리 학교 김재철AI대학원 윤세영 교수 연구팀이 세계 최고 수준의 인공지능 학회 NeurIPS 2022에서 개최된 세포 인식 기술 경진대회에서 우승했다. 이기훈 박사과정, 김상묵 박사과정, 김준기 석사과정 3명의 연구원으로 구성된 OSILAB팀은 MEDIAR를 개발해 2위 팀과 큰 성능 격차를 보이며 1위를 거머쥐었다.
 

데이터와 모델, 두 가지 관점에서 접근한 MEDIAR

주어진 이미지 속에서 원하는 물체나 대상을 인식하고 픽셀 단위로 추출하는 작업을 ‘이미지 세그멘테이션(Image Segmentation)’이라고 한다. MEDIAR는 그중에서도 현미경 이미지 속 세포 인식(Cell Segmentation)을 위해 개발된 인공지능 기술이다. 세포를 촬영하는 환경에는 현미경의 종류, 배율, 세포나 조직의 종류, 세포 염색 방법, 형광 표지 등 아주 많은 요소가 개입되기 때문에, 다양한 이미지에서 세포 인식을 수행하는 것은 매우 어려운 작업이다. MEDIAR는 이 문제를 해결하기 위해 데이터와 모델의 구조 두 가지 방식으로 접근했다.
 

MEDIAR 기술의 개요 윤세영 교수 제공
MEDIAR 기술의 개요                                                                                             윤세영 교수 제공

 

먼저, MEDIAR의 모델은 대표적인 이미지 세그멘테이션 모델인 ‘U-Net’의 디자인을 따르되, 트랜스포머(Transformer)를 사용한 점이 가장 큰 특징이다. 트랜스포머란, 자연어 처리에서 널리 활용되기 시작해 최근에는 시각 데이터 학습에도 두각을 드러내고 있는 딥러닝 모델이다. U-Net의 구조는 입력 정보를 원하는 형태로 변환하는 인코더(Encoder)와 변환된 정보를 다시 원래의 형식으로 바꿔주는 디코더(Decoder)로 구성되어 있고, 인코더에는 합성곱 신경망(Convolutional Neural Network)가 주로 사용되었다. MEDIAR는 이 인코더 부분에 세그멘테이션 작업에 특화된 트랜스포머 구조인 ‘세그포머(Segformer)’를 도입했다. 

연구팀은 학습 데이터의 질과 양을 개선하는 데에도 주목했다. 우선, 학습 데이터의 불균형 문제를 해결하고자 데이터 증강 기법을 적용했다. 특성이 비슷한 데이터끼리 묶어주는 클러스터링 기법으로 빈도수가 적은 세포 이미지를 색출해냈고, 해당 이미지에 데이터 증강 기법을 적용해 데이터 불균형을 해결했다. 또한 기존에 이미지 전체에 변형을 적용하던 데이터 증강 기법과 달리, 세포 단위로 변형을 주는 방식을 도입했다. 이는 모델이 세포를 인식할 때 세포의 색뿐만 아니라 모양에도 집중할 수 있게 했다.
 

여러 분야로의 폭 넓은 적용과 더 효율적인 학습 통한 발전 기대

이미지 세그멘테이션은 정확도 향상이 매우 어려운 작업으로 알려졌다. 특히 세포 이미지, 기상 데이터, 도로 상황 속 장애물 이미지를 인식하는 작업은 다양한 환경에 대해서 항상 잘 작동해야 한다는 공통점을 갖는다. 이것을 인공지능 기술의 세부 분야로 ‘도메인 일반화(Domain Generalization)’이라 부른다. MEDIAR를 단순히 세포 인식만을 잘 수행하는 모델이 아닌 도메인 일반화를 잘 수행하는 기술로 본다면, 현미경 이미지뿐만 아니라 다양한 환경과 제한된 데이터라는 특성을 가지는 비슷한 문제들에도 활용할 수 있을 것으로 전망된다.

연구팀은 “세포 인식 기술에 있어 데이터가 가장 중요하다고 생각한다”고 밝혔다. 하지만 전문 인력이 세포 이미지 데이터에 일일이 라벨링하는 것은 큰 비용이 들기 때문에, 라벨이 없는 데이터를 추가로 활용하는 준 지도(Semi-superivsed)학습에 대해 후속 연구를 진행할 예정이라고 설명했다. 특히 라벨이 없는 상황에서도 학습 성능을 크게 높일 수 있는 것으로 조명받고 있는 대조 학습(Contrastive Learning)을 활용할 계획이라고 밝혔다.
 

중요한 것은 꺾이지 않는 마음

연구팀은 “이번 연구를 진행하면서 많은 어려움을 겪었다”며, “팀원 모두가 디지털 병리학 분야에 딥러닝을 활용해 보는 것이 처음이었고, 대회 리더보드에서도 가장 낮은 순위부터 시작했다”라고 설명했다. 이를 극복한 과정에 대해서는 “다양한 논문들을 읽으며 해당 분야에 대한 배경지식을 쌓는 것부터 시작해, 팀원들이 각자 가장 잘 할 수 있는 분야에 집중했다”라고 밝혔다. 또한, “정말 마음이 꺾일 때마다 우리가 하는 연구가 얼마나 가치 있고 세상에 도움이 될지를 생각했다. 이 연구가 생물학 및 의료 분야에 큰 기여를 할 수 있을 것이라 믿었고, 그 믿음은 우리를 끝내 포기하지 않게 만들었다”라고 전했다. 연구팀은 “본인의 연구가 현실에 어떻게 적용될지 고민하는 것도 연구 과정에서 매우 큰 부분이다”라고 덧붙였다.

 

 

저작권자 © 카이스트신문 무단전재 및 재배포 금지