About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Fall 2024 Vol. 23
Electronics

학습할 데이터를 스스로 선택하고 증강해서 발전하는 AI

August 29, 2024   hit 994

KAIST 데이터 지능 연구팀은 회귀 분석에서 노이즈가 많고 불충분한 데이터에도 강건한 모델을 훈련시키기 위한 새로운 데이터 중심 머신러닝 프레임워크인 RC-Mixup을 제안하였다.


 학습할 데이터를 스스로 선택하고 증강해서 발전하는 AI 모델

 

KAIST 데이터 지능 연구실 (지도교수: 황의종) 소속 황성현, 김민수 박사과정 학생이 회귀 분석에서 노이즈가 많고 불충분한 데이터에도 강건한 모델을 훈련시키기 위한 새로운 데이터 중심 머신러닝 프레임워크를 개발하였다. 연구팀은 제안한 기법이 노이즈 데이터에 대한 회귀 모델의 성능을 크게 향상시켜, 그 효과성을 보였다.

 

인공지능 및 딥러닝 기술이 스마트 제조, 기후 예측, 금융 등 다양한 회귀 응용 분야에서 폭넓게 사용됨에 따라 대규모 훈련 데이터를 확보하는 것은 모델을 정확하게 훈련시키기 위해 필수적이다. 하지만 방대한 양의 훈련 데이터를 수집하는 것은 비용이 많이 들고 분야에 따라서는 전문 지식도 필요하기 때문에 현실에서는 여전히 어려운 문제이다. 데이터 부족 문제의 해결을 위해 기존 데이터의 분포를 기반으로 새로운 데이터를 생성하여 훈련된 모델의 일반화 성능을 향상시키는 데이터 증강 기법들이 제안되고 있다. 대부분의 데이터 증강 기법은 분류 작업을 위해 설계되었지만, 최근에는 C-Mixup과 같은 회귀 분석을 위한 데이터 증강 기법도 개발되고 있다. 특히 C-Mixup은 레이블 거리가 가까운 데이터 포인트를 샘플링하고 두 샘플을 선형 보간을 통해 혼합하여 새로운 데이터와 레이블을 생성한다.

 

충분한 수의 데이터 확보와 동시에, 노이즈에 대한 강건성 또한 회귀 분석 분야에서 점점 더 중요해지고 있다. 예를 들어, 현재 반도체 제조 공정에서는 3D 반도체의 층 두께를 예측하는 것은 반도체 결함 감지에 매우 중요한 비중을 차지하고 있다. 잘못되거나 오작동하는 측정 장비로 인해 발생한 노이즈 데이터는 예측 모델의 성능을 저하시킬 수 있으며, 이는 기업 수익에 부정적인 영향을 미친다. 노이즈에 대해 강건한 모델을 만들기 위해 최근에는 여러 번의 훈련 반복을 통해 손실 값에 따라 노이즈 샘플을 제거하거나 수정하는 다중 회차 강건 모델 훈련 방식 (Multi-round robust training)이 제안되고 있다.

 

이에 연구팀은 회귀 분석을 위한 데이터 증강 기법 (C-Mixup) 과 강건 모델 훈련 기법을 긴밀하게 결합하여 둘의 시너지 효과를 통해 좋은 모델 성능을 달성하는 새로운 데이터 중심 프레임워크인 “RC-Mixup”을 제안하였다. RC-Mixup은 회귀 분석을 위한 노이즈 조건에서 새로운 데이터를 생성하도록 설계된 최초의 프레임워크다. 강건 훈련 방법을 활용하여 RC-Mixup은 모델이 노이즈 샘플을 보다 효과적으로 식별하고 처리할 수 있는 능력을 향상시킨다. 반대로, 더 깨끗한 데이터로 훈련된 모델이 더 나은 결과를 제공하므로 데이터 증강도 강건한 훈련에서 혜택을 본다. 이러한 시너지 효과를 통해 각각 독립적으로 증강 기법이나 강건 훈련 방법을 적용하는 것보다 모델의 성능을 더 향상시킬 수 있다.

 

그림 1. 노이즈가 있는 회귀 분석 상황에서 RC-Mixup의 작동 방식

 

연구팀은 C-Mixup과 데이터 노이즈 비율 간의 명확한 관계를 관찰하여 모델 성능을 향상시키기 위해서는 노이즈 비율이 증가함에 따라 더 먼 이웃과 샘플을 혼합해야 하는 전략을 채택했다. 강건 훈련 방법이 훈련 중에는 데이터 클리닝을 통해 데이터의 노이즈 비율을 감소시키기 때문에, RC-Mixup은 혼합 이웃의 범위를 결정하는 대역폭 매개변수를 조정하여 더 나은 성능을 달성할 수 있었다. 최적의 대역폭 매개변수의 값은 주기적으로 조절되며, 매개변수 후보 값 중에서 검증 데이터셋에서 가장 좋은 성능을 보인 값이 채택된다. RC-Mixup은 노이즈 데이터에 대한 회귀 모델의 성능을 크게 향상시켰다. 또한 연구팀은 검증 데이터셋 없이 간단한 대역폭 감쇠 방법을 제안하여, 기존 방법에 비해 더 나은 성능을 유지하면서도 더 빠른 훈련 속도를 제공한다.

 

해당 연구는 데이터 과학 및 데이터 마이닝 분야의 최고권위 학회인 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 2024에서 "RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks"라는 제목으로 발표될 예정이다.