About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Spring 2025 Vol. 24
Engineering

분포 외 데이터(OOD) 탐지 기술, AI 안전성 확보에 필수적

February 27, 2025   hit 271

완만하고 확장된 분류 경계는 분포 외 데이터 샘플에 대한 과잉 확신을 완화할 수 있음이 발견되었다. 안전이나 생명과 직결된 자율주행 및 의료 진단 등 민감한 인공지능 분야에서 효과적으로 활용될 것으로 기대된다.

 


 

분포 외 데이터(Out-of-distribution, OOD) 탐지는 인공지능 시스템이 실제 환경에서 다양한 예측 불가능한 데이터를 처리할 때 매우 중요한 역할을 한다. OOD 탐지 기술은 훈련 데이터 분포로부터 벗어나는 데이터를 식별해내어, 인공지능 시스템의 신뢰성과 안전성을 유지하는 데 필수적이다. 이러한 기술은 자율주행, 의료 진단, 금융 사기 탐지 등 안전이나 생명과 직결된 분야에서 특히 중요한데, 예기치 못한 데이터로 인한 오류를 예방할 수 있기 때문이다.

 

기존의 OOD 탐지 연구는 크게 두 가지 접근 방식으로 나눌 수 있다. 첫 번째는 추론 과정에서의 접근법으로, 완만한 분류 경계를 만들어내는 데 초점을 맞춘다. 두 번째는 훈련 과정에서의 접근법으로, 클래스 간의 간격(inter-class discrepancy)을 크게 하여 OOD 샘플에 대한 과잉 확신을 줄이는 임베딩 공간을 만드는 데 목적이 있다.

KAIST 산업및시스템공학과 이종석 교수 연구팀은 이러한 두 가지 접근법의 강점을 결합한 새로운 OOD 탐지 기법을 개발했다. 이 방법은 클래스 내부의 데이터가 더 밀집되도록(intra-class compactness) 개선한 특징도 포함하고 있어 OOD 탐지의 정확도를 더욱 높였다. 그 결과, 이 방법은 기존 기술들이 가진 문제점, 예를 들어 추론 과정에서 발생하는 느린 처리 속도와 낮은 탐지 정확도, 또는 훈련 과정에서 추가 데이터 활용과 정확도 감소 등을 모두 극복할 수 있었다.

 

연구팀은 클래스 간 간격과 클래스 내부 밀집도를 개선하여 더 명확한 임베딩 공간을 만들기 위해 각도 마진 손실을 사용했다. 그림 1은 이러한 아이디어의 효과를 시각적으로 보여주고 있다. 각도 마진 손실을 적용했을 때(그림 1(b)), 소프트맥스 손실을 적용한 경우(그림 1(a))보다 분포 내(In-distribution, ID) 샘플들이 더 밀집되어 있으며, 이는 분류 경계가 확장되어 OOD 샘플과 ID 샘플을 명확히 구분할 수 있음을 보여준다.

 

[그림 1] 소프트맥스 손실(a)과 각도 마진 손실(b)로 학습된 특징 시각화

 

또한, 완만한 분류 경계를 생성하기 위해 가중치 정규화(weight regularization) 방법을 사용했다. 정규화를 적용하지 않은 경우(그림 2(a)) 분류 경계가 가파르게 나타난 반면, 정규화를 점진적으로 적용하면서(그림 2(b), 그림 2(c)) 분류 경계가 점차 완만해짐을 볼 수 있다. 그 결과, 빨간색 별로 표시된 OOD 샘플의 예측 값이 감소하였고, 이를 통해 OOD 샘플에 대한 과잉 확신을 효과적으로 방지할 수 있음을 확인했다.

 

[그림 2] 가중치 정규화 효과: 4개 클래스 사이 경계와 OOD 샘플의 예측 값 변화

 

실험 결과 이번 연구에서 제안된 방법은 가장 최근의 기존 방법들 대비 가장 뛰어난 OOD 탐지 성능을 보였을 뿐만 아니라, 높은 분류 정확도를 유지하였다. 또한, 훈련 시간과 추론 시간이 단축되어 계산 효율성도 확보할 수 있었다. 본 연구는 IEEE Transactions on Neural Networks and Learning Systems에 게재 승인되어, 현재는 early access article로 제공되고 있다.