About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Fall 2025 Vol. 25
Computing

실세계 인공지능 훈련 비용 최소화 기술 및 감염병 관리 문제 응용

August 26, 2025   hit 502

실세계 인공지능 학습에서 자주 발생하는 데이터 품질 문제를 해결하기 위해, 본 연구는 세 가지 핵심 과제에 집중했다. 첫째, AI가 학습 중 레이블 오류를 자동으로 탐지하고 보정함으로써 데이터 전처리 시간을 줄였으며, 관련 논문은 2년간 1,200회 이상 인용되며 학술적 영향력을 입증했다. 둘째, 레이블이 부족한 데이터에서도 전환 시점을 AI가 자동 유추해 수작업 레이블링 비용을 크게 줄였다. 셋째, 중복된 데이터를 제거하고 학습에 핵심적인 데이터만 선별해, 정확도 손실 없이 훈련 시간을 최대 90%까지 단축했다. 이 기술은 감염병 확산 예측 등 사회 문제에 실질적으로 활용됐으며, 한국과 미국에서 특허로 등록됐다.


 연구의 전체적인 구성

 

AI가 스스로 데이터 문제를 고치고, 중요한 정보만 골라 학습하는 기술이 등장했다. 레이블 오류, 부족한 레이블, 중복된 데이터 같은불량 데이터문제는 그동안 AI 학습의 발목을 잡아왔다. 이번 연구는 이러한 문제를 사전에 정리하지 않아도 AI가 자동으로 처리할 수 있는 방법을 제시했다.

 

가장 주목할 부분은레이블 오류 자동 수정기능이다. AI는 학습 과정에서 각 데이터의 신뢰도를 실시간으로 평가하고, 잘못 표시된 정답표를 직접 고친다. 예컨대 고양이 사진에강아지라는 잘못된 레이블이 붙었을 경우, 이를 AI가 스스로 알아내 바로잡는 방식이다. 실험 결과, 오류가 40%에 이르는 데이터셋에서도 최대 95%의 정확도로 수정이 가능했다. 이미지 데이터셋(WebVision)에서는 모델의 분류 성능이 최대 9%포인트까지 향상됐다.

 

레이블이 부족한 경우도 문제였다. 이를 해결하기 위해 연구진은 시계열 데이터의 변화를 분석해, ‘걷기에서 뛰기처럼 상태가 바뀌는 시점을 자동으로 추정하는 방식을 개발했다. 기존의 거리 계산 기반 방법보다 최대 12.7% 높은 정확도를 보였으며, 웨어러블 헬스케어 센서 데이터 같은 실제 환경에 바로 적용할 수 있다.

 

학습 데이터 중복 문제도 해결됐다. AI가 훈련에 꼭 필요한 데이터만 자동으로 선별해, 전체 데이터 없이도 같은 수준의 성능을 낼 수 있게 했다. 이 기술은 불필요한 반복을 줄이고, 훈련 시간도 최대 90% 단축해 실용성 면에서도 큰 강점이 있다. 이 모든 기능은 개별적으로 작동하는 것이 아니라, 데이터 오류 수정과 핵심 데이터 선별이 결합된 통합 방식으로 설계돼 효율성이 더욱 높다.

 

이 기술은 단순히 내부 알고리즘 개선에 머무르지 않고, 사회적 문제 해결에도 쓰이고 있다. 연구진은 코로나19 등 감염병의 해외 유입 확진자 수를 예측하는 인공지능 모델을 개발해 미국 특허를 받았고, 감염병이 지역 상권에 미치는 경제적 영향을 예측하는 기술은 한국 특허로 보호받고 있다.

 

이번 연구는 인공지능 분야의 국가전략기술인효율적 학습 및 AI 인프라 고도화에 직접 기여할 수 있는 원천기술로 평가된다. 더불어 전 세계적으로 빠르게 성장 중인 AIOps(IT 운영 자동화 AI) 시장에서도 핵심 기반 기술로 활용될 수 있다. 관련 시장은 2024 272억 달러에서 연평균 24%씩 성장해, 2029년에는 약 800억 달러에 이를 것으로 전망된다.

 

실험실에만 머무르지 않고 사회와 산업에 직접 쓰일 수 있는 인공지능 학습 기술. 더 빠르고, 더 똑똑하게, 그리고 더 실용적으로 AI를 만드는 시대가 한 걸음 가까워졌다.