About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Spring 2026 Vol. 26
Engineering

텍스트를 통한 비전 학습: 사고 감지를 위한 약지도 멀티모달 프레임워크

February 19, 2026   hit 250

TIME-VAD 비디오 단위 라벨만을 사용하는 약지도 학습을 기반으로, 텍스트와 비전을 결합한 새로운 차량 사고 감지 멀티모달 프레임워크를 소개한다. 94.44% 정확도를 달성한 시스템은 기존 방법보다 빠른 조기 예측과 프레임 단위의 정밀한 감지 성능을 제공하여 실시간 교통 안전 시스템을 발전시킨다.

TIME-VAD 프레임워크 (상단): CLIP 특징과 대조 학습을 활용을 활용하여, 텍스트 기반 크기를 강화하는 구조를 나타낸다. 사고(빨강)와 정상(보라) 처리 스트림이 색상으로 구분되어 표시되었다. 정성적 비교 (하단): 기존 모델들(DSTA/GCRNN)이 첫 프레임부터 사고 확률을 높게 잘못 예측하는 것과 달리, TIME-VAD는 위험이 실제로 드러나는 시점(15번 프레임)에 맞춰 확률이 상승함으로써 실질적인 사고 예측 성능을 입증한다.

차량 사고는 세계적으로 도로 안전에 대한 치명적인 위협이 되고 있으며, 이에 대한 조기 감지 예방을 위한 혁신적인 솔루션이 필요하다. 교통 감시 시스템과 첨단 운전자 보조 시스템(ADAS) 정확한 실시간 사고 감지 기능을 요구한다. 그러나 기존 접근법은 복잡한 교통 시나리오를 처리하고 실제 사고 전조와 정상 주행 패턴을 구별하는 상당한 어려움을 겪고 있다.

 

한국과학기술원 차량지능연구실(VIL, KAIST) 연구진은 혁신적인 멀티모달 학습을 통해 기존의 문제를 해결하는 획기적인 프레임워크인 TIME-VAD(Text-Informed Magnitude Enhancement for Vehicle Accident Detection) 개발했다. 비전에만 의존하단 기존 시스템과 달리, TIME-VAD는 시각과 텍스트 정보를 모두 활용하여 탁월한 사고 감지 성능을 달성했다.

 

이 기술의 핵심적인 혁신은 텍스트를 활용하여 사고의 개념을 보다 명확하게 표현하는 데 있다. 시스템은 사고 상황을 정의하기 위해 충돌 장면’, ‘사고 장면과 같은 텍스트 앵커를 사용하며, 이를 원활한 교통 흐름’, ‘일상적인 출퇴근길과 같은 정상 주행 상황과 대조한다. 대조 학습을 통해 이 프레임워크는 이미지만을 사용하는 방식보다 훨씬 효과적으로 사고의 특징을 식별한다. 흥미롭게도 본 연구 CLIP 임베딩 공간에서 사고 프레임이 정상 프레임에 비해 더 작은 특징 크기를 보인다는 사실을 밝혀냈으며, 이는 기존 가정과 배치된다. 이러한 발견은 특징 크기 기반의 새로운 강화 학습 전략으로 이어졌다.

 

 

그림 1. Dilated Temporal Conv-Attention (DTCA) 블록.

 

 

TIME-VAD는 교통 영상에서 국소적 및 전역적 시간 의존성을 모두 포착하는 DTCA(Dilated Temporal Conv-Attention) 블록을 도입한다. 이 프레임워크는 약지도 다중 인스턴스 학습을 적용하여, 훈련 중 사고 발생 구간에 대한 프레임별 주석 대신 비디오 단위의 라벨만 필요로 한다. 이러한 실용적인 접근 방식은 비용이 많이 드는 프레임 수준의 사고 정보 없이도 시스템을 훈련할 수 있게 한다.

 

세 가지 벤치마크 데이터셋에 대한 광범위한 평가는 TIME-VAD의 우수성을 입증한다. 4,677개의 사고 영상을 포함하는 DoTA 데이터셋에서 프레임워크는 94.44%의 정확도(ROC-AUC)를 달성하여, 이전 최고 감독 학습 모델의 84.7%를 크게 능가한다. 중요한 점은, TIME-VAD가 비디오 단위 라벨로만 훈련되었음에도 불구하고 정확한 프레임 단위의 예측을 제공한다는 것이다. 정량적 프레임 단위 지표와 정성적 분석을 통해 드러난 핵심적인 장점은, 기존의 SOTA 모델들이 장면의 맥락에 과적합되어 사고 영상의 첫 프레임부터 사고 확률을 높게 잘못 예측하는 것과 대비된다는 점이다. 반면, TIME-VAD는 사고가 임박한 시점을 정확하게 식별하고 발생 전에 미리 예측함으로써 실질적인 프레임 단위의 예측 능력을 보여준다. 이 시스템은 CCD 데이터셋에서 평균 사고 도달 시간 4.99초와 함께 99.97%의 평균 정밀도를 달성했다.

 

이 기술의 실용적 가치는 매우 크다. TIME-VAD는 도시 전체의 사고 모니터링 및 응급 대응 조정을 위해 CCTV 감시 시스템에 통합될 수 있다. ADAS 응용 분야의 경우, 조기 감지 기능을 통해 차량이 사고가 발생하기 전에 운전자에게 경고하거나 자동 긴급 제동 시스템을 작동시킬 수 있다. 교차 데이터셋 테스트를 통해 입증된 다양한 교통 시나리오에 대한 프레임워크의 일반화 능력은 이 시스템이 실제 환경에 배포되기에 특히 적합함을 보여준다.

 

본 연구는 교통사고 감지 기술을 사후 대응적 방식에서 사전 예방적 안전 시스템으로 발전시켰으며, 더 빠른 개입과 정확한 감지를 통해 잠재적으로 생명을 구할 수 있게 했다. 언어와 비전의 성공적인 결합은 AI 기반 교통 안전 시스템의 새로운 방향을 제시하고 있다.

 

출처: Mishra et al., "TIME-VAD: Text-Informed Magnitude Enhancement Feature Learning for Vehicle Accident Detection and Anticipation," IEEE Transactions on Intelligent Transportation Systems (2025)