About Past Issues Editorial Board

KAIST
BREAKTHROUGHS

Research Webzine of the KAIST College of Engineering since 2014

Fall 2024 Vol. 23
Engineering

숨겨진 효소 쏙쏙 찾아내는 인공지능 개발

February 27, 2024   hit 1547

인공지능을 활용한 단백질 기능 분석

단백질 서열로부터 효소 기능을 예측할 수 있는 인공지능 DeepECtransformerKAIST-UCSD 공동 연구팀이 개발했다. 이를 활용해 공동 연구팀은 기존에 밝혀진 적 없던 새로운 효소를 발견했다.

 

 

효소는 생물학적 반응을 촉매하는 단백질로서, 생명체 내 존재하는 다양한 화학 반응과 이에 따라 결정되는 생명체의 대사 특성을 파악하기 위해서는 각 효소의 기능을 이해하는 것이 필수적이다. 대장균은 가장 많이 연구된 생명체 중 하나에 해당되지만 아직 대장균을 구성한 단백질 30%의 기능에 대해 명확하게 밝혀지지 않았다. KAIST-UCSD 공동 연구팀은 이를 해결하기 위해 아직 명확하게 밝혀진 바 없던 단백질에서 464종의 효소를 발견했다. 이상엽 특훈교수와 캘리포니아대학교 샌디에이고(UCSD) 생명공학과 버나드 펄슨(Bernhard Palsson) 교수 공동연구팀은 단백질 서열을 활용, 해당 단백질의 효소 기능을 예측할 수 있는 인공지능, ` EC 트랜스포머(DeepECtransformer)'를 개발해 빠르고 정확하게 EC 번호(효소 고유 번호, Enzyme Commission number)를 파악할 수 있는 예측 시스템을 구축했다. EC 번호는 국제생화학 및 분자 생물학연맹 (International Union of Biochemistry and Molecular Biology, IUBMB)가 고안한 효소 기능 분류 체계로서, 다양한 유기체의 대사 특성을 이해하기 위해선 게놈 서열에서 존재하는 효소의 종류와 EC 번호를 빠르게 분석할 수 있는 기술 개발이 필요하다.

 

단백질의 기능 및 효소 기능 예측을 위해 인공지능을 활용하는 다양한 예측 시스템 또한 보고됐지만, 인공지능의 추론 과정을 직접 확인할 수 없는 블랙박스(black box)의 특징을 가졌거나, 효소 서열 내 아미노산 잔기(최소 단위) 수준으로 해석하지 못하는 문제가 있었다.

 

공동연구팀은 심층학습 기법과 단백질 상동성 분석 모듈을 활용해 주어진 단백질 서열의 효소 기능을 예측하는 인공지능 딥 EC 트랜스포머(DeepECtransformer)를 개발했다. 연구팀은 이번 연구에서 더 다양한 효소 기능을 정확하게 예측할 수 있도록 단백질 서열 전체 문맥에서 효소 기능에 중요한 정보를 추출하였고, 이를 통해 효소의 EC 번호를 정확하게 예측할 수 있었다. 개발된 인공지능은 총 5,360종류의 EC 번호를 예측할 수 있었다. 이를 활용해 공동 연구팀은 대장균에서 아직 밝혀진 적 없던 효소 464종을 새롭게 발견할 수 있었다.
 
그림 1. DeepECtransformer의 인공신경망 구조와 이를 활용해 예측한 대장균 y-ome 단백질의 EC 번호 분포

 

공동연구팀은 나아가 딥 EC 트랜스포머의 인공신경망 내 정보 흐름을 분석하여 인공지능이 추론 과정에서 효소 기능에 중요한 활성 부위나 보조 인자 결합 부위 정보를 활용하고 있음을 밝혀냈다. 이처럼 인공지능의 블랙박스를 해석함으로써 인공지능이 학습 과정에서 스스로 효소 기능에 중요한 특징을 파악하고 있음을 연구팀은 확인했다.