유전자 서열은 알지만 기능은 모르는 미생물 연구의 오랜 난제를 인공지능(AI) 예측과 실험 검증을 결합해 해결하는 길이 열렸다.
2000년대 초 생명체 모든 유전자 구성을 해독하는 기술이 발달하면서 생명의 신비를 완전히 풀 수 있을 것이라는 기대가 컸다.
하지만 20년이 지난 지금도 미생물 유전체 속 수많은 유전자가 실제 어떤 역할을 하는지는 베일에 싸여 있다.
실제 최소한의 유전자만 가진 합성 미생물에서도 전체 유전자의 3분의 1에 달하는 유전자가 어떤 기능을 하는지 알지 못한다.
AI로 20년 묵은 생명공학 숙제 푼다
KAIST 생명화학공학과 이상엽 특훈교수팀이 유전자 서열은 알지만 기능은 모르는 미생물 연구 난제를 해결하기 위해 AI를 활용한 최신 연구 전략을 내놨다.
이 특훈교수팀은 미국 캘리포니아대 샌디에이고(UCSD) 생명공학과 버나드 폴슨 교수팀과 함께 AI 예측과 실험 검증을 결합해 미생물 유전자 기능을 획기적으로 빠르게 찾아낼 수 있는 접근법을 정리해 발표했다.
그동안 유전자를 하나씩 없애거나 발현량을 조절하는 방식 등으로 실험해 왔지만, 생물학적 상호작용이 너무 복잡하고 시간과 비용이 많이 들어 한계가 있었다.
연구팀은 이런 문제를 해결하기 위해 컴퓨터를 이용한 전산생물학과 실제 실험을 하는 실험생물학을 AI으로 묶는 전략을 제시했다. 구글 딥마인드가 만든 단백질 구조 예측 AI '알파폴드(AlphaFold)'나 미국 워싱턴대가 개발한 '로제타폴드(RoseTTAFold)' 같은 기술을 활용하면 단백질 3차원 구조를 미리 예측해 유전자 기능을 더 깊이 있게 이해할 수 있다.
특히 이번 연구는 심층학습(Deep Learning) 기술을 적극 활용했다. 심층학습은 인간 뇌 신경망을 본뜬 인공 신경망으로 데이터 속에 숨은 복잡한 패턴을 찾아내는 AI 기술이다.
연구팀은 유전자를 켜고 끄는 스위치인 '전사인자'와 몸속 화학 반응을 돕는 '효소'를 중심으로 AI가 유전자 기능을 예측하고 이를 실험으로 확인하는 과정을 체계적으로 정리했다.
실제 대장균을 대상으로 한 연구에서 AI는 약 3394만 개 단백질 서열 기능을 단 230시간 만에 예측해 냈다.
또 '딥이씨트랜스포머(DeepECtransformer)'라는 도구를 사용해 기능을 모르던 대장균 단백질 464개 역할을 예측했고, 이 중 3개는 실제 실험을 통해 효소 활성을 가졌다는 사실을 직접 증명했다.
이 특훈교수팀은 AI가 스스로 불확실한 데이터를 골라 실험을 제안하고 그 결과를 다시 학습에 반영하는 '능동적 학습' 기반 연구 틀이 필요하다고 제안했다.
이를 위해 로봇이 실험을 대신해 주는 자동화 실험 플랫폼 '바이오파운드리' 같은 공유 인프라와 결합이 필수며, 실험에 실패한 데이터 역시 AI 학습을 위한 중요한 자산으로 서로 공유해야 한다는 점도 강조했다.
이번 연구의 공동저자인 김기배 KAIST 박사는 "AI 예측 성능은 좋아졌지만 예측 결과가 왜 그렇게 나왔는지 생물학적으로 설명할 수 있는 해석 가능한 모델을 만드는 일이 여전히 중요한 숙제"라고 말했다.
이 특훈교수는 "유전자 기능 발견 한계를 넘으려면 연구자 지휘 아래 AI가 안내하는 체계적인 실험 프레임워크와 자동화 인프라 결합이 핵심이다"라며 "예측과 검증이 반복해서 연결되는 연구 생태계를 구축하는 일이 중요하다"라고 강조했다.
한편, 이번 연구결과는 지난 7일 국제학술지 '네이처 마이크로바이올로지(Nature Microbiology)'에 게재됐다.
(논문명 : Approaches for accelerating microbial gene function discovery using artificial intelligence / 저자 정보 : Bernhard O. Palsson (UCSD, 제1 저자), 이상엽(KAIST 제2 저자, 교신저자), 김기배(KAIST, 제3 저자))







