최근 트랜스포머 기반 모델 도입으로 비디오인식 기술이 큰 발전을 이뤘지만, 이는 연산을 위해 많은 자원을 사용하는 한계가 있다.
트랜스포머 모델의 '셀프-어텐션(Self-attention)' 메커니즘은 입력 길이에 따라 연산 복잡도가 제곱으로 증가하기 때문에 여러 장의 프레임을 처리해야 하는 비디오인식 작업에서 특히 문제가 됐다.
최근 자연어처리 분야에서 제안된 맘바(Mamba) 모델은 선택적 상태 공간모델(SSM)을 기반으로 입력에 따라 동적 매개변수를 조정하는 메커니즘을 통해 장시간 입력도 효율적으로 처리할 수 있다.
차세대 동영상 인식기술 개발
KAIST는 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발, 기존 비디오 모델보다 8배 낮은 연산량, 4배 낮은 메모리 사용량으로도 추론 속도는 4배 빠른 속도를 달성했다고 23일 밝혔다.
비디오맘바는 기존 트랜스포머 기반 모델이 갖는 높은 연산복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델로, 비디오 데이터를 효율적으로 처리하기 위해 입력 데이터를 일련의 상태로 변환하고 이를 통해 다음 입력을 예측한다.
특히 비디오맘바는 선택적상태 공간모델 메커니즘을 활용해 선형 복잡도로 효율적인 처리를 할 수 있다. 선택적상태 공간모델은 입력에 따라 동적으로 매개변수를 조정해 시퀀스 데이터의 문맥을 더 잘 이해할 수 있다.
이를 바탕으로 비디오밤바는 동영상의 시공간 정보를 효과적으로 포착, 긴 종속성을 갖는 동영상 데이터를 효율적으로 처리한다.
연구팀은 동영상 인식모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능토록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델을 도입했다.
이 모델은 순서가 없는 공간정보와 순차적 시간정보를 효과적으로 통합해 인식성능을 향상시켰다.
실제 비디오맘바는 다양한 비디오 이해 벤치마크에서 경쟁력 있는 성능을 보였고, 또 부동소수점 연산량, GPU 메모리 사용량 등이 기존 트랜스포머 기반 모델에 비해 크게 줄이고도 처리속도는 빨라졌다.
연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증한 결과 다양한 응용분야에서 효율적이고 실용적인 솔루션을 제공했다.
예를 들어 자율주행 영상을 분석해 도로상황을 정확하게 파악하고, 보행자와 장애물을 실시간 인식해 사고를 예방할 수 있다. 또 의료 분야에서는 수술영상을 분석해 환자 상태를 실시간 모니터링하고 긴급상황 발생 시 신속 대처할 수 있다. 아울러 스포츠 분야에서는 선수 움직임과 전술을 분석해 전략을 개선하고, 훈련 피로나 부상 가능성을 실시간 감지해 예방할 수 있다.
김 교수는 “비디오맘바의 빠른 처리속도와 낮은 메모리 사용량, 뛰어난 성능은 일상에서 다양한 동영상 활용분야에 큰 장점을 제공할 것”이라고 설명했다.
이번 연구는 KAIST 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1저자로, 김민범 박사과정이 공동저자로 참여했고, 연구결과는 오는 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 국제학회 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다.
대덕특구=이재형 기자 jh@kukinews.com