그러나 GPU는 내부메모리 용량이 수십 기가바이트에 불과해 단일 GPU만으로 AI 모델을 추론·학습하는 것이 불가능하기 때문에 대규모 AI 모델이 요구하는 메모리 용량을 제공하기 위해 고가의 GPU를 대량 연결하고 있어 대안이 필요한 상황이다.
고성능 GPU 메모리 확장기술 개발
KAIST는 전기및전자공학부 정명수 교수 연구팀이 차세대 인터페이스 기술인 CXL(COMPUTE EXPRESS LINK)이 활성화된 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는 기술을 개발했다고 8일 밝혔다.
CXL는 컴퓨터 내부 시스템 간 데이터를 빠르게 전송하는 연결기술로, 산업계는 이를 이용해 대용량 메모리를 GPU에 연결하는‘CXL-GPU’를 연구 중이다.
CXL-GPU는 CXL로 연결된 확장장치의 메모리 공간을 GPU 메모리 공간에 통합시킴으로써 고용량을 지원한다.
그러나 AI는 빠른 추론과 학습 성능을 요구하기 때문에 GPU에 직접 연결한 메모리 확장장치의 읽기/쓰기 성능이 기존 GPU의 로컬 메모리에 준하는 성능이 보장될 때 비로소 실제 서비스에 활용될 수 있다.
연구팀은 CXL-GPU 장치의 메모리 읽기/쓰기 성능이 저하되는 원인을 분석했다.
이를 통해 메모리 확장장치가 메모리 쓰기 타이밍을 스스로 결정할 수 있는 기술을 개발, GPU 장치가 메모리 확장장치에 쓰기를 요청하면서 동시에 GPU 로컬 메모리에도 쓰기를 수행하도록 설계했다.
이는 메모리 확장장치가 내부작업 수행 상태에 따라 작업을 함으로써 GPU는 메모리 쓰기작업 완료 여부가 확인될 때까지 기다릴 필요가 없어 쓰기 성능 저하 문제를 해결할 수 있다.
또 연구팀은 메모리 확장장치가 사전에 읽기를 수행할 수 있도록 GPU 장치에서 미리 힌트를 주도록 했다.
이 기술을 활용하면 메모리 확장장치가 읽기를 더 빨리 시작, GPU 장치가 실제 데이터를 필요로 할 때는 캐시에서 데이터를 읽어 더욱 빠른 읽기성능을 발휘할 수 있다.
이번 연구는 반도체 팹리스 스타트업 ‘파네시아(Panmnesia)’의 초고속 CXL 컨트롤러와 CXL-GPU 프로토타입을 활용해 진행됐고, 이를 통해 연구팀은 파네시아의 CXL-GPU 프로토타입을 활용한 기술실효성 검증으로 기존 GPU 메모리 확장기술보다 2.36배 빠른 AI 서비스를 실행할 수 있음을 확인했다.
정 교수는 “이번 연구는 CXL-GPU의 시장 개화시기를 앞당겨 대규모 AI 서비스를 운영하는 빅테크기업의 메모리 확장비용을 획기적으로 낮추는 데 기여할 것”이라 말했다.
대덕특구=이재형 기자 jh@kukinews.com