“한국어·감정 이해는 GPT-4o 넘기도”…카카오, 한국어 특화 멀티모달 AI 2종 공개

한국어·한국 문화 이해 특화…‘카나나-o’ 성능 강화
이미지 검색 특화 ‘카나나-v-임베딩’…한국형 시각 이해력↑
온디바이스 모델·차세대 ‘카나나-2’ 개발도 진행

기사승인 2025-12-12 11:28:17

카카오가 한국어와 한국 문화 이해에 초점을 맞춘 최신 멀티모달 AI 기술을 공개했다. 텍스트뿐 아니라 음성과 이미지까지 동시에 이해하는 ‘한국형 AI’를 고도화해 실제 서비스 적용 범위를 넓히겠다는 계획이다.

카카오는 12일 테크블로그를 통해 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’, 이미지 검색 모델 ‘카나나-v-임베딩’의 개발 결과와 성능을 발표했다. 멀티모달은 글·음성·이미지 등 서로 다른 형태의 정보를 동시에 이해하고 답변하는 기술을 의미한다.

한국어 음성·감정 이해력 강화…“GPT-4o 뛰어넘는 영역도”

카카오는 이번 업데이트에서 카나나-o의 한국어 맥락 이해력과 대화 자연스러움이 크게 향상됐다고 밝혔다. 특히 한국어 음성 인식·합성, 감정 이해 능력에서 글로벌 모델 대비 월등히 높은 성능을 기록한 것으로 평가됐다.

이번 모델은 억양·감정·호흡 등 음성의 미세한 특징까지 학습해 상황에 맞게 말투를 조절하는 기능도 강화됐다. 영어 음성 성능은 GPT-4o와 유사한 수준을 보였으며, 한국어에서는 더 높은 정확도를 나타냈다.

카카오는 기존 멀티모달 모델들이 음성 대화에서 추론력이 떨어지는 한계를 보완하기 위해, 지시이행 기능을 고도화했다. 이를 통해 사용자의 숨은 의도나 복잡한 요청도 보다 정밀하게 이해하도록 개선했다.

또 자체 구축 데이터셋을 활용해 요약, 감정·의도 분석, 오류 수정, 번역 등 다양한 작업도 한층 자연스럽게 수행하게 됐다.

한국 문화 이해 특화…사진 검색 정확도 높아져

함께 공개된 ‘카나나-v-임베딩’은 텍스트와 이미지를 동시에 이해하는 한국형 이미지 검색 모델이다.

한국 고유명사인 ‘경복궁’, ‘붕어빵’은 물론, 철자가 잘못된 ‘하멜튼 치즈’ 같은 단어도 맥락을 파악해 정확한 이미지를 찾아준다. ‘한복 입고 찍은 단체 사진’처럼 조건이 복합적인 검색도 높은 변별력으로 처리하는 것이 특징이다.

현재 카카오 내부 광고 심사 시스템에 이미 적용됐으며, 향후 영상·음성 등 다른 영역으로 확대할 예정이다.

카카오는 스마트폰 등 기기 안에서 직접 작동하는 온디바이스 멀티모달 모델 경량화 연구도 진행 중이다.
또 고성능 MoE 구조를 적용한 차세대 언어모델 ‘카나나-2’를 연내 개발해 서비스 적용 범위를 더욱 확대할 계획이다.

김병학 카나나 성과리더는 “카나나를 단순한 정보 제공을 넘어 사용자의 감정을 이해하고 자연스럽게 대화하는 AI로 발전시키겠다”며 “한국적 맥락을 깊이 이해하는 기술을 실제 서비스 전반으로 확장해 나가겠다”고 말했다.