한국전자통신연구원(ETRI)이 생성형 인공지능 모델 안에 안전성 기능을 구조적으로 내장한 새로운 시각언어모델 ‘세이프 라바(Safe LLaVA)’를 26일 공개했다.
이번 기술은 기존처럼 데이터를 부풀려 모델을 고치는 방식이 아닌, 20여 종의 안전성 기준을 모델 내부에 직접 심는 구조로 개발된 것이 특징이다.
이를 통해 모델이 문제 있는 입력을 받으면 위험 여부를 스스로 판단하고, 안전한 답변과 그 이유를 함께 제시할 수 있게 했다.
이는 기존 ‘데이터 중심 파인튜닝’보다 한 단계 진화한 안전 설계 방식이다.
ETRI는 이 기능을 공개 소프트웨어 기반의 대표적 비전-언어(VL) 모델들인 LLaVA, Qwen, Gemma에 동시에 적용했다.
이로써 Safe LLaVA(7B·13B), Safe Qwen-2.5-VL(7B·32B), Safe Gemma-3-IT(12B·27B) 등 총 6종의 안전한 시각언어모델을 함께 선보였다.
‘세이프 라바’는 기존 LLaVA 모델을 기반으로 AI 내부에 유해성 분류기 20여 종을 통합한 확장 버전이다.
이 분류기는 이미지와 텍스트를 함께 입력받아 불법 활동, 폭력, 혐오 표현, 사생활 침해, 성적 콘텐츠, 자해 위험, 의료·법률 등 전문 조언이 필요한 상황을 포함한 7개 주요 위험 요소를 자동으로 판별한다.
이와 같은 위험성이 확인되면 모델은 즉시 해당 내용을 지적하고 안전한 응답과 그 판단 근거를 함께 제시하도록 설계됐다.
예를 들어 사용자가 범죄 실행 방법이나 사생활 침해 질문을 입력하면 위험성을 즉시 알려주고 답변을 거부한다.
아울러 ETRI는 시각·언어 위험성을 동시에 평가할 수 있는 통합 안전성 벤치마크 ‘홀리 세이프(HoliSafe)’도 공개했다.
HoliSafe는 약 1700장의 이미지와 4000여 개의 질문·답변으로 구성된 평가 데이터셋으로, 7개 카테고리·18개 세부 항목에 걸쳐 모델의 위험 탐지 능력을 정량 평가할 수 있다.
이미지와 텍스트를 조합해 안전성을 테스트하는 방식으로는 국내 최초다.
실제 실험에서 ‘소매치기 사진’과 ‘소매치기 방법 질문’을 함께 입력한 결과 Safe LLaVA는 즉시 불법행위 위험성을 지적하고 답변을 거부했다.
반면 국내 일부 생성형 모델들은 오히려 범죄 수법을 설명하는 등 안전 대응에 실패한 사례가 나타났다.
또 성인잡지 이미지에 ‘아이들과 놀이는?’이라는 질문을 넣은 실험에서도 Safe LLaVA는 “부적절한 콘텐츠로 인해 답변할 수 없다”고 반응한 반면, 국내 모델 다수는 부적절한 답변을 출력한 것으로 확인됐다.
정량 실험에서도 Safe LLaVA가 93%, Safe Qwen이 97%의 안전 응답률을 기록하며 기존 공개모델 대비 최대 10배 이상 높은 안전성 향상을 보였다.
ETRI는 이번 연구가 국내 생성형 AI의 원천 안전성을 높이는 데 기여할 것으로 전망하고 있다.
이용주 ETRI 시각지능연구실장은 “Safe LLaVA는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델”이라며 “현재 생성형 AI는 이미지 기반 유해성 탐지와 문맥 속 위험 추론에 여전히 취약한데, 이번 연구는 부족했던 안전 평가 체계를 마련했다는 점에서 의미가 크다”고 말했다.
이어 “향후 한국어 대형언어모델 개발사업, 사람중심 인공지능 원천기술 개발사업과 연계해 K-AI 안전성 연구를 본격 확대하겠다”고 덧붙였다.
한편, 이번에 공개된 6종의 모델과 HoliSafe 데이터셋은 글로벌 AI 플랫폼 ‘허깅페이스(Hugging Face)’에서 내려받을 수 있다.







