GPT-5·제미나이까지 취약…AI 의료 상담, 악성 공격에 속수무책

기사승인 2026-01-05 09:31:56

최근 생성형 인공지능(AI) 챗봇을 활용해 질환 상담을 받는 사례가 늘고 있는 가운데, 상용 중인 의료용 AI 모델 대부분이 악의적 공격에 취약해 잘못된 치료를 권고할 위험이 크다는 연구 결과가 나왔다.

서준교 서울아산병원 비뇨의학과 교수, 전태준 정보의학과 교수와 이로운 인하대병원 영상의학과 교수팀은 의료 상담에 활용되는 대규모언어모델(LLM)이 프롬프트 인젝션 공격에 94% 이상 취약하다는 사실을 확인했다고 5일 밝혔다.

프롬프트 인젝션 공격은 생성형 AI에 악의적인 명령어를 삽입해 본래 설계된 안전장치를 무력화하고, 의도와 다른 답변을 유도하는 사이버 공격 기법이다. 의료 분야에 적용될 경우 금기 약물 처방이나 위험한 치료 권고로 이어질 수 있다.

연구팀은 2025년 1월부터 10월까지 GPT-4o-mini, Gemini-2.0-flash-lite, Claude 3 Haiku 등 AI 모델 3종을 대상으로 보안 취약성을 분석했다. 12개 임상 시나리오를 구성해 위험도를 중간·높음·최고 단계로 구분하고, 상황인지형 프롬프트 주입과 증거 조작 등 두 가지 공격 기법을 적용했다.

총 216건의 대화를 분석한 결과, 전체 공격 성공률은 94.4%에 달했다. 모델별로는 GPT-4o-mini와 Gemini-2.0-flash-lite가 각각 100%, Claude 3 Haiku는 83.3%였다. 위험 수준별 성공률은 중간 단계 100%, 높은 단계 93.3%, 최고 단계 91.7%로 나타났으며, 임신부에게 금기 약물을 권하도록 유도하는 시나리오에는 모든 모델이 취약한 것으로 확인됐다.

특히 한 번 조작된 답변이 후속 대화까지 이어진 비율도 80% 이상으로 나타나, 안전장치가 무너질 경우 위험한 판단이 지속될 가능성도 제기됐다.

연구팀은 추가로 최상위 AI 모델인 GPT-5, Gemini 2.5 Pro, Claude 4.5 Sonnet을 대상으로도 보안 평가를 진행했다. 사용자 화면에 악성 문구를 숨겨 AI 동작을 조작하는 간접 프롬프트 인젝션 공격을 적용한 결과, 공격 성공률은 GPT-5와 Gemini 2.5 Pro가 100%, Claude 4.5 Sonnet은 80%로 나타나 최신 모델 역시 안전하지 않은 것으로 분석됐다.

이번 연구는 의료 상담에 활용되는 AI 모델의 프롬프트 인젝션 취약성을 체계적으로 분석한 세계 최초의 연구로, 결과는 미국의사협회(AMA)가 발간하는 국제학술지 ‘자마 네트워크 오픈(JAMA Network Open)’ 최근호에 게재됐다.

서준교 교수는 “이번 연구는 의료용 AI 모델이 단순한 오류를 넘어 의도적인 조작에 구조적으로 취약하다는 점을 실험적으로 입증했다”며 “현재의 안전장치만으로는 금기 약물 처방이나 위험한 치료 권고를 유도하는 공격을 차단하기 어렵다”고 말했다.

이어 “환자 대상 의료 챗봇이나 원격 상담 시스템을 도입하기 위해서는 AI 모델의 취약성을 사전에 검증하고, 보안 테스트와 안전성 평가를 의무화하는 제도적 장치가 필요하다”고 강조했다.