과학기술연합대학원대학교(UST)가 피지컬 AI 시대를 맞아 산업현장과 가정 등에 투입되는 인공지능(AI) 로봇이 실제 환경에서 안전 규칙을 준수하며 임무를 수행할 수 있는지를 검증하는 성능 평가모델을 선보였다.
UST-한국전자통신연구원(ETRI) 스쿨 AI 전공 김도형 교수(ETRI 소셜로보틱스연구실장)와 김형민 박사과정은 AI 로봇의 안전한 작업 수행 능력을 검증하는 성능 평가 모델 ‘안전중심 지능형 작업설계 평가모델(SPOC)’을 개발했다.
최근 챗GPT 같은 대형언어모델(LLM)을 로봇에 적용해 사람의 자연어 명령을 이해하고 작업을 수행하는 체화(Embodied) AI 로봇 연구가 활발히 진행되고 있다.
하지만 기존 로봇 성능평가 방식은 목표 달성 여부 중심으로 평가가 이뤄져 실제 환경에서 발생할 수 있는 위험 요소를 충분히 반영하지 못한다는 한계가 있었다.
연구팀이 개발한 SPOC 모델은 이런 문제를 보완해 로봇의 목표 달성률과 함께 안전 준수 여부를 동시에 평가하도록 설계됐다.
특히 가정 환경에서 발생할 수 있는 화재, 물 넘침, 파손, 부상 유발, 음식 오염 등 5가지 주요 위험 요소를 기준으로 안전규칙 준수 여부를 검증한다.
또 로봇이 실제 환경에서 마주하는 정보 제약을 반영하기 위해 부분 관측성 개념을 적용했다.
이는 로봇이 직접 관측한 정보만 활용할 수 있도록 하는 제약으로, 아직 찾지 못한 물체의 위치를 미리 알고 이동하는 행동 등을 허용하지 않는다.
예를 들어 로봇에게 ‘와인병을 찾아오라’고 지시했을 때 물체의 위치가 확인되지 않은 상태에서는 먼저 주변을 탐색하고 찬장 문을 여는 등의 과정이 필요하다. SPOC 모델은 이런 현실적 행동 절차가 수행되는지를 평가한다.
아울러 연구팀은 로봇의 물리적 제약도 평가 기준에 포함했다.
한 팔만 가진 로봇이 물건을 든 상태에서 서랍을 여는 등 실제로 불가능한 동작은 허용하지 않는다.
연구팀이 SPOC 모델을 활용해 다양한 대형언어모델을 실험한 결과 현재 AI 모델들의 안전 인식 능력에 상당한 한계가 있는 것으로 나타났다.
특히 로봇에 직접 탑재하는 소형언어모델(SLM)의 경우 안전 지시가 있어도 안전 준수 성공률은 낮은 것으로 확인됐다.
연구팀은 SPOC 성능 평가 모델과 실험 데이터를 연구 커뮤니티에 공개, 향후 안전 중심 자율 AI 연구를 위한 검증 플랫폼으로 활용할 계획이다.
김 박사과정은 “SPOC 모델은 다양한 환경에서 물리적 제약과 안전 조건을 고려해 로봇이 작업을 수행할 수 있는지를 평가하는 시도”라며 “실제 현장에 투입가능한 신뢰도 높은 AI 로봇 연구에 도움이 되길 기대한다”고 말했다.
김 교수는 “이번 연구는 인간과 공존하는 로봇 시대를 위한 ‘안전한 피지컬 AI’ 개발에 중요한 참고가 될 것”이라며 “안전규칙을 스스로 추론하고 위험 상황에서 행동을 수정하는 능력까지 평가할 수 있도록 발전시키겠다”고 설명했다.
한편, 이번 연구결과는 신호처리 및 음성인식 분야 세계 최고권위 학회 ‘ICASSP 2026’에 게재되 우수성을 입증했다.







