국내외 20종 LLM 보안·안전성 격차
단독형·서비스형 평가 결과 비교
한국어 기반 안전성 강점·과제 부상

[포인트데일리 성창훈 기자] 숭실대학교 AI안전성연구센터가 국내외 거대언어모델(LLM) 20종을 대상으로 보안성과 안전성을 평가한 결과, 국내 모델의 전체 수준이 해외 대비 약 82%로 나타났다. 이번 분석은 과학기술정보통신부와 정보통신기획평가원의 정보보호핵심원천기술개발사업 연구과제로 진행됐으며, 지난 13일 열린 ‘국내외 파운데이션 모델 보안·안전성 평가 세미나’에서 공개됐다.
이번 평가에는 SKT A.X, LG EXAONE, 카카오 Kanana, 업스테이지 Solar, 엔씨소프트 VARCO 등 국내 주요 LLM과 OpenAI GPT 시리즈, Meta Llama, DeepSeek R1, Anthropic Claude, Alibaba Qwen 등 글로벌 모델이 함께 포함됐다. 연구팀은 1.2B부터 660B 규모 모델을 대상으로 프롬프트 인젝션, 탈옥(Jailbreak), 유해 콘텐츠 생성 유도 등 57가지 최신 공격 기법을 적용해 보안성과 안전성을 측정했다.
특히 모델을 직접 설치해 테스트하는 ‘단독형’과 기업이 보안 기능을 포함해 제공하는 ‘서비스 통합형’을 구분해 평가한 점이 특징이다. 서비스 통합형에서는 Anthropic Claude Sonnet4가 628점으로 가장 높은 점수를 기록했으며, OpenAI GPT-5가 626점으로 뒤를 이었다. 국내 모델 중에서는 J 모델이 495점으로 상위권에 올랐다. 해외 모델 평균은 447점, 국내는 385점으로, 국내 모델의 상대적 수준은 약 86%였다.

단독형 평가에서는 GPT-oss 20B가 487점으로 가장 높았고, DeepSeek 7B가 477점을 기록했다. 국내에서는 C 모델이 416점을 받았다. 해외 평균은 432점, 국내 평균은 350점으로 집계되며, 단독형 기준 국내 모델 안전성은 해외 대비 약 81%로 평가됐다. 두 평가 결과를 종합하면 국내 모델의 전체 안전성은 약 82% 수준으로 나타났다.
평가 결과 국내 모델은 대부분 공격 유형에서 해외 모델보다 낮은 안전성을 보였고, 일부 공격에 대해서는 모델 간 편차가 특히 크게 나타났다. 해외 모델은 한국어와 영어에서 안전성 차이가 거의 없었으나, 국내 모델은 한국어 환경에서 비교적 높은 안전성을 보여 언어 기반 편차도 확인됐다.
세미나에서는 해외 기관들의 AI 안전성 벤치마크 현황과 국내외 모델 20종 평가 결과가 공유됐으며, 실무 보안 환경에서의 적용성과 한국어 기반 공격에 대한 추가 연구 필요성도 제기됐다. 또한 AI 해킹 위협의 고도화, 오픈소스 모델 관리 정책, 산업·기관 간 공격 정보 공유 체계 구축 등 다양한 정책·기술적 과제가 논의됐다.
숭실대 AI안전성연구센터는 최신 공격을 반영한 동적 평가체계 구축, AI 에이전트를 활용한 자동화 레드티밍 기술 개발, 공격·안전성 데이터 공유 플랫폼 구축을 추진하고 있다. 향후 평가 대상을 Agentic AI, 멀티모달 모델, Physical AI 등으로 확대해 국내 AI 생태계의 안전성과 신뢰성 강화를 위한 연구를 지속할 계획이다.
