Security/AI

[AI] LLM OWASP #03: 2025 공급망

Opal1031 2026. 4. 23. 17:20

 

※ 본 포스트는 "SW 산학협력 프로젝트"에 앞서 LLM 및 AI와 관련된 학습을 위해 읽은 논문의 요약본입니다.

※ 비영리적인 순수한 학습 기록용입니다.

※ 저작권 문제가 있을 경우, 즉시 수정 또는 삭제하겠습니다.

포스팅에 앞서 해당 논문은 아래의 링크에서 확인할 수 있습니다.
OWASP Top 10 2025 번역본

 


LLM03: 2025 공급망

세 번째 챕터의 주제는 "공급망"이다.

 

LLM 공급망

LLM 공급망에는 다양한 취약점이 존재한다.

 

취약점에 의해 학습 데이터, 모델 및 배포 플랫폼의 무결성에 영향을 미칠 수 있다.


이에 따라 편향된 출력, 보안 침해 또는 시스템 장애로 이어질 수 있다.

이는 변조 또는 오염 공격(Poisoning Attack)을 통해 조작할 수 있다.

 

LoRA (Low-Rank Adaptation)
LLM의 사전 학습된 가중치는 고정하고, 작은 수의 파라미터만 추가하는 미세 조정 방법


일반적 취약점 예시

기존 타사 패키지 취약점
오래되었거나 더 이상 이용하지 않는 구성 요소로 인해 LLM 애플리케이션이 손상 가능

 

라이선스 위험
다양한 소프트웨어 및 데이터셋 라이선스가 포함되며, 그 사이에서 위험 발생 가능

 

오래되었거나 사용되지 않는 모델
더 이상 유지 관리 및 사용되지 않는 모델의 사용으로 인한 보안 문제 발생 가능

 

취약한 사전 훈련 모델
모델 저장소의 안전성 평가를 통해 확인되지 않은 악의적인 기능 포함 가능

  • 바이너리 블랙박스는 정적 검사로는 보안 보장 불가능
  • 감염된 데이터셋과 ROME과 같은 기술을 사용한 직접적인 모델 변조를 통해 취약한 모델 생성 가능

    바이너리 블랙박스
    소스 코드 없이 컴파일된 실행 파일만 가지고 내부 구조와 기능을 분석하는 기술

    ROME (Rank One Model Editing)

    LLM을 다시 학습 시키거나 전체 파인 튜닝을 하지 않고도, 모델 내부에 저장된 특정 사실적 지식을 효율적이고 정확하게 수정하는 기술

약한 모델 출처
모델의 출처에 대한 보장은 제공하지 않는 점을 이용하여 LLM 애플리케이션의 공급망을 손상시킴

 

취약한 LoRA 어댑터
악의적인 LoRA 어댑터가 사전 학습된 기본 모델의 무결성과 보안을 손상시킬 수 있음

 

협업 개발 프로세스 활용
공유 환경에서 호스팅되는 공동 모델 병합 및 모델 처리 서비스는 공유 모델의 취약점을 악용 가능

 

디바이스 공급망 취약점에 대한 LLM 모델
제조 프로세스의 손상, 디바이스 OS 또는 펌웨어 취약점을 악용하여 모델을 손상 시킴으로써 공급망 공격 표면 증가

 

불명확한 이용약관 및 개인정보 보호 정책
애플리케이션의 민감한 데이터가 모델 학습에 사용되어 민감 정보 유출 가능


예방 및 완화 전략

01. 신뢰할 수 있는 공급 업체만 사용
공급업체의 보안 및 액세스를 정기적으로 검토하고 감사하여 보안상태나 이용약관의 변화 확인

 

02. 취약하고 오래된 구성요소 이해
취약점 검사, 관리 및 패치 구성 요소가 포함됨

 

03. 포괄적인 AI 레드팀 및 평가 수행

 

04. 소프트웨어 자재 명세서 사용
구성 요소의 최신 인벤토리를 유지하여 배포된 패키지의 변조 방지

 

05. AI 라이선싱 위험 완화

  • 자재 명세서를 사용하여 관련된 모든 유형의 라이선스 인벤토리 생성
  • 자동화된 라이선스 관리 도구 사용

06. 검증 가능한 출처의 모델 사용
서명 및 파일 해시와 함꼐 타사 모델의 무결성 검사로 모델 출처 보완

 

07. 엄격 모니터링 및 감사 관행 구현
협업 모델 개발 환경에서 남용 방지 및 신속한 탐지

 

08. 이상 징후 탐지 및 적대적 견고성 테스트
변조 및 오염을 탐지하는데 도움

 

09. 패치 정책
취약하거나 오래된 구성 요소 완화

 

10. 무결성 검사
AI 엣지에 배포된 모델의 암호화 및 공급업체 증명 API를 사용하여 검사


공격 시나리오 예시

#01. 취약한 Python 라이브러리
모델 개발 환경에서 멀웨어가 포함된 손상된 PyTorch 종속성 다운로드 유도

 

#02. 직접 변조
모델을 직접 변호하고 게시 -> 잘못된 정보를 퍼뜨림

 

#03. 인기 모델 미세 조정
인기 있는 오픈 액세스 모델을 미세 조정 -> 주요 안전 기능을 제거하고 특정 도메인에서 높은 성능 발휘

 

#04. 사전 학습된 모델
검증 되지 않은 리포지토리에서 사전 학습된 모델 배포 -> 악성 코드 도입

 

#05. 손상된 타사 공급업체
손상된 모델 병합 -> LLM에 병합되는 취약한 LoRA 어댑터 제공

 

#06. 공급업체 침투
타가 공급 업체에 침투하여 손상된 LoRA 어댑터 제공 -> 숨겨진 취약점과 악성 코드를 포함하도록 변경됨

 

#07. 클라우드본 및 클라우드재킹 공격
가상화 계층의 공유 리소스와 취약점 활용 -> 클라우드 인프라 표적

  • 클라우드본 & 클라우드재킹

    클라우드 본

    공유 클라우드 환경의 펌웨어 취약점을 악용하여 가상 인스턴스를 호스팅하는 물리적 서버 손상

    클라우드재킹
    클라우드 인스턴스를 악의적으로 제어하거나 오용하여 중요한 LLM 배포 플렛폼에 무단으로 엑세스

#08. LeftOvers
유출된 GPU 로컬 메모리 악용 -> 민감한 데이터 복구

#09. WizardLM
WizardLM 제거 이후 해당 모델에 대한 관심 악용 -> 가짜 버전의 모델 게시

 

#10. 모델 병합 / 형식 변환 서비스
공개적으로 사용 가능한 액세스 모델을 손상 -> 멀웨어를 인젝션하는 공격 수행


#11. 모바일 앱 리버스 엔지니어링
모델을 변조된 버전으로 교체 -> 이용자를 사기 사이트로 유도

#12. 데이터셋 오염
모델을 미세 조정 하는 과정에서 공개적으로 사용 가능한 데이터셋 오염 -> 백도어 생성

#13. 이용약관 및 개인정보 처리방침
모델 학습에 애플리케이션 데이터가 사용되는 것을 명시적으로 거부하도록 약관 변경 -> 민감한 데이터 저장