Security/AI

[AI] LLM OWASP #02: 2025 민감 정보 유출

Opal1031 2026. 4. 23. 17:03
※ 본 포스트는 "SW 산학협력 프로젝트"에 앞서 LLM 및 AI와 관련된 학습을 위해 읽은 논문의 요약본입니다.

※ 비영리적인 순수한 학습 기록용입니다.

※ 저작권 문제가 있을 경우, 즉시 수정 또는 삭제하겠습니다.

포스팅에 앞서 해당 논문은 아래의 링크에서 확인할 수 있습니다.
OWASP Top 10 2025 번역본

 


LLM02: 2025 민감 정보 유출

두 번째 챕터의 주제는 "민감 정보 유출"이다.

 

민감 정보

민감 정보에는 다음과 같은 것들이 포함된다.

  • 개인 식별 정보 (Personally Identifiable Information, PII)
  • 재무 정보
  • 건강 기록
  • 기밀 비즈니스 데이터
  • 보안 자격 증명 및 법률 문서
  • 고유한 교육방법과 소스코드

애플리케이션에 포함된 LLM

LLM의 출력을 통해 민감한 데이터, 독점 알고리즘 또는 기밀 정보가 유출 될 수 있다.
이에 따라 아래의 문제들이 발생할 수 있다.

  • 무단 데이터 액세스
  • 개인정보 침해
  • 지적 재산권 침해

이러한 위험을 줄이기 위해서는 아래와 같이 해야한다.

 

LLM 애플리케이션
적절한 데이터 정체를 통해 이용자의 데이터가 학습 모델에 포함되지 않도록 해야함

 

애플리케이션 소유자
명확한 이용약관 정책을 제공하여 이용자가 자신의 데이터가 학습 모델에 포함되지 않도록 선택할 수 있게 함


일반적 취약점 예시

개인정보 유출
LLM과 상호작용하는 동안 개인식별정보가 유출 가능

 

독점 알고리즘 유출

모델 출력이 잘못 구성되면 독점 알고리즘이나 데이터가 유출

  • 학습 데이터가 유출되면 프루프 푸딩 공격 등의 방식으로 데이터 유출 가능

    프루프 푸딩(Proof Pudding) 공격
    LLM에서 유출된 학습 데이터를 활용하여 모델의 민감한 정보를 추출하거나 보안을 무력화하는 위험 요소

민감한 비즈니스 데이터 유출
생성된 응답에 의도치 않은 비즈니스 기밀 정보 포함 가능


예방 및 완화 전략

01. 정제(sanitization)

  • 데이터 정제 기술 통합
    • 이용자 데이터가 훈련 모델에 들어가지 않도록 정제 (삭제, 마스킹 등)
  • 강력한 입력 검증
    • 잠재적으로 유해하거나 민감한 데이터 입력을 감지 및 필터링

02. 액세스 제어

  • 엄격한 액세스 제어 시행
    • 민감한 데이터에 대한 액세스 제한
  • 데이터 소스 제한
    • 외부 데이터 소스에 대한 모델 액세스 제한 및 런타임 데이터 오케스트레이션을 안전하게 관리

      런타임 데이터 오케스트레이션
      프로그램 실행 중 흩어진 데이터 소스를 통합/변환/적재하거나, 에이전트 간 상호작용을 자동화하여 실시간 데이터 파이프라인을 관리하는 기술

03. 연합 학습 및 개인정보 보호 기술

  • 연합 학습 활용
    • 분산형 데이터를 사용하여 모델 훈련
  • 차등 개인정보 보호 통합
    • 데이터 및 출력에 노이즈를 추가하는 기술 적용을 통해 리버스 엔지니어링 방지

04. 이용자 교육 및 투명성

  • 이용자에게 안전한 LLM 사용법 교육
    • 민감 정보를 입력하지 않도록 안내
  • 데이터 사용의 투명성 보장
    • 데이터 보존/사용/삭제에 대한 명확한 정책

05. 보안 시스템 구성

  • 시스템 프리앰블 은닉
    • 이용자가 시스템의 초기 설정에 대한 액세스 제한
  • 보안 구성 오류 모범 사례 참조

06. 고급 기술

  • 동형 암호화
    • 안전한 데이터 분석 및 개인정보 보호 머신러닝을 통해 기밀성 유지

      동형 암호화(Homomorphic Encryption)
      데이터를 암호화 된 상태에서 복호화 없이 덧셈/곱셈 등 연산하여, 그 결과를 다시 복호화하면 평문 연산 결과와 동일한 값을 얻는 차세대 보안 기술
  • 토큰화 및 비공개 처리
    • 민감 정보를 전처리 및 정화를 위한 토큰화 구현

공격 시나리오 예시

#01. 의도하지 않은 데이터 유출
이용자의 부적절한 데이터 정제 -> 다른 이용자의 개인 데이터가 포함된 응답 수신

 

#02. 타겟팅된 프롬프트 인젝션
공격자의 입력 필터 우회 -> 민감 정보 추출

 

#03. 학습 데이터를 통한 데이터 유출
훈련 시 데이터 사용의 부주의 -> 민감 정보 유출