※ 본 포스트는 "SW 산학협력 프로젝트"에 앞서 LLM 및 AI와 관련된 학습을 위해 읽은 논문의 요약본입니다.
※ 비영리적인 순수한 학습 기록용입니다.
※ 저작권 문제가 있을 경우, 즉시 수정 또는 삭제하겠습니다.
포스팅에 앞서 해당 논문은 아래의 링크에서 확인할 수 있습니다.
OWASP Top 10 2025 번역본
LLM01: 2025 프롬프트 인젝션
첫 번째 챕터의 주제는 "프롬프트 인젝션"이다.
프롬프트 인젝션 취약점
이용자 프롬프트가 의도하지 않은 방식으로 LLM의 동작 또는 출력을 변경할 때 발생
LLM을 사용할 때, 데이터 처리 과정에서 사용자에게 직접적으로 보이지 않을 수 있다.
즉, 이용자의 의도와는 무관하게 입력이 LLM 모델에 영향을 미칠 수 있다.
RAG 및 미세 조정과 같은 기술은 LLM 출력의 향상을 목표로 하지만, 프롬프트 인젝션에 노출되어 있다.
프롬프트 인젝션 vs 탈옥
프롬프트 인젝션
AI의 의도된 기능을 조작하여 특정 작업을 수행하게 함
- 악성 명령어를 합법적인 입력으로 위장 -> 시스템 보안 및 무결성 저해
탈옥
AI의 안전 장치를 우회하여 금지된 콘텐츠 생성
- 역할 부여, 가상 시나리오 등을 통해 제약 무시 유도 -> 유해하거나 비윤리적인 콘텐츠 생성 허용
일반적 취약점 예시
직접 프롬프트 인젝션
이용자의 입력이 모델의 동작을 직접 변경할 때 발생
- 해당 입력은 이용자의 의도와 무관할 수 있으며, 예상치 못한 방식으로 동작 가능
간접 프롬프트 인젝션
외부 소스에서 입력을 수락할 때 발생
- 외부 콘텐츠에는 웹사이트나 파일과 같은 것들이 해당
- 해당 콘텐츠 데이터를 모델이 해석하는 과정에서 의도하지 않거나 예상치 못한 방식으로 동작 가능
성공적인 프롬프트 인젝션 공격은 다음과 같은 문제들이 발생할 수 있다.
- 민감 정보 유출
- AI시스템 인프라 또는 시스템 프롬프트에 대한 민감 정보 유출
- 부정확하거나 편향된 콘텐츠 조작
- LLM에서 사용 가능한 기능에 대한 무단 액세스 제공
- 연결된 시스템에서 임의의 명령 실행
- 중요한 의사결정 프로세스 조작
멀티모달 AI의 등장
멀티모달 AI의 등장으로 인해 다양한 프롬프트 인젝션 위험이 발생하고 있다.
- 악의적인 공격자는 모달리티 간의 상호 작용을 악용하는 등, 시스템의 복잡성을 활용
멀티모달 AI란?
다양한 형태의 데이터를 동시에 입력 받고 이해하여, 인간처럼 통합적으로 사고하고 생성하는 차세대 AI 기술
예방 및 완화 전략
01. 모델 동작 제한
모델의 역할, 기능 및 제한 사항 등 구체적인 지침을 제공
02. 예상 출력 형식 정의 및 검증
명확한 출력 형식 지정
03. 입력 및 출력 필터링 구현
민감한 카테고리 정의 및 이러한 콘텐츠를 식별하고 처리하기 위한 규칙 정의
- 시맨틱 필터 적용, 문자열 검사를 사용하여 허용되지 않은 콘텐츠 검사
- RAG Triad를 사용하여 응답 평가 및 잠재적으로 악의적인 결과물 식별
시멘틱 필터
콘텐츠의 문맥적 의미와 사용자의 의도를 파악하여 관련성 높은 기술을 걸러내거나 숨기는 기술
RAG Traid
RAG의 성능과 품질을 평가하기 위한 3가지 지표 (문맥 관련성, 근거성, 질문/답변 관련성)
04. 권한 제어 및 최소 권한 액세스 적용
애플리케이션에 자체 API 토큰 제공 및 모델 기능 제공 대신 코드에서 처리 유도
05. 고위험 행위에 대한 사람의 승인 필요
허가되지 않은 행위 방지를 위해 사람이 개입하는 제어 구현
06. 외부 콘텐츠 분리 및 식별
신뢰할 수 없는 콘텐츠 분리 및 명확한 표시
07. 적대적 테스트 및 공격 시뮬레이션 수행
정기적인 침투 테스트 및 침해 시뮬레이션 수행
공격 시나리오 예시
#01. 직접 인젝션
고객 지원 챗봇을 대상으로 공격 -> 무단 액세스 및 권한 상승 유도
#02. 간접 인젝션
숨겨진 지침이 포함된 웹 페이지 요약 지시 -> 비공개 대화 유출
#03. 의도하지 않은 인젝션
AI 식별 지침을 의도하지 않았으나 포함시킴 -> AI가 이를 감지하여 트리거
#04. 의도적인 모델 영향
RAG 애플리케이션에서 사용하는 문서의 쿼리 수정 -> 악성 명령으로 인해 LLM의 출력을 변경
#05. 코드 인젝션
LLM 기반 이메일 도우미 취약점 악용 -> 민감 정보에 엑세스하거나 이메일 콘텐츠 조작 시도
#06. 페이로드 분할
악성 프롬프트가 포함된 이력서 분할 업로드 -> 결합된 프롬프트가 응답 조작
#07. 멀티모달 인젝션
정상 텍스트와 함께 악성 프롬프트를 이미지에 인젝션 -> 멀티모달 AI가 다양한 형태의 데이터를 동시에 처리할 때, 숨겨진 프롬프트에 의해 무단 작업 및 민감한 정보 유출
#08. 적대적 접미사
프롬프트에 의미 없어 보이는 문자열 추가 -> 안전 조치 우회
#09. 다국어/난독화 공격
여러 언어 사용 및 악성 명령어 인코딩 -> 필터 회피 및 LLM 동작 조작
'Security > AI' 카테고리의 다른 글
| [AI] LLM OWASP #05: 2025 부적절한 출력 처리 (0) | 2026.04.23 |
|---|---|
| [AI] LLM OWASP #04: 2025 데이터 및 모델 오염 (0) | 2026.04.23 |
| [AI] LLM OWASP #03: 2025 공급망 (0) | 2026.04.23 |
| [AI] LLM OWASP #02: 2025 민감 정보 유출 (0) | 2026.04.23 |
| [AI] LLM OWASP Top 10 2025 (0) | 2026.04.23 |