※ 본 포스트는 "SW 산학협력 프로젝트"에 앞서 LLM 및 AI와 관련된 학습을 위해 읽은 논문의 요약본입니다.
※ 비영리적인 순수한 학습 기록용입니다.
※ 저작권 문제가 있을 경우, 즉시 수정 또는 삭제하겠습니다.
포스팅에 앞서 해당 논문은 아래의 링크에서 확인할 수 있습니다.
OWASP Top 10 2025 번역본
LLM09: 2025 벡터 및 임베딩 취약점
아홉 번째 챕터의 주제는 "허위 정보"이다
허위 정보
허위 정보의 주요 원인 중 하나는 환각이다.
이는 모델이 내용을 실제로 이해하지 못한 채 출력을 생성하는 경우 발생한다.
환각
LLM이 사실처럼 보이는 허구의 콘텐츠를 생성하는 현상
또한 훈련 데이터에 내재된 편향과 불완전한 정보에 의해서도 허위 정보가 생성될 수 있다.
허위 정보
LLM이 신뢰할 수 있는 것처럼 보이지만 실제로는 잘못되거나 오해를 유발하는 정보를 생성할 때 발생
일반적 취약점 예시
사실적 부정확성
모델이 잘못된 정보를 생성하여 이용자가 이를 바탕으로 잘못된 결정을 내림
근거 없는 주장
모델이 명확한 근거 없이 주장을 생성
- 의료 및 법률과 같은 민감한 분야에서 피해
전문성 허위 진술
모델이 특정 주제에 대한 이해도가 높은 것처럼 보이게 만들어 이용자가 모델의 전문성을 오해하도록 유도
안전하지 않은 코드 생성
모델이 보안에 취약하거나 존재하지 않는 코드 라이브러리를 추천하여 추후 보안 사고 발생
예방 및 완화 전략
01. RAG 활용
외부 DB에서 검증된 정보를 검색함으로써 모델 출력의 신뢰성 향상
- 환각 및 허위 정보 발생 위험 줄임
02. 모델 미세 조정
미세 조정 및 임베딩을 통해 출력 품질 개선
- 파라미터 효율적 튜닝
- 연쇄적 사고 프롬프팅
파라미터 효율적 튜닝 (Parameter Efficient Tuning, PET)
LLM의 사전 훈련된 전체 파라미터 대신, 극히 일부 파라미터만 학습시켜 시간과 컴퓨팅 자원을 획기적으로 절약하는 기법
연쇄적 사고 프롬프팅
LLM이 복잡한 문제를 해결할 때, 직접적인 정답을 도출하기보다는 중간 추론 과정을 단계별로 생성하도록 유도하는 프롬프트 엔지니어링 기술
03. 교차 검증 및 인적 감독
이용자들이 LLM이 생성한 정보를 신뢰할 수 있는 외부 출처와 비교하여 검증하도록 권장
04. 자동 검증 메커니즘
주요 출력물을 자동으로 검증하는 도구와 프로세스 도입
05. 위험 커뮤니케이션
허위 정보가 발생할 가능성을 포함한 경고 메시지 제공
06. 보안 코딩 적용
취약점을 포함하지 않도록 개발 과정에서 보안 코딩 관행 준수
07. 이용자 인터페이스 설계
LLM을 책임감 있게 사용할 수 있도록 API 및 이용자 인터페이스 설계
- 콘텐츠 필터 통합
- AI가 생성한 콘텐츠 임을 표시
- 신뢰성과 정확성의 한계 안내
08. 훈련 및 교육
이용자들에게 LLM의 한계를 이해하고, 생성된 콘텐츠를 검증하는 방법 교육
공격 시나리오 예시
#01. 악성 패키지
코드 작성 보조 도구를 활용하여 환각을 일으키는 패키지 이름 탐색 -> 해당 이름으로 악성 패키지 배포 -> 개발자의 소프트웨어에 악성 패키지 포함
#02. 부정확한 의료 정보 제공
정확성을 검증하지 않은 채 서비스 배포 -> 해당 정보를 따른 환자에게 심각한 피해
- 외부 공격자가 존재하지 않더라도 문제 발생 가능
'Security > AI' 카테고리의 다른 글
| [AI] LLM OWASP #10: 2025 무제한 소비 (0) | 2026.04.24 |
|---|---|
| [AI] LLM OWASP #08: 2025 벡터 및 임베딩 취약점 (0) | 2026.04.23 |
| [AI] LLM OWASP #07: 2025 시스템 프롬프트 유출 (0) | 2026.04.23 |
| [AI] LLM OWASP #06: 2025 과도한 위임 (0) | 2026.04.23 |
| [AI] LLM OWASP #05: 2025 부적절한 출력 처리 (0) | 2026.04.23 |