Meow Develops | 프롬프트 해킹과 방어하기 / 패턴 프로그래밍

날짜 : 12월 04일 (목요일) 시간 : 오후 7시 ~ 9시 (2시간) 장소 : 강남 (오프라인) 오늘 함께한 멤버 ❣️ : 준호님 / 은지님 / 유경님 / 요한님 / 근우님

🙌 은지님의 세미나 🙌

은지님이 정리하신 노션
프롬프트 해킹이란?
- LLM이 원래 규칙을 무시하고 의도하지 않은 행동을 하도록 유도하는 공격.
- LLM은 시스템/유저 메시지를 보안적으로 구분하지 못해 공격에 취약함.
주요 공격 기법
- 프롬프트 주입·탈옥: “규칙 무시해” 같은 문구로 안전장치를 우회.
- RAG 인잭션: 참조 문서를 그대로 출력하게 만들어 데이터 유출.
- 원격 코드 실행(RCE): Python/Shell tool 악용해 파일 읽기·삭제 등 수행.
- 개인정보 유출: 메모리·RAG 인덱스에서 다른 사용자 정보까지 노출 가능.
- 간접 주입/번역 공격: URL·다국어 번역을 이용한 우회.
- 반복 공격: 동일 요청 반복으로 안전 정책이 약화됨.
방어 전략(Guardrail Layer)
- 입력 전처리
  - 금칙어/PII 필터링
  - 시스템 지침 override 패턴 차단
  - URL 직접 접근 제한
  - SQL·OS 명령어 검출 후 차단
- 출력 후처리
  - 민감정보 포함 여부 검사
  - RAG 원문 노출 방지
  - 반복 출력·비정상적 길이 응답 차단
운영 팁
- 시스템 프롬프트는 항상 노출될 수 있다고 가정
- 프롬프트 성능은 큰 모델로 먼저 검증 후 작은 모델에 이식

🙌 준호님의 세미나 🙌

프롬프트 해킹과 방어하기 / 패턴 프로그래밍