스터디 진행 일시
날짜 : 12월 04일 (목요일) 시간 : 오후 7시 ~ 9시 (2시간) 장소 : 강남 (오프라인) 오늘 함께한 멤버 ❣️ : 준호님 / 은지님 / 유경님 / 요한님 / 근우님
🔧 금주 스터디 일정
- 아이스 브레이킹
- 프롬프트 해킹과 방어하기 (은지님 세미나)
- 패턴 프로그래밍 (준호님 세미나)
프롬프트 해킹과 방어하기
🙌 은지님의 세미나 🙌
-
은지님이 정리하신 노션
- 프롬프트 해킹이란?
- LLM이 원래 규칙을 무시하고 의도하지 않은 행동을 하도록 유도하는 공격.
- LLM은 시스템/유저 메시지를 보안적으로 구분하지 못해 공격에 취약함.
- 주요 공격 기법
- 프롬프트 주입·탈옥: “규칙 무시해” 같은 문구로 안전장치를 우회.
- RAG 인잭션: 참조 문서를 그대로 출력하게 만들어 데이터 유출.
- 원격 코드 실행(RCE): Python/Shell tool 악용해 파일 읽기·삭제 등 수행.
- 개인정보 유출: 메모리·RAG 인덱스에서 다른 사용자 정보까지 노출 가능.
- 간접 주입/번역 공격: URL·다국어 번역을 이용한 우회.
- 반복 공격: 동일 요청 반복으로 안전 정책이 약화됨.
- 방어 전략(Guardrail Layer)
- 입력 전처리
- 금칙어/PII 필터링
- 시스템 지침 override 패턴 차단
- URL 직접 접근 제한
- SQL·OS 명령어 검출 후 차단
- 출력 후처리
- 민감정보 포함 여부 검사
- RAG 원문 노출 방지
- 반복 출력·비정상적 길이 응답 차단
- 입력 전처리
- 운영 팁
- 시스템 프롬프트는 항상 노출될 수 있다고 가정
- 프롬프트 성능은 큰 모델로 먼저 검증 후 작은 모델에 이식
패턴 프로그래밍
🙌 준호님의 세미나 🙌