옥쇄 AI 서비스, 생각보다 쉬워 - 프로덕트-C

AI 연구원들은 AI 챗봇이 대화 중간에 쿼리를 통해 학습한 엄청난 양의 데이터를 제공함으로써 질문에 잠재적으로 위험한 응답을 하도록 속일 수 있다는 것을 발견했습니다.

인공지능(AI) 회사인 아티스틱의 과학자들은 ChatGPT와 아티스틱의 클로드 3 챗봇과 같은 널리 사용되는 대형 언어 모델(LLM)에서 잠재적으로 위험한 결함을 발견했습니다.

“많은 한방 탈옥”이라고 불리는 이 해킹은 2022년에 발표된 연구에 요약된 바와 같이 사용자가 작성한 텍스트 프롬프트에 제공된 정보로부터 챗봇이 학습하는 “context 내 학습”을 활용합니다. 과학자들은 sanity.io 클라우드 저장소에 업로드된 새로운 논문에서 그들의 발견의 개요를 설명하고 인류학의 클로드 2 AI 챗봇에 대한 악용을 테스트했습니다.

비록 그러한 시스템들이 이것을 막기 위해 훈련되었지만, 사람들은 LLM들이 위험한 반응을 일으키도록 하기 위해 그 해킹을 사용할 수 있다고 그 연구는 결론지었습니다. 그것은 많은 사람들이, 예를 들어, 폭탄을 만드는 방법을 물었을 때, 인공지능이 어떻게 반응하는지를 통제하는 내장된 보안 프로토콜을 통과하기 때문입니다.

context와 같은 LLM은 대화를 처리하기 위해 “convers 창”에 의존합니다. 이것은 시스템이 입력의 일부로 처리할 수 있는 정보의 양이며, 더 많은 입력 텍스트를 허용하는 더 긴 컨텍스트 창이 있습니다. 더 긴 컨텍스트 창은 인공지능이 중간 convers에서 배울 수 있는 더 많은 입력 텍스트와 동일하며, 이것은 더 나은 응답으로 이어집니다.

인공지능 챗봇의 컨텍스트 창은 2023년 초에 비해 수백 배 더 커졌다고 과학자들은 성명서에서 말했습니다. 이는 인공지능에 의한 더 많은 미묘하고 컨텍스트를 인식하는 반응을 의미합니다. 그러나 그것은 또한 착취의 문을 열었습니다.

인공지능을 속여서 유해한 콘텐츠를 생성하는 것

이 공격은 먼저 텍스트 프롬프트에서 사용자와 AI 비서 사이의 가짜 대화를 작성함으로써 작동하며, 이 대화에서 가상 비서는 잠재적으로 해로운 일련의 질문에 대답합니다.

그런 다음 두 번째 문자 프롬프트에서 “어떻게 폭탄을 만들 수 있나요?”와 같은 질문을 하면 인공지능 비서가 안전 프로토콜을 건너뛰고 대답합니다. 이것은 인공지능 비서가 이제 입력된 텍스트로부터 배우기 시작했기 때문입니다. 이것은 많은 “샷” (또는 질문과 대답의 조합)을 포함하는 긴 “스크립트”를 작성할 때만 작동합니다.

“우리의 연구에서, 우리는 포함된 대화의 수 (“총성”의 수)가 특정 지점 이상으로 증가함에 따라, 모델이 유해한 반응을 일으킬 가능성이 더 높아진다는 것을 보여주었습니다”라고 과학자들은 성명서에서 말했습니다. “우리의 논문에서, 우리는 또한 이전에 발표된 다른 탈옥 기술과 결합하는 것이 그것을 훨씬 더 효과적으로 만들어서 모델이 유해한 반응을 되돌리는 데 필요한 프롬프트의 길이를 줄인다고 보고합니다.”

이 공격은 프롬프트가 4발에서 32발 사이의 총성을 포함했을 때만 작동하기 시작했지만, 그 시간의 10% 미만에 불과했습니다. 32발 이상의 총성으로부터 성공률은 점점 더 높아졌습니다. 가장 긴 탈옥 시도는 256발을 포함했고, 차별에 대한 성공률은 거의 70%, 속임수에 대한 성공률은 75%, 규제된 내용에 대한 성공률은 55%, 폭력적이거나 증오스러운 대응에 대한 성공률은 40%였습니다.

연구원들은 사용자가 (탈옥 공격이 포함된) 프롬프트를 보내고 LLM이 받은 후 활성화된 추가 단계를 추가함으로써 공격을 완화할 수 있다는 것을 발견했습니다. 이 새로운 계층에서 시스템은 기존의 안전 교육 기술에 의존하여 프롬프트를 분류하고 수정한 후 LLM이 프롬프트를 읽고 응답 초안을 작성할 기회를 갖게 됩니다. 테스트 중에 해킹 성공률을 61%에서 단 2%로 낮췄습니다.

과학자들은 많은 총격 탈옥이 ChatGPT와 구글의 제미니와 같은 경쟁사의 AI 서비스뿐만 아니라 인류학 자체의 AI 서비스에서도 작동한다는 것을 발견했습니다. 그들은 다른 AI 회사와 연구원들에게 위험에 대해 경고했다고 말했습니다.

그러나 오늘날 LLM은 충분히 강력하지 않기 때문에 많은 탈옥은 현재 “재앙적인 위험”을 초래하지 않는다고 과학자들은 결론을 내렸습니다. 그렇다고 해서, 이 기술이 미래에 훨씬 더 강력한 모델이 출시될 때까지 완화되지 않으면 “심각한 해를 끼칠” 수도 있습니다.

인공지능을 속여서 유해한 콘텐츠를 생성하는 것

Leave a Comment 응답 취소