MIT 과학자, AI 이미지 생성 속도 30배 향상 방법 발견

과학자들은 DALL·E 3 및 Stable Diffusion과 같은 생성 AI 시스템을 품질을 손상시키지 않고 더 작은 모델로 압축함으로써 주요한 이점을 제공하는 프레임워크를 구축했습니다.

인기 있는 인공지능(AI) 구동 이미지 생성기는 100단계의 전체 프로세스를 한 단계로 압축하는 기술 덕분에 최대 30배 더 빠르게 실행될 수 있다는 연구 결과가 나왔습니다.

과학자들은 DALL·E 3, Midjourney, Stable Diffusion과 같은 기존 이미지 생성기를 모방하기 위해 새로운 AI 모델을 가르치는 “분포 매칭 증류”(DMD)라는 기술을 고안했습니다.

이 프레임워크는 최종 이미지의 동일한 품질을 유지하면서 훨씬 더 빠르게 이미지를 생성할 수 있는 더 작고 마른 인공지능 모델을 만듭니다. 과학자들은 2023년 12월 5일 사전 인쇄 서버 arXiv에 업로드한 연구에서 그들의 발견을 자세히 설명했습니다.

“우리의 연구는 안정 확산(Stable Diffusion)과 달(DALE-3)과 같은 현재의 확산 모델을 30배까지 가속화하는 새로운 방법입니다,” 라고 MIT의 전기공학과 컴퓨터 과학 박사과정 학생인 공동저자 티엔웨이 인(Tianwei Yin)이 말했습니다. “이 발전은 계산 시간을 크게 단축시킬 뿐만 아니라, 비록 능가하지는 못하더라도, 생성된 시각적 콘텐츠의 품질을 유지합니다.

확산 모델은 다단계 과정을 통해 이미지를 생성합니다. 설명적인 텍스트 캡션과 다른 메타데이터가 있는 이미지를 훈련 데이터로 사용하여 AI는 이미지 뒤의 맥락과 의미를 더 잘 이해하도록 훈련되어 텍스트 프롬프트에 정확하게 응답할 수 있습니다.

관련: 새로운 AI 이미지 생성기는 OpenAI의 최고 도구보다 8배 빠르며 저렴한 컴퓨터에서 실행할 수 있습니다

인공지능 과학자 제이 알람마르는 블로그에 올린 글에서, 이 모델들은 무작위의 이미지를 찍어서 무작위의 잡음으로 인코딩하여 파괴하는 방식으로 작동한다고 설명했습니다. 이것은 “순방향 확산”이라고 불리며, 훈련 과정의 핵심 단계입니다. 다음으로, 이미지는 텍스트 프롬프트를 기반으로 선명한 이미지를 생성하기 위해 “역방향 확산”이라고 알려진 잡음을 제거하기 위해 최대 100 단계를 거칩니다.

과학자들은 새로운 모델에 새로운 프레임워크를 적용하고 이러한 “역확산” 단계를 하나로 줄임으로써 이미지를 생성하는데 걸리는 평균 시간을 단축했습니다. 한 테스트에서 과학자들의 모델은 안정 확산 v1.5에서 90ms로 이미지 생성 시간을 약 2,590밀리초 (2.59초)에서 28.8배 더 빠르게 단축했습니다.

DMD에는 사용 가능한 이미지를 뱉어내기 전에 모델에 필요한 반복 횟수를 줄이기 위해 함께 작동하는 두 가지 구성 요소가 있습니다. 첫 번째는 “회귀 손실”이라고 불리는 훈련 중 유사성을 기반으로 이미지를 구성하고, 이것은 인공지능이 더 빨리 학습하도록 만듭니다. 두 번째는 “분포 매칭 손실”이라고 불리는데, 이것은 예를 들어 한입 베어낸 사과를 묘사할 수 있는 가능성이 실제 세계에서 여러분이 하나를 얼마나 자주 마주칠지와 일치한다는 의미입니다. 이러한 기술은 함께 새로운 인공지능 모델에 의해 생성된 이미지가 얼마나 이상하게 보일지를 최소화합니다.

“반복 횟수를 줄이는 것은 확산 모델이 시작된 이래로 성배였습니다,” 라고 MIT의 전기 공학 및 컴퓨터 과학 교수인 공동 저자인 프레도 듀란트(Fredo Durand)가 말했습니다. “우리는 마침내 단일 단계의 이미지 생성을 가능하게 하여 컴퓨팅 비용을 극적으로 줄이고 프로세스를 가속화하게 되어 매우 기쁩니다.”

새로운 접근 방식은 원래의 확산 모델에서 “수백 단계의 반복적인 개선”과 달리 단 한 단계의 단계만 필요하기 때문에 이미지를 생성하는 데 필요한 계산 능력을 극적으로 감소시킨다고 Yin은 말했습니다. 이 모델은 또한 번개처럼 빠르고 효율적인 생성이 중요한 산업에서 이점을 제공하여 훨씬 더 빠른 콘텐츠 생성으로 이어질 수 있다고 과학자들은 말했습니다.

Leave a Comment