CWN(CHANGE WITH NEWS) - 美日 연구팀, 텍스트·그림 합성하는 알고리즘 ′CLIPDraw′ 공개

  • 구름조금창원-0.3℃
  • 눈백령도-8.2℃
  • 맑음강화-9.5℃
  • 구름많음대구-1.5℃
  • 구름조금광주-1.9℃
  • 구름많음부안-3.9℃
  • 구름조금의령군-0.9℃
  • 맑음이천-6.1℃
  • 눈울릉도-2.2℃
  • 맑음철원-11.6℃
  • 구름많음서청주-6.7℃
  • 맑음양산시1.8℃
  • 구름많음울진1.9℃
  • 맑음춘천-7.4℃
  • 구름조금북부산1.6℃
  • 구름많음진주2.1℃
  • 구름많음원주-7.5℃
  • 구름많음영주-4.0℃
  • 맑음서울-9.1℃
  • 구름조금통영1.8℃
  • 구름많음고산2.1℃
  • 구름조금영월-5.3℃
  • 구름많음완도0.7℃
  • 구름많음대전-6.0℃
  • 구름많음의성-3.7℃
  • 맑음서산-5.9℃
  • 구름많음천안-6.7℃
  • 구름많음거제0.6℃
  • 구름많음포항1.3℃
  • 구름많음봉화-4.3℃
  • 구름많음보성군0.7℃
  • 구름조금순천-2.0℃
  • 구름조금북강릉-1.6℃
  • 구름많음진도군-1.5℃
  • 구름많음전주-5.3℃
  • 구름많음함양군-0.1℃
  • 구름많음부여-5.3℃
  • 구름많음해남-2.0℃
  • 구름많음장흥-1.2℃
  • 구름많음군산-5.2℃
  • 구름조금밀양-0.8℃
  • 흐림흑산도-0.6℃
  • 구름많음추풍령-6.6℃
  • 구름많음광양시2.1℃
  • 구름조금장수-5.0℃
  • 구름많음보은-6.3℃
  • 구름많음청송군-4.2℃
  • 구름많음강진군-1.9℃
  • 구름많음영덕0.8℃
  • 구름많음영천-1.2℃
  • 구름많음남원-4.3℃
  • 맑음속초-2.3℃
  • 구름많음순창군-3.4℃
  • 구름많음금산-5.5℃
  • 구름조금산청0.6℃
  • 구름많음임실-4.3℃
  • 구름많음경주시-1.1℃
  • 구름조금강릉-0.8℃
  • 구름많음충주-7.0℃
  • 구름조금북창원-0.1℃
  • 구름많음상주-5.5℃
  • 구름많음태백-4.0℃
  • 구름많음고창군-5.0℃
  • 구름많음보령-5.2℃
  • 구름많음고창-4.2℃
  • 맑음수원-7.7℃
  • 구름조금김해시0.0℃
  • 구름많음세종-6.5℃
  • 맑음파주-10.5℃
  • 맑음인제-8.1℃
  • 구름조금여수1.7℃
  • 구름많음제천-7.1℃
  • 맑음양평-6.4℃
  • 구름많음정읍-5.1℃
  • 구름조금북춘천-8.8℃
  • 구름많음영광군-4.0℃
  • 구름조금남해2.5℃
  • 구름조금홍성-5.1℃
  • 구름많음부산0.5℃
  • 구름조금대관령-8.0℃
  • 맑음정선군-5.8℃
  • 구름많음서귀포8.1℃
  • 구름조금울산-0.5℃
  • 구름조금동해-0.2℃
  • 구름많음안동-4.9℃
  • 구름조금목포-3.5℃
  • 맑음동두천-9.8℃
  • 구름많음거창-0.1℃
  • 맑음홍천-7.9℃
  • 구름많음구미-3.8℃
  • 흐림제주2.6℃
  • 구름조금인천-10.0℃
  • 구름많음문경-4.6℃
  • 구름많음청주-6.7℃
  • 흐림성산2.1℃
  • 맑음합천-0.2℃
  • 구름많음고흥0.7℃
  • 2026.01.20 (화)

美日 연구팀, 텍스트·그림 합성하는 알고리즘 'CLIPDraw' 공개

임채은 / 기사승인 : 2021-07-12 14:06:32
  • -
  • +
  • 인쇄
CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders
CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders

특정 장면 설명을 듣고, 그 모습을 머릿속에서 상상하는 것은 쉽다. 반대로 정신적 이미지를 만들 때, 그 장면을 묘사하는 것도 마찬가지이다. 인간은 어느 정도 일상 세계를 이해하는 데 중요한 텍스트 구조와 시각 구조 모두에 대해 깊이 결합한 표현을 가지고 있기 때문이다.

최근 등장한 이중 언어 이미지 암호기인 '클립(CLIP)'은 텍스트와 시각적 정보 통합에 큰 진전을 거두었다. CLIP 모델은 텍스트와 영상이 모두 동일한 표현 공간에 매핑되므로 영상과 텍스트 설명 사이의 유사성을 측정할 수 있다. 다량의 데이터에 대한 교육을 받은 CLIP 표현은 강력한 범위의 영상 기반 인식 작업을 해결하는 것으로 나타났다.

여기서 더 나아가 해외 인공지능(AI) 개발 기업 크로스 컴파스(Cross Compass Ltd)와 MIT, 도쿄공업대학교, 도쿄대학교 소속 전문가로 구성된 합동 연구팀이 자연어 입력에 따라 참신한 도면을 합성한 알고리즘인 클립드로(CLIPDraw)를 선보였다.

CLIPDraw에는 별도의 교육이 필요하지 않으며, 사전 교육된 CLIP 모델이 지정된 설명과 생성된 도면 간의 유사성을 극대화하기 위한 지표로 사용된다. CLIPDraw는 사실적 이미지보다는 프롬프트와 일치하는 간단한 도면을 합성하는 것을 목표로 한다. 따라서 CLIPDraw는 픽셀 이미지보다는 벡터 스트로크 세트를 최적화해, 도면을 사람이 인식할 수 있는 단순한 모양으로 편향시킨다.

CLIPDraw의 목적 및 동작 방식

출처 = CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders
출처 = CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders

그렇다면, CLIPDraw를 직접 활용했을 때, 어떤 특성을 볼 수 있을까? 그 내용을 아래와 같이 간단하게 전달한다.

언어-이미지 관계 탐색과 AI 지원 아트워크 합성을 위한 테스트베드를 제공하고 다양한 방식을 선보이는 것이 목적이다. 결과를 CLIPDraw 및 기타 최적화 기반 텍스트-영상 방법 사이에서 비교하고 몇 가지 흥미로운 동작을 강조한다.


• CLIPDraw는 "수채화" 또는 "3D 렌더링"과 같은 형용사를 조정해, 매우 다른 스타일의 도면을 만든다.
• CLIPDraw는 종종 이미지 내부의 프롬프트에서 단어를 쓰거나 여러 가지 방법으로 애매한 명사를 해석하는 등 창의적인 방법으로 설명 프롬프트와 일치한다.
• CLIPDraw를 낮은 스트로크 수로 실행하면 만화 같은 도면이 그려지고 스트로크 수가 많으면 사실적인 렌더링이 된다.
• CLIPDraw에 "행복" 또는 "자신"과 같은 추상적 프롬프트를 표시함으로써 CLIP 모델이 어떤 시각적 개념을 연상시키는지 검토할 수 있다.
• CLIPDraw 동작은 반대 동작을 장려하기 위해 "난잡한 도면"과 같은 부정적인 프롬프트를 사용하여 추가로 제어할 수 있다.

CLIPDraw와 기타 합성-통과 최적화 방법 간을 비교하면서 다양한 방식으로 모호한 텍스트를 만족하고, 다양한 예술 스타일로 도면을 안정적으로 생성할 수 있다. 또, 스트로크 카운트가 증가할 때 단순한 시각적 표현에서 복잡한 시각적 표현으로 스케일링하는 등 CLIPDraw의 다양한 흥미로운 동작을 강조한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue