CWN(CHANGE WITH NEWS) - 英 연구팀 "AI 생성 콘텐츠로 학습하는 AI, 정보 왜곡 문제 악화할 것"

  • 구름많음고창15.1℃
  • 구름많음순천14.2℃
  • 흐림목포18.1℃
  • 구름많음정선군12.8℃
  • 흐림광양시18.0℃
  • 구름많음성산20.1℃
  • 구름많음고흥14.3℃
  • 구름많음울진14.4℃
  • 구름많음영주13.9℃
  • 구름많음의령군16.5℃
  • 구름많음진주15.8℃
  • 구름많음합천16.4℃
  • 구름많음제주20.0℃
  • 구름많음진도군15.7℃
  • 구름조금울릉도17.9℃
  • 구름많음창원18.8℃
  • 흐림정읍15.7℃
  • 구름많음울산15.7℃
  • 박무서울17.7℃
  • 구름많음서귀포21.8℃
  • 구름조금영덕14.4℃
  • 구름많음해남14.6℃
  • 구름많음문경14.1℃
  • 구름많음보성군15.5℃
  • 구름많음북강릉14.7℃
  • 흐림남원15.5℃
  • 구름많음백령도18.5℃
  • 구름많음동두천14.6℃
  • 구름많음완도17.2℃
  • 구름많음북부산17.2℃
  • 구름많음광주16.4℃
  • 흐림양평15.8℃
  • 구름많음동해14.2℃
  • 구름많음추풍령12.6℃
  • 흐림거창14.2℃
  • 구름많음서산14.0℃
  • 구름많음서청주14.5℃
  • 구름많음제천14.5℃
  • 구름많음청송군12.7℃
  • 구름많음봉화14.5℃
  • 흐림군산15.5℃
  • 흐림홍천14.5℃
  • 구름많음대관령5.4℃
  • 구름조금경주시14.2℃
  • 박무북춘천15.8℃
  • 구름많음의성13.8℃
  • 구름많음통영18.8℃
  • 구름많음거제17.6℃
  • 흐림원주15.9℃
  • 구름많음순창군13.9℃
  • 흐림수원15.4℃
  • 구름많음북창원19.2℃
  • 구름많음강진군15.2℃
  • 흐림부안16.4℃
  • 구름많음금산15.6℃
  • 구름많음세종15.8℃
  • 흐림인천18.1℃
  • 구름조금영천13.6℃
  • 구름많음영월14.7℃
  • 구름많음밀양17.5℃
  • 구름많음임실14.2℃
  • 흐림전주16.1℃
  • 구름많음대전15.7℃
  • 구름많음철원14.2℃
  • 구름많음김해시17.6℃
  • 구름많음고창군15.5℃
  • 구름많음고산20.5℃
  • 구름많음춘천15.7℃
  • 맑음포항17.2℃
  • 구름많음장수13.3℃
  • 박무홍성14.8℃
  • 구름많음부여15.1℃
  • 구름많음파주14.5℃
  • 구름많음부산19.4℃
  • 구름많음강화15.3℃
  • 구름많음보은13.8℃
  • 구름조금여수19.2℃
  • 구름많음천안13.8℃
  • 구름많음태백8.8℃
  • 구름많음함양군14.0℃
  • 구름많음영광군15.6℃
  • 흐림이천15.4℃
  • 구름조금양산시18.0℃
  • 구름많음대구15.8℃
  • 구름많음보령16.0℃
  • 구름조금인제12.7℃
  • 구름많음상주14.1℃
  • 구름많음속초15.6℃
  • 구름많음강릉16.5℃
  • 구름많음청주17.0℃
  • 흐림흑산도20.3℃
  • 구름많음구미14.7℃
  • 구름많음산청15.0℃
  • 구름많음남해18.6℃
  • 구름많음장흥14.6℃
  • 구름많음충주15.6℃
  • 구름많음안동15.3℃
  • 2025.09.30 (화)

英 연구팀 "AI 생성 콘텐츠로 학습하는 AI, 정보 왜곡 문제 악화할 것"

최은희 / 기사승인 : 2023-06-19 18:23:53
  • -
  • +
  • 인쇄

블록체인 전문 매체 디크립트가 인공지능(AI)이 생성한 콘텐츠로 학습하는 AI의 등장 가능성을 경고한 논문이 발표된 사실을 보도했다.

영국 임페리얼 칼리지 런던, 케임브리지대학교, 옥스퍼드대학교, 토론토대학교 소속 전문가로 구성된 합동 연구팀은 ‘재귀의 저주: 생성된 데이터를 이용한 훈련으로 모델을 잊는다(The Curse of Recursion: Training on Generated Data Makes Models Forget)’라는 제목의 연구 논문을 통해 “AI로 생성한 데이터가 가 차세대 모델의 학습 집합에 피해를 줄 때 이른바 ‘모델 붕괴’ 현상이 발생할 수 있다고 주장했다.

한 마디로 말하자면, AI로 생성한 콘텐츠가 온라인에 널리 확산된다면, AI 시스템으로 다시 흡수되어 정보 왜곡과 부정확한 정보 생성과 같은 문제가 더 심각해질 수 있다는 의미이다.

연구팀은 시간이 지나면서 AI 모델이 실제 기본 데이터 분포를 잊고, 원본 정보가 너무 왜곡되어 실제 데이터와 AI 훈련 데이터가 달라지기 때문에 현실을 부정확하게 표현하게 된다고 지적했다. 모델 붕괴는 대규모 언어 모델, 가우시안 혼합 모델(Gaussian Mixture Model)을 포함한 생성형 AI 모델에서 주로 발견될 수 있는 문제이다.

연구팀은 모델 붕괴 현상의 주된 원인으로 두 가지를 언급했다. 바로 데이터 샘플의 유한한수와 관련된 '통계적 근사 오차'와 AI 학습 중에 사용되는 오차 범위가 제대로 설정되지 않은 ‘기능적 근사 오차'이다. 두 가지 문제 모두 여러 세대에 걸쳐 누적되어 부정확성을 악화시키는 연쇄적인 효과를 일으킬 수 있다.

연구팀은 모델 붕괴 방지 방법으로 AI 모델 학습을 위한 '선점자 우위'를 제시했다. 인간이 생성한 원본 데이터 출처 접근성을 유지할 수 있다면, 해로운 분포 변화와 그에 따른 모델 붕괴를 방지할 수 있다고 보는 이론이다.

그러나 연구팀은 AI 생성 콘텐츠를 대규모로 구분하는 일은 어려운 일이며, 커뮤니티 전반에 걸친 협력이 필요하다고 덧붙여 전했다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue