CWN(CHANGE WITH NEWS) - 워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함"

  • 맑음장흥-1.0℃
  • 맑음세종1.7℃
  • 맑음산청0.1℃
  • 흐림문경3.4℃
  • 맑음양산시2.6℃
  • 맑음북부산1.1℃
  • 구름조금제주10.8℃
  • 맑음정읍2.3℃
  • 맑음추풍령1.5℃
  • 맑음밀양-0.1℃
  • 구름조금울릉도10.3℃
  • 맑음보은1.0℃
  • 맑음성산8.4℃
  • 맑음진도군2.3℃
  • 맑음청주4.6℃
  • 맑음서청주-0.4℃
  • 맑음영천-0.4℃
  • 맑음경주시0.9℃
  • 맑음홍천1.3℃
  • 맑음해남0.0℃
  • 맑음강릉10.0℃
  • 맑음철원0.2℃
  • 맑음백령도9.6℃
  • 맑음여수7.0℃
  • 맑음동두천2.7℃
  • 구름조금정선군0.8℃
  • 맑음거창-2.8℃
  • 맑음합천0.4℃
  • 구름조금수원5.6℃
  • 맑음진주-1.0℃
  • 맑음봉화-3.4℃
  • 맑음장수-2.9℃
  • 맑음보성군2.0℃
  • 맑음동해6.6℃
  • 맑음상주2.9℃
  • 흐림이천4.7℃
  • 맑음울산5.6℃
  • 맑음광주3.7℃
  • 구름조금대전2.4℃
  • 맑음홍성3.3℃
  • 흐림충주5.5℃
  • 맑음포항6.8℃
  • 맑음순창군-1.0℃
  • 흐림원주5.8℃
  • 맑음청송군-3.0℃
  • 맑음광양시3.9℃
  • 맑음북창원4.5℃
  • 맑음서귀포9.8℃
  • 맑음부산7.8℃
  • 맑음서울6.8℃
  • 맑음거제4.1℃
  • 맑음통영5.2℃
  • 맑음대구2.7℃
  • 맑음의성-0.6℃
  • 맑음고흥0.8℃
  • 맑음흑산도10.2℃
  • 맑음남해4.2℃
  • 맑음영덕6.5℃
  • 맑음김해시5.4℃
  • 맑음금산-0.9℃
  • 맑음파주-0.7℃
  • 맑음북강릉6.5℃
  • 맑음안동0.8℃
  • 맑음북춘천0.5℃
  • 맑음부안2.8℃
  • 맑음울진7.6℃
  • 구름조금영월2.4℃
  • 맑음함양군-1.3℃
  • 맑음태백2.0℃
  • 맑음부여-0.4℃
  • 맑음서산1.9℃
  • 맑음임실-1.6℃
  • 맑음양평5.1℃
  • 맑음전주2.8℃
  • 맑음강진군1.6℃
  • 흐림제천3.4℃
  • 맑음군산1.9℃
  • 맑음영주1.4℃
  • 맑음목포5.6℃
  • 맑음천안0.5℃
  • 맑음인제2.6℃
  • 맑음춘천0.6℃
  • 맑음인천9.1℃
  • 맑음완도5.0℃
  • 맑음보령2.8℃
  • 맑음영광군1.2℃
  • 맑음의령군-2.0℃
  • 맑음고산12.6℃
  • 맑음창원5.5℃
  • 맑음구미1.0℃
  • 맑음강화3.4℃
  • 맑음대관령1.6℃
  • 맑음고창0.9℃
  • 맑음순천-1.7℃
  • 맑음고창군1.4℃
  • 맑음속초9.7℃
  • 맑음남원-0.6℃
  • 2025.11.22 (토)

워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함"

최은희 / 기사승인 : 2023-05-12 11:39:22
  • -
  • +
  • 인쇄

생성형 인공지능(AI) 채택 범위가 대거 확장되는 가운데, AI 툴의 성능 향상에 필요한 훈련 데이터 관련 문제가 끊이지 않는다. 최근, 미국 유력 매체 워싱턴포스트는 AI 모델 훈련용으로 사용하는 데이터세트에 파시스트 성향의 콘텐츠와 불법 복제 소스 및 악성 소스가 포함되었다는 자체 조사 결과를 발표했다.

문제가 된 데이터세트 중에는 구글이 1,500만 곳 이상의 웹사이트에서 수집하여 검색 엔진의 LaMDA AI와 메타의 대규모 언어 모델인 LLaMA 등을 훈련하는 데 사용된 C4(Colossal Clean Crawled Corpus) 등이 포함되었다.

C4는 공개 접근이 가능하지만, 데이터세트에 포함된 콘텐츠의 정확한 규모 파악은 어려웠다. 비교적 광범위하면서 부적절한 콘텐츠 검토 수준이 우수한 데이터도 포함된 것으로 알려졌다. 해당 데이터세트는 모욕적 언어와 인종 차별성 욕설이 제거된 것으로 추정된다.

하지만 워싱턴포스트는 C4의 부적절한 콘텐츠 및 표현 제거가 표면적인 수준에서만 진행되었다는 점을 확인했다. C4는 영국 일간지 가디언을 포함한 유력 매체의 웹사이트에서 수집한 콘텐츠 0.05%와 위키피디아, 구글 페이턴트(Google Patents)를 비롯한 대규모 데이터베이스, 과학 학술 저널 허브(PLOS) 등에서 수집한 콘텐츠를 포함하였다.

반면, 백인 민족주의 세력 웹사이트인 VDARE과 극우 성향의 주요 뉴스 웹사이트 중 한 곳인 브라이트바트(Breitbart)에서 수집한 콘텐츠도 포함된 것으로 확인됐다. 러시아 국가 주도 선동광고 웹사이트인 RT도 C4의 훈련 데이터를 제공한 사실도 밝혀졌다.

수집된 데이터 모음 분석을 분석한 비영리 단체인 커먼 크로울(Common Crawl)은 검색에서 제외해 달라는 요청을 존중한다고 밝혔지만, 명시적으로 포함에 동의한 사이트는 거의 없었다.

그러나 공정한 사용 수준의 한계를 넘어서는 경우도 발견됐다. 이전에 Bookzz로 알려졌던 b-ok.org는 2022년 미국 연방수사국(FBI)이 압수하기 전까지 전자책 불법 복제판의 방대한 저장소였다. 그런데도 C4 데이터베이스에는 해당 사이트의 콘텐츠가 남아있다.

한편, 영국 일간지 가디언은 워싱턴포스트의 조사 결과를 전하며, 이미지 생성 AI 툴로 유명한 스타트업인 스테이빌리티 AI(Stability AI)가 최근 대규모 언어 모델인 스테이블LM(StableLM)을 공개한 사실에 주목했다. 스테이빌리티 AI 측은 스테이블LM의 규모가 기존 언어 모델보다 3배 더 크며, 투명성과 신뢰도를 위해 오픈소스를 채택했다고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue