CWN(CHANGE WITH NEWS) - 워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함"

  • 맑음상주1.0℃
  • 구름조금임실0.6℃
  • 맑음고창군4.1℃
  • 구름많음보령4.0℃
  • 맑음경주시2.3℃
  • 구름조금창원4.0℃
  • 구름많음북창원4.6℃
  • 흐림천안1.2℃
  • 맑음대구3.6℃
  • 맑음남원0.8℃
  • 구름많음부산4.3℃
  • 흐림춘천-4.5℃
  • 흐림인제-2.7℃
  • 흐림철원-2.8℃
  • 구름조금금산1.9℃
  • 맑음영광군3.6℃
  • 맑음영덕2.0℃
  • 구름조금보성군2.6℃
  • 구름많음성산7.8℃
  • 흐림대관령-5.1℃
  • 구름많음북부산3.1℃
  • 구름많음거제3.4℃
  • 맑음영천0.8℃
  • 흐림동두천-2.3℃
  • 맑음의령군3.0℃
  • 흐림부여3.4℃
  • 흐림세종1.8℃
  • 흐림서귀포8.7℃
  • 구름많음완도7.5℃
  • 맑음고창3.4℃
  • 구름많음고흥3.6℃
  • 구름많음제주8.8℃
  • 흐림양평-2.3℃
  • 흐림서청주0.9℃
  • 구름많음북강릉2.2℃
  • 구름조금광주4.3℃
  • 구름많음강진군4.1℃
  • 구름많음고산9.3℃
  • 흐림이천-1.7℃
  • 구름많음군산3.0℃
  • 구름많음보은0.9℃
  • 맑음청송군-2.2℃
  • 맑음정읍3.5℃
  • 구름많음진도군7.1℃
  • 흐림태백-3.1℃
  • 흐림수원0.6℃
  • 구름조금여수4.1℃
  • 흐림장수0.3℃
  • 구름많음속초2.9℃
  • 흐림문경0.2℃
  • 흐림대전2.7℃
  • 흐림파주-3.8℃
  • 맑음거창0.2℃
  • 흐림제천-2.3℃
  • 흐림정선군-2.9℃
  • 구름많음안동-0.9℃
  • 구름조금광양시3.8℃
  • 맑음흑산도7.2℃
  • 맑음추풍령0.8℃
  • 맑음울산2.9℃
  • 흐림강화0.0℃
  • 구름많음전주2.1℃
  • 맑음부안3.4℃
  • 눈서울-0.9℃
  • 맑음함양군-0.2℃
  • 맑음합천1.7℃
  • 맑음포항3.1℃
  • 구름조금울진1.1℃
  • 구름조금통영4.4℃
  • 맑음밀양2.8℃
  • 흐림홍천-3.2℃
  • 구름많음강릉2.7℃
  • 흐림홍성0.8℃
  • 맑음순창군1.0℃
  • 맑음진주2.0℃
  • 흐림백령도5.6℃
  • 맑음산청0.6℃
  • 흐림충주-0.3℃
  • 구름많음순천1.4℃
  • 구름조금장흥3.1℃
  • 눈북춘천-5.2℃
  • 흐림서산2.9℃
  • 구름많음김해시3.8℃
  • 구름조금해남6.3℃
  • 흐림원주0.2℃
  • 구름많음양산시4.7℃
  • 맑음남해2.5℃
  • 맑음의성-0.7℃
  • 흐림영주-1.5℃
  • 흐림봉화-2.4℃
  • 구름많음동해2.4℃
  • 흐림인천0.4℃
  • 맑음구미0.6℃
  • 구름조금목포5.0℃
  • 흐림영월-2.9℃
  • 흐림청주2.2℃
  • 맑음울릉도0.7℃
  • 2026.01.12 (월)

워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함"

최은희 / 기사승인 : 2023-05-12 11:39:22
  • -
  • +
  • 인쇄

생성형 인공지능(AI) 채택 범위가 대거 확장되는 가운데, AI 툴의 성능 향상에 필요한 훈련 데이터 관련 문제가 끊이지 않는다. 최근, 미국 유력 매체 워싱턴포스트는 AI 모델 훈련용으로 사용하는 데이터세트에 파시스트 성향의 콘텐츠와 불법 복제 소스 및 악성 소스가 포함되었다는 자체 조사 결과를 발표했다.

문제가 된 데이터세트 중에는 구글이 1,500만 곳 이상의 웹사이트에서 수집하여 검색 엔진의 LaMDA AI와 메타의 대규모 언어 모델인 LLaMA 등을 훈련하는 데 사용된 C4(Colossal Clean Crawled Corpus) 등이 포함되었다.

C4는 공개 접근이 가능하지만, 데이터세트에 포함된 콘텐츠의 정확한 규모 파악은 어려웠다. 비교적 광범위하면서 부적절한 콘텐츠 검토 수준이 우수한 데이터도 포함된 것으로 알려졌다. 해당 데이터세트는 모욕적 언어와 인종 차별성 욕설이 제거된 것으로 추정된다.

하지만 워싱턴포스트는 C4의 부적절한 콘텐츠 및 표현 제거가 표면적인 수준에서만 진행되었다는 점을 확인했다. C4는 영국 일간지 가디언을 포함한 유력 매체의 웹사이트에서 수집한 콘텐츠 0.05%와 위키피디아, 구글 페이턴트(Google Patents)를 비롯한 대규모 데이터베이스, 과학 학술 저널 허브(PLOS) 등에서 수집한 콘텐츠를 포함하였다.

반면, 백인 민족주의 세력 웹사이트인 VDARE과 극우 성향의 주요 뉴스 웹사이트 중 한 곳인 브라이트바트(Breitbart)에서 수집한 콘텐츠도 포함된 것으로 확인됐다. 러시아 국가 주도 선동광고 웹사이트인 RT도 C4의 훈련 데이터를 제공한 사실도 밝혀졌다.

수집된 데이터 모음 분석을 분석한 비영리 단체인 커먼 크로울(Common Crawl)은 검색에서 제외해 달라는 요청을 존중한다고 밝혔지만, 명시적으로 포함에 동의한 사이트는 거의 없었다.

그러나 공정한 사용 수준의 한계를 넘어서는 경우도 발견됐다. 이전에 Bookzz로 알려졌던 b-ok.org는 2022년 미국 연방수사국(FBI)이 압수하기 전까지 전자책 불법 복제판의 방대한 저장소였다. 그런데도 C4 데이터베이스에는 해당 사이트의 콘텐츠가 남아있다.

한편, 영국 일간지 가디언은 워싱턴포스트의 조사 결과를 전하며, 이미지 생성 AI 툴로 유명한 스타트업인 스테이빌리티 AI(Stability AI)가 최근 대규모 언어 모델인 스테이블LM(StableLM)을 공개한 사실에 주목했다. 스테이빌리티 AI 측은 스테이블LM의 규모가 기존 언어 모델보다 3배 더 크며, 투명성과 신뢰도를 위해 오픈소스를 채택했다고 밝혔다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue