워싱턴포스트 ＂AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함＂

워싱턴포스트 "AI 시스템 훈련 데이터세트, 파시스트 성향·악성 콘텐츠 포함": 최은희 / 기사승인 : 2023-05-12 11:39:22

생성형 인공지능(AI) 채택 범위가 대거 확장되는 가운데, AI 툴의 성능 향상에 필요한 훈련 데이터 관련 문제가 끊이지 않는다. 최근, 미국 유력 매체 워싱턴포스트는 AI 모델 훈련용으로 사용하는 데이터세트에 파시스트 성향의 콘텐츠와 불법 복제 소스 및 악성 소스가 포함되었다는 자체 조사 결과를 발표했다.

문제가 된 데이터세트 중에는 구글이 1,500만 곳 이상의 웹사이트에서 수집하여 검색 엔진의 LaMDA AI와 메타의 대규모 언어 모델인 LLaMA 등을 훈련하는 데 사용된 C4(Colossal Clean Crawled Corpus) 등이 포함되었다.

C4는 공개 접근이 가능하지만, 데이터세트에 포함된 콘텐츠의 정확한 규모 파악은 어려웠다. 비교적 광범위하면서 부적절한 콘텐츠 검토 수준이 우수한 데이터도 포함된 것으로 알려졌다. 해당 데이터세트는 모욕적 언어와 인종 차별성 욕설이 제거된 것으로 추정된다.

하지만 워싱턴포스트는 C4의 부적절한 콘텐츠 및 표현 제거가 표면적인 수준에서만 진행되었다는 점을 확인했다. C4는 영국 일간지 가디언을 포함한 유력 매체의 웹사이트에서 수집한 콘텐츠 0.05%와 위키피디아, 구글 페이턴트(Google Patents)를 비롯한 대규모 데이터베이스, 과학 학술 저널 허브(PLOS) 등에서 수집한 콘텐츠를 포함하였다.

반면, 백인 민족주의 세력 웹사이트인 VDARE과 극우 성향의 주요 뉴스 웹사이트 중 한 곳인 브라이트바트(Breitbart)에서 수집한 콘텐츠도 포함된 것으로 확인됐다. 러시아 국가 주도 선동광고 웹사이트인 RT도 C4의 훈련 데이터를 제공한 사실도 밝혀졌다.

수집된 데이터 모음 분석을 분석한 비영리 단체인 커먼 크로울(Common Crawl)은 검색에서 제외해 달라는 요청을 존중한다고 밝혔지만, 명시적으로 포함에 동의한 사이트는 거의 없었다.

그러나 공정한 사용 수준의 한계를 넘어서는 경우도 발견됐다. 이전에 Bookzz로 알려졌던 b-ok.org는 2022년 미국 연방수사국(FBI)이 압수하기 전까지 전자책 불법 복제판의 방대한 저장소였다. 그런데도 C4 데이터베이스에는 해당 사이트의 콘텐츠가 남아있다.

한편, 영국 일간지 가디언은 워싱턴포스트의 조사 결과를 전하며, 이미지 생성 AI 툴로 유명한 스타트업인 스테이빌리티 AI(Stability AI)가 최근 대규모 언어 모델인 스테이블LM(StableLM)을 공개한 사실에 주목했다. 스테이빌리티 AI 측은 스테이블LM의 규모가 기존 언어 모델보다 3배 더 크며, 투명성과 신뢰도를 위해 오픈소스를 채택했다고 밝혔다.