CWN(CHANGE WITH NEWS) - AI의 ′사람 얼굴′ 공부법? 안면 인식 데이터셋 살펴보기

  • 구름많음구미20.0℃
  • 구름많음포항23.9℃
  • 구름많음통영23.8℃
  • 구름많음대구21.9℃
  • 구름많음창원23.4℃
  • 흐림고창군24.4℃
  • 구름많음의성18.6℃
  • 구름많음장흥24.7℃
  • 구름많음북창원23.8℃
  • 흐림경주시22.7℃
  • 구름많음강진군23.1℃
  • 흐림보령25.5℃
  • 구름많음안동20.8℃
  • 구름많음남해23.1℃
  • 흐림춘천20.1℃
  • 구름많음세종22.9℃
  • 구름많음거제24.5℃
  • 흐림청주24.9℃
  • 흐림제천20.2℃
  • 흐림함양군19.7℃
  • 구름많음보은22.2℃
  • 흐림정선군16.5℃
  • 구름많음산청20.4℃
  • 구름많음추풍령18.7℃
  • 흐림양평21.1℃
  • 구름많음양산시24.7℃
  • 흐림이천19.8℃
  • 구름많음북강릉21.0℃
  • 흐림금산21.3℃
  • 구름많음속초21.2℃
  • 구름많음여수24.3℃
  • 흐림수원23.8℃
  • 천둥번개서귀포26.4℃
  • 흐림남원24.0℃
  • 흐림서울24.3℃
  • 구름많음진주21.6℃
  • 구름많음백령도22.9℃
  • 구름많음진도군22.3℃
  • 구름많음거창18.8℃
  • 흐림동두천20.9℃
  • 구름많음청송군18.1℃
  • 흐림울진21.3℃
  • 흐림고창23.8℃
  • 구름많음보성군22.9℃
  • 흐림천안23.1℃
  • 구름조금고흥24.1℃
  • 흐림홍성23.0℃
  • 흐림전주23.7℃
  • 구름많음김해시24.6℃
  • 흐림대전23.2℃
  • 흐림정읍23.4℃
  • 구름많음해남25.0℃
  • 흐림울릉도23.2℃
  • 흐림의령군21.1℃
  • 흐림고산25.7℃
  • 흐림임실22.2℃
  • 흐림인천25.2℃
  • 흐림영광군23.2℃
  • 구름많음문경18.6℃
  • 구름많음목포25.0℃
  • 비제주25.9℃
  • 구름많음동해20.7℃
  • 구름많음영천20.5℃
  • 흐림군산23.5℃
  • 흐림부여22.8℃
  • 구름많음밀양24.3℃
  • 구름많음대관령14.5℃
  • 흐림충주22.3℃
  • 흐림광주23.6℃
  • 구름많음북부산24.7℃
  • 흐림서산23.5℃
  • 흐림원주21.4℃
  • 흐림성산27.1℃
  • 흐림파주20.5℃
  • 흐림봉화17.1℃
  • 흐림태백15.1℃
  • 흐림서청주20.6℃
  • 구름많음영주18.2℃
  • 구름많음흑산도24.5℃
  • 흐림장수18.6℃
  • 흐림영월17.9℃
  • 흐림부안25.1℃
  • 구름많음인제18.0℃
  • 흐림강화22.9℃
  • 구름많음광양시24.2℃
  • 구름많음완도23.1℃
  • 구름많음북춘천19.6℃
  • 구름많음영덕21.3℃
  • 구름많음순천20.0℃
  • 구름많음홍천19.1℃
  • 흐림순창군21.8℃
  • 구름많음강릉21.3℃
  • 흐림합천20.8℃
  • 구름많음상주20.8℃
  • 흐림울산23.4℃
  • 구름많음철원20.0℃
  • 구름많음부산24.4℃
  • 2025.09.12 (금)

AI의 '사람 얼굴' 공부법? 안면 인식 데이터셋 살펴보기

김수현 / 기사승인 : 2021-02-16 22:05:56
  • -
  • +
  • 인쇄

인공지능(AI)에서 말하는 데이터셋(dataset)이란, 기계가 학습을 하는데 필요한 데이터의 집합이다. 좋은 인공지능을 위해서는, 해당 영역에서 고품질 데이터를 모아놓은 학습 데이터가 필수이다. 양적, 질적으로 우수한 데이터셋을 학습한 AI는 편향되지 않으며, 정확도가 높은 결괏값을 만들어낸다.

예를 들어, 바둑 알고리즘을 학습해 바둑 천재 이세돌을 이긴 AI '알파고'는 KGS공개서버에서 운영된 바둑 게임 데이터를 사용했다. 이 중에서도 고수(6단-9단)의 게임만을 사용했으며, 16만 개에 달하는 데이터로 학습했다.

안면인식 AI의 데이터 학습

['안면 인식 응용 서비스', 출처: AI허브]

인공지능을 기반으로 개발된 안면 인식 기술은 최근 비약적 발전을 거쳐, 기존 출입 통제나 범죄 수사뿐만 아니라 금융 결제 및 영상분석 영역까지 확대되고 있다.

그런데, 사람의 얼굴을 판독하는 AI에는 어떤 데이터셋을 사용해야 할까? 예시에 사용된 AI 허브의 '안면인식 응용 서비스' 원본 데이터는 600명의 한국인에게서 인당 32,400장의 이미지를 추출하였고, 총 1900만여 장의 데이터로 이루어져 있다. 포즈 방향, 조명 위치 및 세기, 표정, 해상도 등을 기준으로 분류, 설계된 데이터 베이스이다.

아기의 얼굴을 인식하려면 아기 얼굴 이미지가, 한국인의 얼굴을 인식하려면 한국인 얼굴 이미지가 필요하다. 다양한 연령, 인종만큼이나 다양한 안면 데이터셋. 이 중 몇 가지를 추려 살펴보자.

1. The Asian Face Age Dataset (AFAD)

아시아인의 얼굴을 보고 연령 추정을 위해 만들어진 데이터이다. 모든 데이터는 아시아인의 사진으로 구성됐다. 현재까지 존재하는 가장 큰 데이터셋으로, 16만 개가 넘는 얼굴 이미지와 함께 사진 속 인물의 연령, 성별 라벨이 포함되어 있다. 남, 여 구성비는 약 5:3이며 연령대는 15세에서 40대까지 다양하다.

기존 연령 추정을 위한 공개 데이터로 FG-NET (1002개의 얼굴 이미지), MORPH1(1690개의 얼굴 이미지) 및 MORPH2(55,608개의 얼굴 이미지) 등이 있었으나, 아시아 얼굴에 특화된 형태로 새로 제안되었다. 저자는 Zhenxing Niu, Mo Zhou, Xinbo Gao, Gang Hua 이다.

[AFAD 데이터 셋 예시, 출처: tykimos.github.io/2017/03/25/Dataset_and_Fit_Talk]

[AFAD 데이터 통계, 출처: tykimos.github.io/2017/03/25/Dataset_and_Fit_Talk]

2. IMDB-WIKI
2015년, '연령 추정에 대한 LAP 챌린지'에서 우승한 데이터셋으로, 단일 이미지의 연령 추정을 위해 만들어졌다. 공개된 유명인의 이미지를 IMDb에서 약 46만 개, 위키피디아에서 약 6만 개 크롤링하여 총 50만 개의 데이터셋을 구축했다.

IMDb는 가장 인기 있는 10만 명의 배우 목록에서 생년, 이름, 성별 및 관련 이미지를 크롤링하였고, 동일한 방식으로 위키피디아의 사용자 프로필 이미지를 크롤링했다. 저자는 Rasmus Rothe, Radu Timofte, Luc Van Gool 이다.

[IMDB-WIKI 데이터셋 통계, 출처: data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki]

3. Diversity in Faces (DiF)

2017년, 영국 UEFA 챔피언스 리그 결승전 당시 웨일즈 경찰은 자동 얼굴인식 시스템을 기반으로 범죄용의자를 탐지하겠다는 계획을 세웠다. 하지만, 경기 당일, 시스템은 2,470명에 달하는 사람을 용의자로 지목했으며, 이 중 약 92%가 오인식이었다.

이러한 오인식의 원인으로 얼굴인식 시스템의 편향성을 언급할 수 있다. 또, 이와 관련, 실제로 아프리카계 미국인은 백인보다 5~10% 정도 정확도가 떨어진다는 연구 결과도 있다.

DiF는, 얼굴 인식 기술의 공정성과 정확성 향상을 목표로 IBM 기초연구소에서 2019년 공개한 얼굴 데이터셋이다. 연구팀에 따르면, 실제 얼굴 인식 시스템 성능에 영향을 미치는 것은 '내재적 얼굴의 다양성' 이지, 인식 정확도가 개인이나 집단에 따라 달라질 수는 없다는 입장이다.

데이터셋에는 약 100만 명의 얼굴 데이터가 포함돼 있는데, 각 이미지에는 머리 모양과 얼굴의 대칭, 코의 길이, 이마 높이 등 객관적 얼굴 척도와 함께 연령과 성별 등 주석이 라벨링 되어 있다. 얼굴 부위 47곳 이상의 크기, 특징을 정리해 놓았으며 이와 같은 특징이 알고리즘의 성능을 강력하게 만들고 시스템 공정성, 정확성을 향상시키는 요인이 된다고 한다.

[DiF 데이터 셋 라벨링 예시, 출처: IBM]

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue