
알고리즘 훈련은 자율주행 기술의 안전 주행 능력을 최대화하기 위한 필수 조건 중 하나이다. 실제 주행 현장에 나서기 전 주행 현장에서 직면한 여러 상황을 담은 데이터를 활용해 적절한 대처 방법을 완벽히 학습하여야 한다. 그런데 실제 주행 데이터 대신 다른 데이터를 이용한다면 어떨까?
영국 일간지 가디언이 합성 데이터를 이용해 차량 알고리즘을 훈련하는 스타트업이 증가하는 추세라고 보도했다. 모두 운전자가 졸음을 느끼는 상황을 감지하는 데 활용할 가짜 인간 아바타를 대거 생성하는 등 이른바 가짜 데이터로 차량의 인공지능(AI) 시스템을 훈련한다.
그 대표적인 기업인 신테티스 AI(Synthesis AI)와 데이터젠(Datagen) 모두 합성 데이터 생성 과정에 상세한 얼굴 스캔 결과와 센서로 포착한 움직임 데이터 등 전신 3D 스캔 이미지를 활용한다. 이후 여러 각도에서 변경하여 인간 아바타의 3D 이미지 수백만 개를 생성한다. 데이터는 시뮬레이션 상황에 따라 여러 가지 행동을 보여주는 비디오 게임의 캐릭터와 같은 모습을 구현한다.
만약, 운전자가 졸음을 느끼는 상황을 감지하는 데 활용할 합성 데이터를 생성하고자 한다면, 모션 캡처와 3D 애니메이션, 그 외 비디오 게임 및 애니메이션 영상 제작 기술로 졸음을 느끼는 운전자 아바타를 제작해, 졸음운전 예방에 적합한 데이터를 완성한다.
합성 데이터 사용 시 기존 딥러닝 알고리즘의 복잡한 문제를 다수 줄일 수 있다. 일반적으로 기업은 자율주행 기술 알고리즘을 훈련할 때, 다량의 현실 세계 데이터를 처리한다. 이때, 영상은 AI가 자동 분류하지 않는다. 저임금 노동자가 모든 영상을 하나씩 확인하고 주어진 조건에 따라 분류한다.
반면, 합성 데이터는 훈련 데이터 처리 및 분류 과정에 소요되는 시간과 비용을 줄일 수 있다. 게다가 현실 세계의 데이터가 유색인종 등 특정 인구 집단의 행동과 얼굴 인식 능력이 현저히 낮다고 입증된 사실을 고려하면, 합성 데이터는 AI 개발 과정의 오래된 골칫거리인 편견 문제 제거에 도움이 될 수 있다.
그동안 AI의 차별 및 편견 문제가 끊임없이 제기된 주된 이유 중 하나는 소수 민족 집단의 데이터가 현저히 적었기 때문이다. 이에, 데이터젠 등 합성 데이터 제작 기업은 그동안 소외된 집단의 특성을 담은 캐릭터로 합성 데이터를 생성한다. 즉, 소수 민족 등 소외 집단의 데이터와 나머지 집단의 데이터 격차를 줄이면서 정보 인식률 차이를 좁힐 수 있을 것으로 기대된다.
하지만 자동차 업계에서는 합성 데이터를 자율주행 기술의 정확도와 안전 향상에 활용하는 것이 가장 중요하다. 기존 접근 방식은 운전 영상을 오랜 시간 촬영하고 딥러닝에 주입한다. 변수가 없는 일반적인 상황에서 제법 원활한 도로 주행이 가능한 차량을 제작하는 데는 큰 문제가 없었다.
그러나 자동차 업계가 오랫동안 어려움을 겪은 부분은 수백만 시간 분량의 데이터에서도 찾아보기 어려운 예상치 못한 변수 대응 능력이다. 주행 중인 차량 앞으로 갑자기 사람이나 애완동물이 달려들 때나 반대편 차량이 운전자를 향해 달려와 충돌 위험성이 발생할 확률이 높은 상황 등을 언급할 수 있다.
합성 데이터는 예상하지 못한 상황을 제한 없이 생성할 수 있다. 웨이모는 지난해 미국 온라인 테크 매체 더버지와의 인터뷰에서 현실 세계 주행 데이터는 단 2,000만 마일 보유했으나 총 150억 마일 거리의 가상 시뮬레이션 기반 주행 데이터를 생성했다.
이 때문에 실제로 웨이모(Waymo), 크루즈(Cruise), 웨이브(Wayve) 등 자율주행 차량 개발사가 자율주행 기술 훈련을 위해 현실 세계의 데이터뿐만 아니라 가상 세계의 시뮬레이션을 담은 데이터에도 의존하는 추세이다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]