정보통신 사회가 빠르게 발전함에 따라 우리 주변엔 셀 수 없이 방대한 규모의 데이터들이 생산되고 있다. 이렇게 다양하고 방대한 규모의 데이터들은 산업혁명 시기의 석탄처럼 미래 경쟁력의 우위를 좌우하는 중요한 자원으로 활용될 수 있다는 점에서 주목받기 시작하였다.
이후, 빅데이터는 민간 기업, 정부 등을 포함한 다양한 분야에서 연구가 이루어졌고 관련 직업 또한 여러 개 등장하였다. 가장 잘 알려진 직업으로는 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트 등이 있다.
모두 같은 직업이라고 생각할 수 있으나, 주어진 업무와 자주 쓰는 툴 모두 다르다. 하지만, 아직 데이터 분석 직군에 대한 명칭이 정립되지 않아 인터넷에서 혼용되는 경우가 많고, 기업 채용 글에서도 기업마다 다르게 쓰는 등 헷갈리는 경우가 많다.
따라서 오늘은 세 직업의 특징과 업무를 비교해보며 데이터 관련 직종을 꿈꾸는 학생들이 더 구체적인 목표를 정할 수 있도록 정리해보는 시간을 가져보려고 한다.
1. 데이터 엔지니어
데이터를 수집하고 관리하며 유지하는 직업이다. 매일같이 쏟아지는 엄청난 양의 데이터를 체계적으로 수집하고 관리하며, 의사결정을 내리기 위해 데이터가 필요할 경우 적합한 핵심 데이터를 찾아내어 전달하는 일을 담당한다. 따라서 데이터를 수집하고 관리, 처리하는 인프라 툴인 Hadoop(아파치 하둡), MapReduce(맵리듀스) 또는 데이터베이스를 다루는 MySQL 등에 능숙해야 한다.
2. 데이터 분석가
가장 오래전부터 존재했던 직업으로 통계를 활용한 분석이라는 전통적 분석가에 가장 부합한 직업이다. 엔지니어가 수집한 데이터를 기반으로 분석, 처리, 요약하며 이를 차트 및 그래프로 나타내어 데이터 보고서를 설계하기 때문에 MS Excel(엑셀), SPSS(통계 툴)를 잘 다뤄야 한다.
데이터 분석가는 ‘비즈니스 서포터’라는 말이 적절하며, 클라이언트의 요구에 맞는 결과를 제공하는 커뮤니케이션 능력이 필요하며, 결과를 상대방에게 쉽게 전달할 수 있는 시각화 능력 또한 중요하다.
3. 데이터 사이언티스트
데이터 분석가의 작업을 수행할 수 있으면서, 코딩 및 수학적 모델링 전문 지식까지 보유한 개발에 좀 더 집중된 직업이다. 간단히 말하자면, 데이터 분석가와 데이터 엔지니어를 합쳐 놓았다고 할 수 있다.
알고리즘을 활용하여 통계분석 수준을 넘어선 정확도와 분석력을 목표로 하여, 대량의 데이터로부터 인사이트를 뽑아내 데이터 모델링을 위한 새로운 프로세스를 개발한다. 데이터를 다루는 스킬과 데이터를 분석해 의미를 도출하는 여러 스킬에 능하며, 다양한 업무를 담당할 수 있어야 하므로 Apache Spark(아파치 스파크), Python(파이썬), 머신러닝, 통계 등 여러 툴을 다룰 수 있어야 한다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]