
디지털화를 중심으로 한 산업 변화에 따라 데이터 과학이라는 학문의 중요성이 부각되었다. 그와 동시에 데이터 과학 분야를 학습하면서 데이터 과학자로 취업하려는 이들도 증가했다. 데이터 과학자가 되려면, 어떤 능력을 길러야 할까? 인도 IT 전문 잡지 애널리틱스가 전문 데이터 과학자에게 필요한 5가지 역량을 아래와 같이 설명했다.
1. 수학
기본적으로 데이터 과학자는 통계와 확장성, 선형대수, 다변수 미적분학 이론을 숙지해야 한다. 주요 개념으로는 평균값, 중앙값, 최빈값, 최대 가능도 방법, 표준 편차, 분산 등이 있다. 또한 베이즈 정리, 확률분포함수, 중심극한정리, 기댓값, 표준 오차, 확률 변수, 독립 시행 등의 이론도 알고 있으면 좋다.
2. 프로그래밍
데이터 과학 분야에서 자주 활용하는 언어는 파이썬이다. 다목적 객체 지향 언어인 파이썬은 앱과 웹사이트에 간단하게 활용하기 좋아, 데이터 과학계에서 선호하는 언어이다. 데이터 과학자 상당수가 매일 파이썬을 사용한다. 현재 파이썬은 데이터 과학 분야에서 R을 능가하고 최고의 인기 언어로 자리매김했다.
3. 분석툴
SQL, 스파크(Spark), 후프(Hoop), 하이브(Hive), 피그(Pig) 모두 데이터에서 귀중한 분석 결과를 추출하고, 빅데이터 처리 과정에 효과적인 프레임워크를 제공하는 분석 기술이다.
데이터베이스 관리 시스템과의 관계를 보자면, SQL은 데이터 보관과 쿼리, 변경 역할을 한다. 스파크는 구조화되지 않은 다량의 정보와 함께 실행하는 처리 엔진이며, 하둡(Hadoop)과 연계된다. 하둡은 아파치 소프트웨어 재단(Apache Software Foundation)이 제공하는 오픈소스 프레임워크로, 여러 대의 컴퓨터에서 다량의 데이터 처리 과정을 분산한다.
4. 머신러닝
기업이 관리하는 데이터가 많을수록 머신러닝을 운영 과정에 일상적으로 활용할 확률이 높다. 데이터 과학자에게 딥러닝이나 데이터 엔지니어링 학습, 자연어 처리 과정 이해 등은 필수가 아니다. 하지만 다량의 데이터를 다루고자 한다면, 관련 용어를 자주 접하게 되므로 이를 이해하는 것이 좋다.
5. 데이터 랭글링
여러 자원을 통해 데이터를 수집했다면, 정리가 필요한 형태의 데이터도 일부 포함되었을 것이다. 데이터 랭글링은 코딩 언어를 바탕으로 하면서 누락된 정보와 문자열 형식화, 데이터 형식화 등 데이터 결점 정리를 위한 작업이다.
데이터 과학자라면, 지금까지 설명한 5가지 분야의 기초를 터득해야 한다. 특히, 데이터 과학자 취업 경쟁이 치열해지는 상황에서 경쟁에서 살아남기 위해 기술적 능력과 기술 이외의 협업 능력과 같은 역량 모두 놓쳐서는 안 된다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]