CWN(CHANGE WITH NEWS) - 데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

  • 구름많음추풍령15.8℃
  • 구름많음백령도18.2℃
  • 구름조금철원17.3℃
  • 구름조금경주시17.3℃
  • 구름많음해남18.9℃
  • 구름조금광양시21.4℃
  • 구름조금포항21.7℃
  • 구름조금영덕17.6℃
  • 맑음양산시19.6℃
  • 구름많음보은16.9℃
  • 구름많음제주23.1℃
  • 구름많음영천17.5℃
  • 맑음북부산19.3℃
  • 구름많음고산22.7℃
  • 맑음울진18.1℃
  • 구름많음영월16.5℃
  • 구름많음세종19.6℃
  • 구름많음고흥18.5℃
  • 구름조금의성16.6℃
  • 구름많음고창군18.1℃
  • 구름조금서산18.0℃
  • 구름조금의령군15.7℃
  • 흐림양평19.2℃
  • 구름조금수원19.2℃
  • 흐림군산19.4℃
  • 구름많음정선군15.7℃
  • 흐림이천18.6℃
  • 구름많음영주16.6℃
  • 구름많음파주17.0℃
  • 구름많음인제17.1℃
  • 구름많음강진군20.0℃
  • 구름많음성산21.8℃
  • 흐림동두천17.8℃
  • 구름많음거창15.4℃
  • 구름많음홍천18.8℃
  • 구름많음고창18.7℃
  • 구름많음장흥20.3℃
  • 구름조금북창원20.9℃
  • 구름많음태백13.8℃
  • 구름많음문경16.9℃
  • 구름많음부여19.1℃
  • 구름많음강화15.5℃
  • 흐림보성군21.7℃
  • 흐림서청주19.0℃
  • 구름많음홍성19.3℃
  • 구름조금밀양18.6℃
  • 구름많음장수14.8℃
  • 구름많음남해20.1℃
  • 구름많음동해18.8℃
  • 구름많음여수22.7℃
  • 구름조금보령19.3℃
  • 맑음울산19.7℃
  • 구름많음인천19.1℃
  • 구름많음서울20.4℃
  • 구름많음거제18.6℃
  • 구름많음북춘천18.0℃
  • 구름조금상주18.3℃
  • 구름조금목포21.6℃
  • 흐림정읍19.7℃
  • 구름많음영광군18.6℃
  • 구름조금흑산도20.2℃
  • 구름많음순천16.1℃
  • 구름조금강릉21.6℃
  • 구름조금완도20.8℃
  • 흐림충주18.5℃
  • 구름조금속초21.2℃
  • 흐림제천15.9℃
  • 구름조금김해시20.4℃
  • 구름많음순창군19.2℃
  • 구름많음전주20.4℃
  • 구름많음창원21.0℃
  • 흐림원주19.3℃
  • 흐림부안19.8℃
  • 구름많음통영20.9℃
  • 구름많음청주22.2℃
  • 구름많음춘천18.4℃
  • 구름많음금산18.4℃
  • 맑음부산22.4℃
  • 구름많음광주20.3℃
  • 구름많음청송군15.4℃
  • 맑음대구20.6℃
  • 구름많음대관령13.5℃
  • 흐림천안19.3℃
  • 구름많음진도군17.3℃
  • 구름많음임실18.4℃
  • 구름많음서귀포23.6℃
  • 구름조금함양군16.8℃
  • 구름조금구미18.7℃
  • 구름조금진주16.9℃
  • 구름많음합천17.7℃
  • 구름조금안동19.1℃
  • 구름조금산청17.5℃
  • 구름많음대전21.1℃
  • 구름많음남원17.8℃
  • 구름많음북강릉20.5℃
  • 구름많음봉화14.8℃
  • 구름조금울릉도19.9℃
  • 2025.10.01 (수)

데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

최정인 / 기사승인 : 2022-05-16 22:17:45
  • -
  • +
  • 인쇄

디지털화를 중심으로 한 산업 변화에 따라 데이터 과학이라는 학문의 중요성이 부각되었다. 그와 동시에 데이터 과학 분야를 학습하면서 데이터 과학자로 취업하려는 이들도 증가했다. 데이터 과학자가 되려면, 어떤 능력을 길러야 할까? 인도 IT 전문 잡지 애널리틱스가 전문 데이터 과학자에게 필요한 5가지 역량을 아래와 같이 설명했다.

1. 수학
기본적으로 데이터 과학자는 통계와 확장성, 선형대수, 다변수 미적분학 이론을 숙지해야 한다. 주요 개념으로는 평균값, 중앙값, 최빈값, 최대 가능도 방법, 표준 편차, 분산 등이 있다. 또한 베이즈 정리, 확률분포함수, 중심극한정리, 기댓값, 표준 오차, 확률 변수, 독립 시행 등의 이론도 알고 있으면 좋다.

2. 프로그래밍
데이터 과학 분야에서 자주 활용하는 언어는 파이썬이다. 다목적 객체 지향 언어인 파이썬은 앱과 웹사이트에 간단하게 활용하기 좋아, 데이터 과학계에서 선호하는 언어이다. 데이터 과학자 상당수가 매일 파이썬을 사용한다. 현재 파이썬은 데이터 과학 분야에서 R을 능가하고 최고의 인기 언어로 자리매김했다.

3. 분석툴
SQL, 스파크(Spark), 후프(Hoop), 하이브(Hive), 피그(Pig) 모두 데이터에서 귀중한 분석 결과를 추출하고, 빅데이터 처리 과정에 효과적인 프레임워크를 제공하는 분석 기술이다.

데이터베이스 관리 시스템과의 관계를 보자면, SQL은 데이터 보관과 쿼리, 변경 역할을 한다. 스파크는 구조화되지 않은 다량의 정보와 함께 실행하는 처리 엔진이며, 하둡(Hadoop)과 연계된다. 하둡은 아파치 소프트웨어 재단(Apache Software Foundation)이 제공하는 오픈소스 프레임워크로, 여러 대의 컴퓨터에서 다량의 데이터 처리 과정을 분산한다.

4. 머신러닝
기업이 관리하는 데이터가 많을수록 머신러닝을 운영 과정에 일상적으로 활용할 확률이 높다. 데이터 과학자에게 딥러닝이나 데이터 엔지니어링 학습, 자연어 처리 과정 이해 등은 필수가 아니다. 하지만 다량의 데이터를 다루고자 한다면, 관련 용어를 자주 접하게 되므로 이를 이해하는 것이 좋다.

5. 데이터 랭글링
여러 자원을 통해 데이터를 수집했다면, 정리가 필요한 형태의 데이터도 일부 포함되었을 것이다. 데이터 랭글링은 코딩 언어를 바탕으로 하면서 누락된 정보와 문자열 형식화, 데이터 형식화 등 데이터 결점 정리를 위한 작업이다.

데이터 과학자라면, 지금까지 설명한 5가지 분야의 기초를 터득해야 한다. 특히, 데이터 과학자 취업 경쟁이 치열해지는 상황에서 경쟁에서 살아남기 위해 기술적 능력과 기술 이외의 협업 능력과 같은 역량 모두 놓쳐서는 안 된다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue