CWN(CHANGE WITH NEWS) - 데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

  • 흐림수원20.4℃
  • 구름많음남원20.1℃
  • 구름많음세종21.6℃
  • 맑음영덕19.1℃
  • 맑음보은18.2℃
  • 구름조금거창17.1℃
  • 구름많음진주19.2℃
  • 구름많음순창군20.4℃
  • 맑음통영22.8℃
  • 구름많음북강릉20.6℃
  • 맑음경주시19.9℃
  • 구름조금구미20.6℃
  • 흐림춘천21.1℃
  • 구름많음이천19.7℃
  • 맑음부산23.6℃
  • 구름조금군산21.0℃
  • 흐림서산19.8℃
  • 구름많음서청주20.7℃
  • 흐림북춘천19.8℃
  • 흐림강화16.9℃
  • 맑음임실18.4℃
  • 맑음영천20.2℃
  • 맑음보성군20.1℃
  • 맑음목포22.3℃
  • 맑음함양군19.3℃
  • 맑음광주22.8℃
  • 구름많음울릉도20.9℃
  • 맑음청송군17.8℃
  • 맑음완도21.6℃
  • 맑음남해21.6℃
  • 구름많음천안21.6℃
  • 구름많음고창20.6℃
  • 구름조금정선군17.0℃
  • 맑음순천18.1℃
  • 구름많음서귀포25.1℃
  • 맑음밀양20.9℃
  • 구름많음성산21.9℃
  • 맑음금산19.1℃
  • 맑음대구22.8℃
  • 맑음영주19.2℃
  • 구름조금부여21.8℃
  • 구름조금흑산도21.1℃
  • 구름많음창원23.1℃
  • 구름많음청주23.7℃
  • 맑음대전21.4℃
  • 맑음상주19.8℃
  • 구름많음북창원23.8℃
  • 구름많음홍천19.9℃
  • 구름조금원주20.5℃
  • 맑음장수16.7℃
  • 구름조금부안21.1℃
  • 맑음해남21.0℃
  • 맑음충주18.8℃
  • 맑음문경17.8℃
  • 구름조금대관령15.8℃
  • 구름많음합천20.0℃
  • 흐림서울21.7℃
  • 흐림인제18.2℃
  • 맑음고흥20.0℃
  • 맑음봉화16.6℃
  • 맑음울산21.0℃
  • 흐림동두천20.6℃
  • 구름조금영월18.1℃
  • 구름조금강릉23.3℃
  • 맑음포항22.8℃
  • 맑음전주22.0℃
  • 맑음진도군18.9℃
  • 구름조금울진20.3℃
  • 구름많음파주19.0℃
  • 맑음강진군23.0℃
  • 맑음의성19.0℃
  • 맑음안동20.1℃
  • 구름많음김해시22.3℃
  • 구름많음양평20.6℃
  • 구름많음산청19.6℃
  • 맑음장흥19.4℃
  • 흐림제주24.3℃
  • 구름조금백령도18.1℃
  • 구름많음보령20.4℃
  • 구름조금동해19.8℃
  • 구름많음정읍20.9℃
  • 구름많음고창군20.3℃
  • 구름많음의령군18.8℃
  • 흐림고산23.3℃
  • 흐림홍성22.5℃
  • 구름많음철원20.5℃
  • 구름많음거제20.4℃
  • 구름많음영광군20.3℃
  • 흐림속초23.0℃
  • 맑음여수23.4℃
  • 구름많음양산시21.9℃
  • 맑음추풍령17.6℃
  • 맑음광양시22.9℃
  • 구름조금제천17.2℃
  • 흐림인천19.2℃
  • 맑음태백15.7℃
  • 구름많음북부산21.7℃
  • 2025.10.01 (수)

데이터 과학자, 경쟁력 강화하려면 이 5가지 능력은 필수

최정인 / 기사승인 : 2022-05-16 22:17:45
  • -
  • +
  • 인쇄

디지털화를 중심으로 한 산업 변화에 따라 데이터 과학이라는 학문의 중요성이 부각되었다. 그와 동시에 데이터 과학 분야를 학습하면서 데이터 과학자로 취업하려는 이들도 증가했다. 데이터 과학자가 되려면, 어떤 능력을 길러야 할까? 인도 IT 전문 잡지 애널리틱스가 전문 데이터 과학자에게 필요한 5가지 역량을 아래와 같이 설명했다.

1. 수학
기본적으로 데이터 과학자는 통계와 확장성, 선형대수, 다변수 미적분학 이론을 숙지해야 한다. 주요 개념으로는 평균값, 중앙값, 최빈값, 최대 가능도 방법, 표준 편차, 분산 등이 있다. 또한 베이즈 정리, 확률분포함수, 중심극한정리, 기댓값, 표준 오차, 확률 변수, 독립 시행 등의 이론도 알고 있으면 좋다.

2. 프로그래밍
데이터 과학 분야에서 자주 활용하는 언어는 파이썬이다. 다목적 객체 지향 언어인 파이썬은 앱과 웹사이트에 간단하게 활용하기 좋아, 데이터 과학계에서 선호하는 언어이다. 데이터 과학자 상당수가 매일 파이썬을 사용한다. 현재 파이썬은 데이터 과학 분야에서 R을 능가하고 최고의 인기 언어로 자리매김했다.

3. 분석툴
SQL, 스파크(Spark), 후프(Hoop), 하이브(Hive), 피그(Pig) 모두 데이터에서 귀중한 분석 결과를 추출하고, 빅데이터 처리 과정에 효과적인 프레임워크를 제공하는 분석 기술이다.

데이터베이스 관리 시스템과의 관계를 보자면, SQL은 데이터 보관과 쿼리, 변경 역할을 한다. 스파크는 구조화되지 않은 다량의 정보와 함께 실행하는 처리 엔진이며, 하둡(Hadoop)과 연계된다. 하둡은 아파치 소프트웨어 재단(Apache Software Foundation)이 제공하는 오픈소스 프레임워크로, 여러 대의 컴퓨터에서 다량의 데이터 처리 과정을 분산한다.

4. 머신러닝
기업이 관리하는 데이터가 많을수록 머신러닝을 운영 과정에 일상적으로 활용할 확률이 높다. 데이터 과학자에게 딥러닝이나 데이터 엔지니어링 학습, 자연어 처리 과정 이해 등은 필수가 아니다. 하지만 다량의 데이터를 다루고자 한다면, 관련 용어를 자주 접하게 되므로 이를 이해하는 것이 좋다.

5. 데이터 랭글링
여러 자원을 통해 데이터를 수집했다면, 정리가 필요한 형태의 데이터도 일부 포함되었을 것이다. 데이터 랭글링은 코딩 언어를 바탕으로 하면서 누락된 정보와 문자열 형식화, 데이터 형식화 등 데이터 결점 정리를 위한 작업이다.

데이터 과학자라면, 지금까지 설명한 5가지 분야의 기초를 터득해야 한다. 특히, 데이터 과학자 취업 경쟁이 치열해지는 상황에서 경쟁에서 살아남기 위해 기술적 능력과 기술 이외의 협업 능력과 같은 역량 모두 놓쳐서는 안 된다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue