CWN(CHANGE WITH NEWS) - ‘가짜 데이터 과학자’를 구분하는 8가지 특징

  • 맑음진도군7.7℃
  • 비청주-0.7℃
  • 흐림양평1.5℃
  • 맑음경주시4.8℃
  • 흐림서청주-0.7℃
  • 흐림영월-1.4℃
  • 맑음영덕7.8℃
  • 흐림인천1.0℃
  • 맑음장수0.9℃
  • 맑음봉화-1.7℃
  • 안개대전0.7℃
  • 흐림철원-1.1℃
  • 맑음보령2.6℃
  • 맑음청송군-0.2℃
  • 맑음북부산7.9℃
  • 맑음통영8.5℃
  • 맑음흑산도10.5℃
  • 흐림세종-0.1℃
  • 흐림정읍-1.2℃
  • 맑음광양시8.5℃
  • 맑음합천1.7℃
  • 박무북춘천-1.0℃
  • 맑음김해시8.0℃
  • 안개전주0.2℃
  • 박무수원1.7℃
  • 맑음성산13.2℃
  • 비홍성-0.7℃
  • 맑음고산15.2℃
  • 흐림원주1.1℃
  • 맑음태백0.1℃
  • 맑음추풍령2.8℃
  • 맑음밀양5.0℃
  • 맑음서귀포14.4℃
  • 흐림정선군-1.0℃
  • 맑음문경2.0℃
  • 맑음의령군1.9℃
  • 맑음진주4.0℃
  • 흐림임실-0.6℃
  • 흐림부여-0.1℃
  • 맑음순천3.3℃
  • 맑음고흥7.1℃
  • 박무백령도4.0℃
  • 맑음고창군-0.5℃
  • 흐림천안-0.1℃
  • 연무울산7.7℃
  • 맑음해남3.8℃
  • 맑음고창-0.3℃
  • 맑음여수7.2℃
  • 맑음보성군6.4℃
  • 흐림동두천0.1℃
  • 맑음목포2.4℃
  • 흐림남원-1.3℃
  • 흐림보은-2.1℃
  • 연무포항7.7℃
  • 구름조금완도7.4℃
  • 흐림제천0.4℃
  • 맑음북강릉8.8℃
  • 맑음제주12.2℃
  • 흐림이천1.3℃
  • 연무대구4.5℃
  • 맑음남해7.1℃
  • 맑음부산13.0℃
  • 흐림군산0.6℃
  • 맑음대관령-0.9℃
  • 흐림춘천-0.7℃
  • 맑음북창원7.8℃
  • 흐림부안0.6℃
  • 맑음산청0.4℃
  • 흐림충주-0.4℃
  • 박무안동0.6℃
  • 맑음강진군3.5℃
  • 흐림홍천0.1℃
  • 맑음창원7.5℃
  • 흐림강화-0.6℃
  • 맑음속초7.9℃
  • 맑음동해8.2℃
  • 맑음영주0.7℃
  • 맑음장흥3.6℃
  • 맑음강릉8.3℃
  • 맑음거제8.4℃
  • 맑음양산시6.6℃
  • 흐림서산-0.3℃
  • 박무광주3.0℃
  • 맑음거창0.8℃
  • 맑음의성-0.3℃
  • 흐림파주-0.5℃
  • 흐림인제0.6℃
  • 맑음울릉도8.7℃
  • 흐림금산-1.4℃
  • 맑음영광군-0.3℃
  • 맑음함양군2.0℃
  • 박무서울1.7℃
  • 맑음영천2.6℃
  • 맑음상주0.5℃
  • 맑음구미2.7℃
  • 맑음울진8.2℃
  • 흐림순창군-1.7℃
  • 2026.01.16 (금)

‘가짜 데이터 과학자’를 구분하는 8가지 특징

이진영 / 기사승인 : 2019-08-20 17:49:41
  • -
  • +
  • 인쇄

데이터 과학자는 최근 가장 매력적인 직업 중 하나이다. 그래서인지 실제로 기술을 가지고 있지 않더라도 스스로를 ‘데이터 과학자’라고 부르려는 사람들이 많다. 많은 사람들이 단지 그들이 ‘데이터를 다루기 때문에’ 스스로를 데이터 과학자라고 부르는 경우가 많다. 이것은 데이터 과학자를 고용하려는 사람들이 진짜 데이터 과학자를 분별하는 것을 어렵게 만드는데, 진짜 데이터 과학자와 가짜는 어떤 차이점을 가지고 있을까?

가짜 데이터 과학자를 구분하기 위해선 고용자가 데이터 과학자, 데이터 분석가, 데이터 엔지니어 등에 대한 차이점을 파악하고, 올바른 질문을 하는 것이 중요하다. Analytics India Magazine은 가짜 데이터를 구별하는 8가지 특징에 대해 소개했다.

1. 기본적인 통계 개념에 대한 지식이 없는 경우
데이터 과학자를 지망하는 대부분의 사람들은 통계와 머신러닝에 대한 심화 개념을 학습하는 경향이 있다. 하지만 기본적이 통계 기법에 대해서는 미숙하다. 실제 데이터 과학자의 경우 clockwork와 같은 기본적인 통계 개념을 알고 있을 것이다. 가설 검사나 회귀 분석, 이단성 및 확률 분포와 같은 개념을 질문해 보면 그 차이점을 확인할 수 있을 것이다.

2. 데이터 베이스를 이해하지 못하는 경우
통계는 데이터 과학의 일부분이다. 반면 애플리케이션은 실제 데이터 베이스에서 일어나며, 그곳에서 진짜 데이터 과학자인지가 명확히 드러날 것이다. 테이블 결합, 데이터 베이스 쿼리를 가져오는 방법과 같은 개념을 테스트하면 지원자의 강점을 바로 파악할 수 있을 것이다.

3. 코드를 모르는 경우
데이터 과학은 통계, 프로그래밍, 비즈니스 애플리케이션 등 여러 기술의 결합이다. 통계학자가 데이터 과학자가 될 수 있다. 하지만 비즈니스 환경에서 통계를 적용하는 방법을 익히기 전에는 불가능하다. 즉, 코딩은 데이터 과학자에게 필수적인 요소이다. 최소한 R 또는 파이썬 코딩을 할 줄 알아야 문제에 통계 개념을 적용할 수 있지 않은가?

4. 지원자가 비즈니스 적용(business application)을 이해하지 못하는 경우
비즈니스 적용은 데이터 과학에서 필수적인 요소이다. 실제 데이터 과학자들은 비즈니스 문제에 통계 기법을 적용하는 방법을 알고 있는 반면, 단순한 통계학자나 비데이터 과학자들은 이를 이해할 수 없을 것이다. 마켓 바스켓 분석, 코호트 분석, churn 분석, 마케팅 믹스 모델링과 같은 개념을 테스트하거나, 지원자에게 사업상의 문제를 던져주고 데이터 과학을 이용해 해결해달라고 요구해보아라. Python이나 Hadoop을 알고 있는지 물어보는 것보다 사용 사례에 대한 구체적인 질문을 하는 것이 진정한 데이터 과학자를 식별하는 데에 더 효과적일 것이다.

5. 문제해결 능력을 갖추지 못한 경우
문제해결 능력과 분석능력은 데이터 과학자의 필수 기술이다. 면접 과정에서 이러한 능력을 보여주지 못한다면 진정한 데이터 과학자라고 할 수 없을 것이다. 데이터 과학자들은 사람들이 어떻게 생각하고 행동하는지를 판단하기 위해 특정한 방법으로 문제 해결을 진행한다.

6. 지원자를 나타내는 프로젝트가 없는 경우
지원자가 보여주는 프로젝트의 유형과 퀄리티는 그 사람의 배경을 나타내는 표시이다. 그런데 프로젝트를 판단할 때 얼마나 복잡한지 살펴보기보다 비즈니스에 진정한 영향을 미칠 수 있는지에 대해 살펴봐야 한다. 대부분의 ‘비데이터 과학자’들은 그들이 해온 프로젝트들이 얼마나 복잡했는지를 보여주는 경향이 있는데, 대부분의 문제들은 간단한 솔루션으로 해결될 수 있는 경우가 많았다. 프로젝트를 확인할 때에 그 프로젝트가 비즈니스에 어떤 영향을 미쳤는지, 어떻게 구현되었는지, 기존의 프로세스를 어떻게 변경했는지에 대해 질문해라.

7. 지원자가 올바른 질문을 하지 않는 경우
면접 과정에서의 상호작용과 지원자의 질문을 통해 진짜 데이터 과학자인지를 구별할 수 있다. 훌륭한 데이터 과학자는 회사에 대한 질문, 데이터 수집 방법, 팀의 구조, 사용하는 툴과 소프트웨어에 대한 회사의 예산 등에 대해 질문할 것이다. 반면 가짜 데이터 과학자의 경우 이러한 구체적인 질문을 내놓을 만큼 충분히 준비되어있지 않을 수 있다.

8. 쇼케이스 및 네트워킹 부족한 경우
이는 결정적인 요소는 아니지만, 지원자를 판단할 수 있는 핵심 지표 중 하나가 될 수 있다. 데이터 과학자가 LinkedIn과 같은 소셜 네트워킹 사이트에서 다른 데이터 과학자들과 연결되어있는 것은 너무 당연하다. 해당 분야에 대한 네트워크가 너무 적다면 가짜일 가능성이 있다. 또한 데이터 과학은 어려운 기술이기 때문에 대부분의 데이터 과학자들은 해커톤 등을 통해 그것을 보여주고 싶어 한다. 결정적인 요인은 아니지만, 지원자가 해커톤, 워크샵, 컨퍼런스 등에 참석했는지 확인해보는 것이 좋다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue