우리가 이용할 수 있는 통계 패키지는 다양하다. SPSS, SAS, R, STATA 등 매우 많은 통계 패키지가 있다. 그중에서 가장 많이 사용되는 통계 패키지 4개를 소개해보고자 한다.
1. SAS
SAS는 가장 유명한 통계 프로그램 중 하나다. 기업과 기관에서 통계학 수치를 산출할 때 다양한 기능을 가지고 있어 현재도 많이 쓰인다. 하지만, 프로그램 비용이 매우 비싸다. 학생 혹은 개인이 부담하기에 부담스러운 가격이다. 또한, 설치 용량이 크며, 다양한 모듈은 별도로 구매해야 한다.
최신 알고리즘, 기술 반영이 느린 편이며 학습 자료를 입수하는 데 질의를 위한 공개 커뮤니티가 없어, 유료 도서 위주를 통해 문제를 해결해야 한다.
2. SPSS
SPSS도 매우 유명한 프로그램이다. SPSS는 프로그래밍을 따로 배우지 않아도 GUI 인터페이스가 구축이 잘 되어 있어 접근하기 편하다. 긴급하게 통계분석을 해야 하거나 간단하게 결과를 도출하고자 한다면 SPSS 사용이 적합하다. SPSS는 사회과학에서 자주 쓰인다.
그러나 SPSS 또한 고가의 프로그램 비용이 발생하고 용량이 매우 크기 때문에 불편함을 겪을 수 있다.
3. R
R 언어는 대표적인 통계 프로그램이다. 앞서 언급한 SAS와 SPSS와는 달리 오픈소스이기 때문에 무료로 사용할 수 있고 모듈화로 설치 용량이 간단하다. 최근 알고리즘 또한 매우 빠르게 반영되고 공개 커뮤니티가 있어 질의가 있을 때 해결이 가능하다.
R 언어는 각 세션 사이마다 시스템에 데이터셋을 저장하므로 매번 데이터를 로딩할 필요가 없고 명령어 스토리도 저장할 수 있다. 윈도우, 맥, 리눅스 운영체제에서 사용할 수 있다.
통계 기능뿐만 아니라 일반 프로그래밍 언어처럼 자동화거나 새로운 함수를 생성해 사용할 수 있다. R 언어는 코딩을 해야 하는 부담이 있다. 코딩이 어렵다는 단점 때문에 SAS보다 상용화되지 못했다.
4. 파이썬
파이썬은 본래 전통적인 통계 프로그램은 아니었다. 하지만, 문법이 매우 쉬워 프로그램에 입문하는 초보들도 매우 쉽게 배울 수 있다는 장점이 있어 트렌드 언어로 떠오르고 있다. 배우기 쉽고, 빠르게 마스터할 수 있으면서 광범위하게 활용할 수 있다는 장점이 있다.
사실, 파이썬은 원래 통계 프로그램이 아니므로 통계를 전문으로 하는 SAS, R이 더 나을 수도 있다. 그러나 파이썬에도 NUMPY, SCIPY 등 통계, 수학 등을 지원하는 라이브러리가 존재한다. 또한, 회귀분석 및 시계열 분석부터 머신러닝, 딥러닝에도 활용할 수 있다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]