영화 ‘머니볼’로 유명해진 데이터 야구의 바람이 한국 프로야구에도 불고 있다. 확률 게임의 대표 주자인 야구의 데이터 용량이 점차 커지면서 이제는 엑셀만으로 데이터 분석을 할 수 없는 상황이 되었다.
이에, R과 파이썬(Python) 등 익숙한 프로그램을 통한 데이터 분석과 함께 ‘세이버 메트릭스’나 투구 추적 시스템(PTS·Pitch Tracking System)과 같은 추가적인 데이터 툴을 이용한 분석이 야구계에서 화제가 되고 있다.
스포츠 데이터 분석의 한 방법인 ‘세이버 메트릭스(sabermetrics)’는 야구에 사회과학의 게임 이론과 수학·통계학적 분석을 도입하여 전략을 세우는 방법론이다. 즉, 타구의 방향, 구속이나 구종과 같은 야구 데이터를 수집하여 회귀분석, 기계학습 등을 통한 빅데이터 분석 과정을 거친 후, 승리를 위한 전략을 내세운다.

우리는 타자의 가치를 판단할 때 타율, 타점이라는 지표를 가장 중요하게 여기는 경향이 있었다. 하지만 야구 데이터를 이용한 분석 결과, 우리가 평소 알고 있던 야구 상식과는 다른 통계적 수치를 얻기도 하여 객관적 데이터 분석의 중요함을 점차 과시하였다.
5년간 메이저리그 경기를 분석한 결과, 타율과 득점의 상관계수(0.672)보다 출루율과 득점의 상관계수(0.835)가 더 높게 나타났으며, 이를 통해 출루율이 타율보다 더 중요한 지표라는 사실을 발견했다. 따라서 최근에는 장타율과 출루율을 더한 수치인 OPS가 새로운 타자 평가 지표로 점차 떠오르고 있다.
또한, 무사 1루에서의 득점 기대치(0.906)가 1사 2루의 득점 기대치(0.7)보다 높다는 통계 수치를 발견했다. 즉, 아웃 카운트 하나를 희생하고 주자를 2루에 갖다 놓는 작전이 득점에 있어서 손해가 될 수도 있다는 사실이다.
이러한 세이버 메트릭스는 기존의 선수를 평가하는 지표보다 더욱 객관적인 평가를 통한 판단을 할 수 있도록 하였으며, 과소평가 되어있었던 지표에도 집중함으로써 야구에 대한 정확한 이해를 추구하며 효율적인 승리 방법을 모색할 수 있도록 도왔다.

메이저리그는 경기에서 수집한 많은 양의 자료를 팬들에게 공개한다. 세이버 메트릭스의 2차 발전 형태라고 불리는 ‘스탯캐스트’는 ‘호크아이’와 ‘카이론헤고’ 장비를 사용하여 경기장 안의 모든 선수와 모든 공의 움직임을 모두 기록하는 시스템이다.
공의 궤적, 회전수와 같은 투구를 추적하는 시스템인 ‘호크아이’는 축구의 비디오 판독(VAR), 배구 국제경기의 VAR 시스템에도 사용되는 장비로 음파를 사용하는 레이더 시스템이다. ‘카이론헤고’는 카메라 비전 방식으로 장비와 야수의 위치와 움직임과 같은 필드 트래킹 데이터를 제공하는 시스템이다.
세이버 메트릭스는 근 20년간 리그 전체 좌타 타석의 30%를 수비 시프트로 수비하도록 만들거나, 엘리트 포수가 평범한 포수보다 100개의 포구 중 3개 이상의 스트라이크를 이끌어 내는 능력이 있다는 사실을 밝혀내는 것과 같이 수많은 정보를 야구계에 남겼다. 이에 세이버 매트리션들은 ‘스택캐스트’를 통해 ‘세이버 메트릭스’에서 얻은 정보 이상의 새로운 발견을 할 것이라고 기대하고 있다.
[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]