아마추어 야구 애호가부터 저명한 통계학자까지, 수학과 야구에 관심이 많은 사람들은 야구에 관한 재미있는 글을 발표해왔다. 야구 통계 분석과 관련된 몇 가지 이야기를 소개한다.

클러치 히터는 존재하는가?

클러치 히터(Clutch Hitter)는 득점이 필요한 국면의 상황에서 타율이 높은 타자를 의미한다. 야구 애호가들은 주자가 누에 있을 때, 또는 팀이 꼭 득점해야 하는 절체절명의 순간에 크게 활약하는 선수들을 좋아한다. 한편, 그런 상황에서 쥐약을 먹은 듯 맥을 못 추는 선수도 있다. 정말 중요한 상황에서 잘하거나 못하는 선수가 따로 존재하는 것일까?

통계적으로 분석한 결과, 클러치 히터는 존재하지 않는다고 밝혀졌다. 피트 파머는 1980년대 활약이 돋보였던 330명의 선수를 대상으로 승부 국면에서의 타율과 그렇지 않을 때의 타율을 비교했다. 그는 타율의 변인들을 정규화해 표준 정규 곡선을 그려 분석을 시도했다. 클러치 히터가 단순히 그러한 국면의 상황에서 운에 의해 결정되는 무작위적인 과정이라면 종 모양의 곡선이 나오겠지만, 잘하거나 못하는 능력이 일부 타자들에게 존재한다면 종 모양의 곡선이 나오지 않을 것이다.

분석 결과 통계학자들의 주장대로 종 모양의 표준 정규 곡선이 그려졌다. 결국, 클러치 히터는 행운의 여신의 든든한 지원을 받는 타자였던 것이다.

홈구장이 더 승률이 높다?

미국의 통계학자 폴 M. 스미스는 p-값 이론(p-term Theorem)과 카이 제곱 검정법(Chi-squared test)을 통해 월드시리즈(우리나라의 경우 한국시리즈)에서 홈구장이 더 승률이 높다는 것을 밝혔다.

p-값 이론에서는 어떤 가설하에 일어나는 단일사건이 p라는 확률로 일어날 때, 단일사건이 연속적으로 일어나는 어떤 상황이 발생할 확률을 p-값으로 정의한다. 일반적으로 p-값이 0.05보다 작으면 가설이 통계적으로 의미가 있다고 말한다. 카이제곱 검정은 표준 정규 확률변수 값들의 제곱 합을 통해 어떤 사건이 일어날 기대값이 의미가 있는지 판별하는 방법이다.

월드시리즈는 7경기를 2-3-2 방식으로 치르게 되는데, 처음 2경기를 홈(원정)구장, 다음 3경기를 원정(홈)구장, 남은 2경기를 다시 홈(원정)구장에서 치른다. 4경기를 먼저 이기면 우승하는 방식이다.

스미스는 각 팀이 홈에서 치르는 경기 중 첫 경기인 1, 3, 6차전에서 상당한 홈구장 이점이 작용했음을 보였다. ‘먼저 홈에서 1, 2차전을 치르는 팀이 유리한가’에 대해서는 이제껏 먼저 홈경기를 치른 팀이 우승한 비율이 58%에 달했으므로 확실히 유리한 면이 있다고 밝혔다.

투 스트라이크 상황에서는 더 신중하게?

폴 M. 스미스는 1986년 월드시리즈 7경기의 투구 하나하나를 꼼꼼히 분석했다. 분석 결과 투 스트라이크 이전 상황에서 타자가 치지 않은 투구는 880개 중 325개,  약 36.9%가 스트라이크였던 것으로 드러났다. 반면, 투 스트라이크 상황에서는 196개 중 26개인 약 13.3%만이 스트라이크였다. 여기서 관찰된 차이가 무작위로 발생할 p-값이 약 8.0×10-8에 지나지 않기 때문에 이러한 차이는 통계적으로 의미가 있다고 볼 수 있다.

즉, 이러한 차이는 우연에 의한 것이 아니라, 타자가 투 스트라이크 상황에 몰릴 때 공을 훨씬 신중하게 보게 되기 때문이라고 판단할 수 있다. 물론 완벽한 선구안을 가진 타자는 절대 스트라이크를 놓치지 않는다는 가설이 필요하다. 그래도, 실제 타자들은 보통 초구나 풀카운트 상황을 제외하고는 자신이 원하는 공이 올 때까지 기다리기 때문에 완벽한 선구안을 가졌다는 가설에 가깝다고 할 수 있다.

저작권자 © 카이스트신문 무단전재 및 재배포 금지