KBO리그의 샘플 사이즈 – 투수 편
입력 : 2019.01.14기사보내기 :  트위터  페이스북
기사 첨부이미지
[스포탈코리아] KBO리그의 샘플 사이즈 그리고 스트라이크 존과 KBO리그의 ‘샘플 사이즈’ 재고찰. 필자가 야구공작소에서 ‘샘플 사이즈’와 관련해서 다룬 두 가지 글이다. MLB 데이터를 기반으로 발전한 세이버메트릭스는 삼진, 볼넷 그리고 홈런 관련 수치가 적은 표본으로도 빠르게 수렴한다는 것을 발견했다. 첫 글은 그런 분석과 달리 KBO리그 타자들이 볼넷을 얻어내는 비율이 상대적으로 안정적이지 않은 점을 밝혔다. 두 번째 글에서는 타자들의 스윙을 하는 성향이 일관적이지 않은 것이 그 원인일 수 있다는 점을 다뤘다.

타석 단위에서 살핀 첫 번째 글과 달리 두 번째 글이 조금 더 세부적인 단위를 살폈지만, 타자를 다뤘다는 점에서 둘은 같았다. 이젠 투수에 대해 논의할 차례다.


두 가지 업데이트

데이터와 방법론이 소소하게 바뀌었다. 4월에 다루었던 타자 편에서는 2009년에서 2017년까지의 9년간의 데이터를 참고했다. 그 사이 2018시즌은 완료되었다. 따라서 이번 글에서는 2009년에서 2018년까지 10년 동안의 데이터를 활용할 수 있었다.

방법론의 변화는 조금 복잡하다. 이전 글에서는 모든 데이터를 한데 섞었다. 극단적으로 표현하자면 2009년의 선수 A와 2017년의 선수 A가 같은 선수라고 가정한 것이다. 물론 A는 같은 사람이지만, 선수로서는 꼭 그렇지만은 않다. 자연스러운 성장과 노화, 혹은 급작스러운 부상으로 인해 선수의 폼은 종종 변화한다. 선수가 택하는 타격 어프로치나 투구 전략 등도 시간이 지남에 따라 바뀔 수 있다(예컨대 신임 타격코치의 조언으로 타자가 이전보다 적극적인 스윙을 가져갈 수도, 삼진을 목표로 하던 투수가 이른바 ‘맞춰 잡는’ 쪽을 택할 수도 있다). 2014년을 기점으로 KBO리그가 갑작스레 타고투저의 성향을 띠게 된 것도 간과할 수 없다.

선수가 바뀌지 않을 만한 기간(예컨대 한 시즌)으로 구분할 수도 있지만, 이는 표본의 부족이라는 한계를 갖는다. 144경기 체제에서 한 팀의 주전 타자는 타석에서 대략 500타석, 많아야 600타석 정도만 소화한다. 투수는 규정이닝을 소화해야 비로소 600타자를 넘게 상대한다. 임의의 두 데이터 세트(예컨대 각각 300타석씩)로 나누어 그들 사이의 결정계수(R^2)를 구해야 하므로 ‘많지 않은 선수들’의 ‘총 600타석’ 수준의’ 데이터는 연구에 있어 큰 제약이다.

이와 같은 문제를 해결하기 위해 MLB의 샘플 사이즈를 구한 러셀 칼튼은 두 시즌 단위로 분석함으로써 타협을 봤다. 그러나 KBO리그는 MLB보다 경기 수가 적고, 팀 또한 1/3규모에 불과하다. 따라서 이 글에서는 10년 치 데이터를 5년 단위로 구분했다. 다시 말해 2009년에서 2013년까지 5년 간의 선수 A와 2014년에서 2018년까지 5년 간의 선수 A를 각각 다른 선수로 상정했다. 아래는 갱신된 데이터와 방법론으로 계산한 샘플 사이즈다.



<표1 – 타자> (각 수치는 R^2 값)


*삼진, 볼넷, 홈런, 출루율은 타석 단위 / BABIP은 인플레이타구 단위 / 타율, 장타율, 순장타율은 타수 단위




<그래프1 – 타자>


이전의 결과와 비교했을 때 대동소이하다. 여전히 (삼진, 홈런과 비교했을 때 특히) 볼넷의 느린 안정화 속도가 가장 뚜렷한 특징이다. 안정화가 이전 분석보다 조금 빨라진 것은 앞서 짚은 시간의 영향, 리그 성격의 변화 등의 간섭을 줄였기 때문으로 보인다.


투수에 대한 선행 연구

KBO리그 투수의 결과를 보기 전에 2013년에 러셀 칼튼이 한 선행 연구를 짚고 넘어갈 필요가 있다. 아래는 그가 기고한 글에서 몇 가지 수치들의 각각 ‘충분히 안정된 시점’을 가져온 것이다. 세이버메트릭스의 베이스캠프격인 삼진이 역시 가장 앞서 있다. 땅볼 및 뜬공 비율 또한 70개 이상의 타구로 충분히 선수의 본 모습을 예측할 수 있었다. 그 뒤를 볼넷이 잇는다. 그러나 ‘Three True Outcome’, 즉 ‘세 가지 진실된 결과’ 중 하나로 일컬어지는 홈런은 투수들에 있어 유효성이 떨어진다. 타자에 있어서 빠르게 수렴했던 것과는 상반된 결과다.

탈삼진 – 70타석

땅볼 비율 – 70타구

뜬공 비율 – 70타구

볼넷 허용 – 170타석

피출루율 – 540타석

피장타율 – 550타석

피안타율 – 630타석

피순장타율 – 630타석

피홈런 – 1320타석

BABIP – 2000타구



그래서 투수는?



<표2 – 투수>





<그래프2 – 투수>


위는 KBO리그의 투수들을 토대로 구한 결과다. 러셀 칼튼이 구한 값들과 비교할 때는 절대적인 수치보다 상대적인 속도에 집중해야 한다(아쉽게도 필자에게 주어진 데이터는 ‘인필드 플레이로 인한 아웃’을 세분화하지 않아 땅볼과 뜬공 비율은 구할 수 없었다).

눈여겨볼 점은 타자와 비교했을 때 투수의 안정화 양상이 전반적으로 더디다는 점이다. 이는 세이버메트릭스에서 몇 차례 나온 단언들과 궤를 같이 한다. ‘야구는 투수놀음’이라는 클리셰와 달리, 타석의 결과와 타구의 질을 결정짓는 데는 타자의 영향이 조금 더 크게 작용한다 (단 주의할 점은 ‘조금 더’라는 부분이다. 투수의 영향이 타자에 ‘조금’ 못 미칠 뿐, 수비나 구장 등의 요소보다는 훨씬 중요하다).

그러나 KBO리그 투수들에게 있어 삼진과 볼넷은 나름 빠르게 안정되며, 이른바 ‘진실된 결과’에 가까운 모습이었다. 그에 따라 지난 4월에 지적한 KBO리그 타자들만의 특징은 여전한 의문으로 남게 되었다. 투수가 삼진과 볼넷을 내주는 것은 비교적 빠르게 본 모습으로 수렴하는 반면 타자가 삼진과 볼넷, 특히 볼넷을 얻어내는 것은 상대적으로 더뎠다.

첫 글에서 필자는 타자의 볼넷이 안정적이지 못한 이유로 일관적이지 못한 스트라이크 존을 꼽았다. 만약 존의 일관성이 문제였다면, 투수들이 삼진 및 볼넷을 내주는 것 또한 불안정하게 나타났을 것이다. 그러나 투수들의 볼넷 허용 여부가 안정적으로 나타나면서 우리는 다른 원인을 찾아 보아야 한다. 혹시 타자들의 성향(부상 여부에 따른 폼 차이, 주자 상황에 따른 스윙의 차이, 그때그때 타석에서 택하는 전략의 차이 등등)이 시시각각 달라지는 것일까? 이제야 겨우 고민이 시작된 만큼 많은 후속 연구가 필요할 것이다.


야구공작소
박광영 칼럼니스트 / 에디터=서주오, 나유민, 박기태


*참조: Baseball Therapy – Should I Worry About My Favorite Pitcher?

오늘 많이 본 뉴스