구장의 특성이 기록에 미치는 정도를 파악하기 위한 알고리즘 (Park Factor)

  1. 개요
    • 바닷바람이나 경기장 팬스의 높이, 경기장의 크기, 해발고도에 따른 공기의 희박성이 공의 움직임에 영향을 미치는 영향을 판단.
    • 득점만 고려하면 적용에 한계가 있었고, 계산 방식도 다소 문제점이 있었습니다.
    • 득점, 단타, 2루타, 3루타, 홈런, 실책, 삼진, 볼넷 등을 모두 구해 다양하게 적용했습니다.
  2. 알고리즘
    • BIP(Balls In Play) : 타수 - (삼진+볼넷)
    • BHF(Base Home Factor) 기본 공식
      [(해당팀의 홈구장에서 해당 팀의 홈런+피홈런)/BIP]/[(해당 팀의 홈구장을 제외한 구장에서 해당 팀의의 홈런+피홈런)/BIP]
    • BHF의 수정
      [(해당팀의 홈구장에서 해당 팀의 홈런+피홈런)/BIP]/[1/8(해당 팀의 홈구장을 제외한 구장에서 해당 팀의 홈런+피홈런)/BIP+7/8(해당 팀의 홈구장을 제외한 구장을 제외한 구장에서 해당 팀의 홈런+피홈런)/BIP]
      • 분모를 중립 구장으로 맞추는 과정 추가(함께 홈구장을 사용할 때는 2/8, 8/6의 weight 적용)
    • IPF : (A구장 BHFA구장 경기수/전체 경기수)+(B구장 BHFB구장 경기수/전체 경기수)+(B구장 BHF*B구장 경기수/전체 경기수)+…
    • APF : 각 구단의 IPF 총합 / 구단수
    • 최종 적용 팩터 : IPF / APF

데이터 준비 및 기능 추출

스포츠 결과 데이터의 특징은 몇 가지의 subnet으로 나눌 수 있다. 데이터를 매치 관련과 외부적 특징으로 구분하자면, 예를 들면 매치관련 특징은 패스와 골의 횟수, 외부 특성은 출장, 경기에 사용할 수 있는 선수 등을 예시로 들 수 있다. 이러한 구분은 데이터 사전 처리 목적에 중요한데, 외부 경기는 사전에 알 수 있고 매치관련 특징은 경기가 끝날 때까지 알 수 없다. 따라서, 데이터에 사용될 매치관련 특징은 과거 경기들의 평균적인 특징들만 알 수 있다. 매치관련 형상은 외부 형상과 재결합하기 전에 별도의 평균화 과정을 거쳐야 한다. 실험을 통해 지난 20경기 동안 평균을 사용하는 것이 최고의 분류 정확도를 가져온다는 것이 그간 연구를 통해 발견했다. extracting_data

의문사항

  1. 연도별 편차가 있어 신뢰성에 문제가 있습니다. 꼭, 적용할 필요가 있을까?
    • 신뢰성을 보다 높이기 위해 해당 연도 근처의 최대 5년치 기록을 이용해 팩터를 구했습니다. 어떤 기록도 완벽할 수는 없습니다. 팩터가 100%의 신뢰도를 보장할 수는 없지만, 팩터를 적용하는 것이 적용하지 않는 것보다 합리적일 가능성이 높다면 가치있는 적용이 될 것입니다.
  2. 선수의 개성을 고려하지 않고 모두 일괄적으로 적용되지 않는가?
    • 세부 기록별로 보면 그렇습니다. 다만, 예전과 달리 여러 기록에 나누어 적용하기 때문에 일정 부분은 고려될 수 있습니다. 구장을 쓰고 홈런을 많이 치는 타자의 경우 홈런 개수는 늘어날 것이고, 반대로 3루타를 많이 치는 타자의 경우 3루타 개수는 줄어들 것입니다. 때문에 같은 홈구장을 쓰는 선수라도 조정 wOBA에 어떤 선수는 상승하고, 어떤 선수는 하락할 수도 있습니다.
  3. 특정 팀에 홈런 타자가 많으면 그 구장의 홈런 팩터가 높게 나오지 않나요? 홈런 팩터가 높은 것은 구장탓도 있지만, 거포가 많았기 때문 아닌가?
    • 계산 과정을 자세히 보시면 팀 전체의 홈런 개수가 늘어난다고 해서 꼭 팩터가 늘어난다고 볼 수는 없습니다. 팀 선수들이 원정에서 홈런 치는 비율 보다 홈에서 홈런 치는 비율이 높을 때 팩터는 늘어납니다.

문제점

알고리즘을 백엔드 프록시서버에 적용시켰을 시 연산 시간이 너무 오래걸려 응답시간이 느려진다. 그렇기 때문에 NUGU 스피커에서 이 분셕 결과를 제공하는 데에는 문제가 있다.