当资料科学遇上棒球,专访孙玉峰谈赛伯计量学

当资料科学遇上棒球,专访孙玉峰谈赛伯计量学

拥有高大篮球员身材的孙玉峰现在是云深创新股份有限公司研发总监,过去曾在中研院研究生医影像的他,始终对资料科学有莫大的兴趣。孙玉峰曾经获选为微软最有价值专家(MVP),同时也是台湾 R 语言社群的共同主持人。在 2017 年的台湾人工智慧年会上,他端出了「资料科学如何影响运动产业?认识赛伯计量学」这样有趣的题目,这一次科技新报有机会请孙玉峰更深入地谈谈赛伯计量学。

被问到为什幺会开始研究赛伯计量学,足球队出身的孙玉峰腼腆得笑着说,自己原先不太看棒球的,顶多看看国家队比赛,是在约莫 5 年前学长的邀请之下玩起了梦幻棒球(Fantasy Baseball),才开始了解美国职棒大联盟的球员,进而接触 Baseball-reference 和 FanGraphs 这类棒球数据网站,正式踏入赛伯计量学的领域。

赛伯计量学是什幺?能吃吗?

赛伯计量学(Sabermetrics)又称作为棒球统计学,是一项从数据角度分析棒球运动的运动科学,而要讨论赛伯计量学就不得不从棒球资料谈起。在棒球的古老年代只有纪录比赛比数和安打数等基本的数据,到了 1858 年才由体育作家 Henry Chadwick 发明了分数盒子(Box score),较完整的纪录各项比赛数据。有了数据才有可能有后续的资料分析,让后来的赛伯计量学成为可能,而这一切的起点就是美国职棒大联盟。

美国职棒大联盟(Major League Baseball,简称 MLB)最早可以追溯到 1871 年国家联盟成立,后来在 1901 年美国联盟成立之后,两边于 1902 年召开辛辛那提会议协商合併,成为今日 MLB 的雏型。刚开始 MLB 也只有初步的棒球统计,缺乏更进一步的数据分析,直到 1964 年 Earnshaw Cook 发表了 Percentage Baseball 这本书,才让世人了解用数据分析棒球的潜力。Bill James 则在 1977 年开始撰写自己第一版的棒球摘要(The Bill James Baseball Abstract),并每年出版直到 1984 年。这一系列的作品透过数据提出许多新的论点,堪称是让赛伯计量学破茧而出并走向主流的关键,而 Bill James 更是提出赛伯计量学这个名词的第一人。

赛伯计量学已经是棒球运动的显学,甚至成为波士顿大学教授在 Google 办公室的讲题。MLB 早已「上太空」

经过长久的发展,目前 MLB 已经有专业的数据蒐集者和资料蒐集仪器,精细到每一球从出手到进垒的动态和轨迹都详细纪录。除了可以供赛伯计量学分析使用外,动态的轨迹也能做运动力学的方面研究。而谈起 MLB 在这个领域的技术,孙玉峰首推台体大运动资讯传播学系副教授黄致豪曾在资料科学年会所谈到的 Trackman 系统。这款荷兰开发的 Trackman 系统利用三支摄影机做影像定位,追蹤球的移动,可以记录投球和打击的轨迹和结果。这套系统原先是设计来抓高尔夫球轨迹的,但现在每个大联盟的球场都有它的身影,甚至部分小联盟球场都有。日本只有乐天金鹰和东京巨人主场拥有这套系统,台湾则是台体大棒球队所在的台中棒球场有安装。

MLB 在 2015 年开始全面启用以 Trackman 系统为基础的 Statcast 系统,蒐集大量的测量数据,可以更进一步了解球场上的状况。例如以系统即时算出守备时球员的跑动距离,进而推估出该球员的守备範围,甚至利用球员移动时是否採取最短的路径来看出球员判断球落点的準确程度。打击时系统会记录球打击出去的初速和仰角,投球时也会记录球速和放球点等资料。

Statcast 系统已经掀起了棒球运动的革命。进阶数据看棒球

取得数据之后,赛伯计量学能进一步分析计算出可供参考的进阶数据。孙玉峰指出进阶数据可以处理部分额外因素的干扰,会比传统数据更有效的衡量球员。例如在打者数据方面,进阶数据场内被安打率(BABIP)是球打进场内形成安打的机率,能够了解打者是不是纯粹因为运气而影响了打击表现,就能补足传统的打击率会严重受到守备状况和运气影响的缺点;全垒打比飞球的比率则能了解球员的打击型态和力量。投手数据则有着 xFip,只考虑全垒打、触身球、四坏球和三振的数据,因为这些数据不会受到守备因素干扰,能比传统的自责分率(ERA)更精準地呈现投手控制比赛的能力。

孙玉峰也提醒有时不同的数据公司会对同一个数据有不同的计算方式,像是进阶数据中相当重要的 WAR(Wins Avobe Replacement),能够总和打击、防守和跑垒各方面的贡献,但各家公司给予的加权和算法就不一样,因此会出现同一个数据却不同数值的状况。他推荐对棒球进阶数据有兴趣的读者可以逛逛 Baseball-reference 和 FanGraphs 这两个网站,想要简单的了解球员和球员状况的变化都非常实用。

电影「魔球」上映之后引发了一股赛伯计量学的热潮,也让观众看见棒球场外数据派和球探派的针锋相对。但孙玉峰认为两边不一定要是对立的,而是应该各取所需。就如同人工智慧(AI)不是要取代人类而是帮助人类,数据也不是为了取代人类,而是为了补足人类看不见的盲点。

电影「魔球」在 2011 年上映时引起了观众对赛伯计量学和奥克兰运动家队的兴趣。

球探的价值除了在于能观察投球或守备机制等细微的动作外,也能观察球员在场外的表现和非比赛的行为。球探能藉由对球队的喜好和队形的了解,进而针对球技和性格找出适合自家球队的球员。但球探派很容易凭着印象去评断球员,而且可能因为球员在球探观察的场次表现得特别好或不好,就决定球探对球员的判断。如果有了数据的辅助,就能够更完整的了解球员,并处理掉极端的数据,降低失準的机率。因此透过球探和数据的相辅相成,才能够为球队发挥最大效益。

球到底弹不弹?浅谈全垒打暴增的原因

至于受到球迷热烈讨论的「弹力球」问题,孙玉峰则认为可能和打者打击型态改变有关。MLB 近年来掀起了飞球革命,打者偏好把仰角打高。尤其现在不像过去那幺重视打击率,只要上垒率够高就好,追求更多的长打和保送。当越多的打者越往这个方向发展,自然就会造成全垒打数量的增加。

但孙玉峰也表示中华职棒全垒打满天飞的状况就比较难判断,因为这方面的数据中职属于不公开的内部资料。即使曾经有教授做研究时取得了相关资料,但却发现内容有明显的错误,或许可信度并不高。他认为如果要找出是不是因为球的弹力係数改变而造成全垒打数量上升,可能可以比较球的飞行距离,是不是在不同季度有明显的差异。不过实作上因为缺乏这方面的资料,很难真的确认。

就连 2017 年世界大赛也是全垒打满天飞,两队共打出破纪录的 25 支全垒打。何时才能不只在「杀猪公」?

相较于 MLB 近乎黑科技等级的数据系统,中华职棒还被球迷戏称在「杀猪公」的阶段。谈到中职的数据发展还需要多久时间才能追上美国,孙玉峰表示不敢肯定。毕竟目前只有一些去过美国训练的球员和教练有将部分赛伯计量学的观念带回台湾,像是富邦悍将队的总教练叶君璋和中信兄弟队的球探王金勇。

孙玉峰认为可以用美国的例子向球团或联盟说明赛伯计量学的价值,才能带动国内赛伯计量学进一步的发展。例如从经营的角度切入,利用 WAR 去衡量一个球员比平均球员能多带来多少胜场,而一场胜利可以带来多少球迷,球迷可以带来多少门票收入,最终算出一个球员的商业价值和门票收益。藉着对球队相当重要的门票收入解释赛伯计量学可以衡量球员的价值,帮助球队作出适当的交易或开出合理的薪资,让球团更愿意投资资料蒐集的设备。

除了棒球以外孙玉峰也提到其他运动的资料分析,并指出不同运动的特性会影响资料分析的能力。例如相对于棒球而言,篮球运动更容易被少数球员掌控,因此影响比赛的因素就更少。因此篮球发展出一套四因子理论(Four Factors),利用投篮、失误、篮板球和罚球四个要素建立模型,预测比赛结果。孙玉峰也以自身热爱的足球为例,和美式的回合制运动不同,足球相较起来可以累积的数据就比较少,只能从一次次的传导资料去看。过去曾有人研究西班牙甲级足球联赛豪强巴塞隆纳队的传球,纪录传球的轨迹与其他球队比较后,发现巴塞隆纳队的传球模式相当特别,这也是后来闻名全球并帮助西班牙拿下世界盃冠军的「Tiki-taka」战术

一起来算数据,看棒球!

如果对赛伯计量学心痒难耐,但又不知从何下手该怎幺办?实际操作可以从资料和软体两方面谈起。孙玉峰认为现在要投入这个领域已经比过去容易得多,以前要做分析要首先得下苦功蒐集资料,如今资料取得已经相当容易。他个人推荐以 Lahman’s Baseball Database 作为资料来源,这是一个由运动作家 Sean Lahman 所建立的资料库,内容包含从大联盟创立以来保留的所有数据,不只相当完整,而且档案只有不到 100 MB。

当资料科学遇上棒球,专访孙玉峰谈赛伯计量学

孙玉峰邀请大家一起加入赛伯计量学的行列!

目前市面上缺乏供个人使用的专业棒球分析软体,顶多供球团内部使用。孙玉峰表示其实本身有在写程式的人就利用自己习惯的程式语言作分析即可,因为 Lahman’s Baseball Database 可以存成想要做分析的格式,所以只要顺手就好。孙玉峰自己是使用 R 语言,除了本来就习惯之外,R 语言也有不少现成的统计模型可以用。他也说还是习惯最重要,甚至也可以用 Excel 做分析,只要会写公式会捞数据就可以了。

不过孙玉峰笑说开始学会棒球数据分析之后开始会对不专业的球评感到不耐烦,很容易就会发现有些球评没做功课,对球员还停留在既定印象,而没有透过数据跟上球员最新的状态。谈起台湾民间的赛伯计量学,孙玉峰乐观看待,认为有逐渐发展的趋势。他从演讲时听讲的人数和提问的层次可以感觉到实际投入赛伯计量学的人数有所成长,未来甚至有机会可以聚集同好举办小型的读书会或黑客松。相信假以时日,台湾的赛伯计量学也能成长茁壮,让更多人能从数据观点享受这项迷人的运动。

您可能还会对下面的文章感兴趣: