长篇介绍:什么是“预期进球”以及什么是“真实射门率”
我几乎在每篇跟数据有关的文章里,都会提到一个数据点——“真实命中率”。评论区也有朋友问我这个数据是什么,我也想科普一下。这其实就牵涉到一个问题:
如何量化一名球员的射门能力?媒体对待这个问题一直采取一种非常简单粗暴的办法:看进球数。进球数虽然简单,但在有水平差异的情况下,它还是有意义的。但问题在于:我们无法从进球数上看出每一次射门的难度有多大,因此也无法判断球员在每一次射门中“克服难度”的程度有多好。例如,下面两个进球的难度显然有很大不同:但按照传统的说法,它们的价值是一样的,都是1个进球:
当然,媒体会通过“十大进球”之类的节目给予谢尔维的世界波更高的评价。但每一次射门的难度可能都不一样。我们单纯地选取10次甚至100次“精彩射门”,“进球数”还远远不足以衡量大样本中多名球员的射门表现。而且,我们并不知道一名球员在打进一粒世界波之后还有多少次射门失误,或者还有多少次其他射门失误。因此,最好的办法是将每一次射门的难度量化,这样才能对射门本身的质量给出更公正的评价。好消息是,我们有“预期进球”(Goal,一般缩写为XG)这个数据。
其实这并不是什么新鲜数据,微博上很多博主甚至会在赛后立即更新每场比赛双方的预期进球数,当然他们大多会将其翻译成“进球期望值”(不过我看不出这两种翻译有什么本质区别)。其实这个数据有很多版本,不同数据公司的算法略有不同,具体算法大多没有公布。微博网站上使用的算法大多来自于贴吧,而它的姊妹网站给出了一个大概的方向:它参考了射门的位置(包括距离和角度)、射门前的传球情况(是否是传中、传了多少次球、是否是截球后立即进攻等因素)、控球情况(是否是带球、是否是门将、是否是OPTA定义的“绝佳机会”)等,结合近期的十万次射门,用大数据计算出“射门发生前,这次射门得分的概率”——注意,是在射门发生前,换句话说,它量化了“射门的难度”。比如刚刚给出的两粒进球:凯恩的门前射门预期进球数为0.77,而谢尔维的世界波预期进球数只有0.07。
当然,作为“射门前”的数据,预期进球数无法考虑一些意外情况,比如下面这个球,由于防守队员阻截得异常严密,预期进球数仅为 0.01,但反弹后球的轨迹却十分奇怪,守门员都来不及反应,皮球就飞向了横梁:
到了这一步,我们无需担心未公开的算法是否值得信赖,因为就算数据公司想告诉你具体的公式,他们也做不到。这个大数据算法可能根本就不靠谱,根本就没有办法形成具体的公式。当这些数据产生之后,我们要做的就是思考如何使用它,其实它的根本性质“量化射门难度”已经指明了它的使用方向:有了难度量化,那么就一定有办法量化“克服难度的能力”。我们只需要在样本量足够大的情况下,用实际每次射门进球数和预期进球数,就能得到一名球员的“克服难度的能力”。
因此,我想出了“真实射门得分率”这个概念——之所以这么命名,纯粹是因为我不知道该怎么命名。公式为:“真实射门得分率=(实际射门得分率)”由于每次射门的实际进球数只有0和1两种可能,而预期进球数,即使我们取两位小数,也有99种可能,所以这个算法中最大的变量就是预期进球数。显然,少量的高难度射门不会带来太大影响,但一旦进球,则是巨大的加分项;反之,总是进一些保姆球或者点球,那么最终的真实射门得分率也不会太高。
当然,除了极少数可以忽略不计的乌龙球,射门其实是足球场上进球的唯一途径;而且足球没有24秒规则,所以比赛双方的进攻机会可能并不平等。更多的射门也很重要。对于一个射手来说,产出和质量是最能考虑到的两个维度。因此,我们在量化的时候,也要注意射门次数的叠加——注意,对于一个优秀的射手来说,射门越多越好,虽然我们无法量化“产出”和“质量”之间的关系。除此之外,还有一个重要的因素,就是“上场时间”。
接下来我们通过三张散点图来简单清晰的看一看本赛季英超(16轮)、西甲(15轮)、意甲(15轮)谁的射门次数最多,样本选取给出前30名射门。
第一张图片告诉你谁是英超最佳射手
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
其实英超普遍射门次数不会太多,射门次数最多的阿奎罗,每90分钟也只有4.14次射门。而在整个联赛中,能兼顾射门产量和质量的,只有瓦尔迪,严格意义上来说,他的射门次数并不算多,但真实射门得分率却高达夸张的16.54%(梅西上赛季还不到8%)。当然,这个数据肯定会调回来,但即便大幅下降,也依然是一个极高的数字。这也就不难理解,为何他的总出场时间长达1547分钟,最终却积累了17粒进球。
值得注意的是,位于纵轴顶端的阿里和谢尔维之所以能出现在这份榜单上,很大程度上是因为样本量小、门槛低,导致数据“失真”。谢尔维至今只有19次射门,阿里进球更少,只有12次,那些打进一两球的罕见射门对真实射门得分率的影响非常恐怖,比如阿里和谢尔维的以下两次射门,预期进球率分别只有0.15和0.07:
当然,这样的进球,尤其是谢尔维的进球,不太可能持续很长时间。当然,也有可能谢尔维接下来很少射门,因此他的真实射门率会保持在极高的水平。不过,当我们在30轮之后再看,很有可能两人会因为进球数太少而被直接排除在考虑范围之外。
另外,我还要提醒大家两点:第一,最终决定进球数的因素,除了射门准度和射门权,第三个变量“上场时间”也很重要;第二,我们的图表只关注射门,其他量化,像盘带、传球等进攻环节,都不在考虑范围之内。这两点其实有一个共同的典型案例,那就是孙兴慜。韩国王者每90分钟的射门次数和真实射门得分率其实相比上赛季都有所下降,而射门难度基本没变。真正导致本赛季产量增加的,是作为绝对主力,他本赛季的上场时间暴涨;同时,他肩负的持球、推进等重任,与这张图无关。
第二张图告诉你谁是西甲最佳射手
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
在西甲联赛中,梅西无疑是表现最好的球员,他不仅输出最高,质量也排在榜单第二位,其中他18.00%的真实射门得分率是最恐怖的,前面我们提到过,谢尔维的真实射门得分率只有19.16%,要知道梅西的射门数可是谢尔维的两倍。
事实上,梅西最终以一球之差超越本泽马,暂时登顶西甲射手榜,得益于他真实射门率的巨大优势——两人90分钟射门次数相差无几,位列西甲前两位。从出场时间上看,本泽马遥遥领先,而梅西只不过是在高难度射门上更自信一些。
其实,之前梅西的射门准度虽然不错,但也没有这么高,之所以这两年他突然暴涨,就是我在《数据告诉你,梅西蜕变后的升华》一文中说过的,梅西这两年射门和任意球都有所提升,尤其是后者,每进一球都是巨大的加成,比如下面两粒进球的预期进球数分别只有0.07和0.05个,显然,梅西的真实射门命中率加成巨大:
同样值得关注的还有苏亚雷斯和本泽马,两人的射门频率和单位时间内的射门准确率都差不多,两人3球差距的主要原因是本泽马的出场时间比苏亚雷斯多了300分钟。但如果我们对比两人近5年的数据,就会发现,他们一个在上升,一个在下降。我们将两人近4年的数据做成散点图,分别进行分析:
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
显然,苏亚雷斯整体上确实在下滑,15-16赛季是他“质”与“量”平衡的典范,MSN组合在那个赛季也十分抢手,而随着内马尔的离开,苏亚雷斯所能获得的射门机会直线下降,而他自身的射门准度,即便不看数据,这两年也已经调回原位,其实相对来说,本赛季他的状态有所提升,这一点也是现场可见的。
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
本泽马的情况就不一样了,他在15-16赛季也达到了质与量的巅峰,但随后却迅速溜走,尤其是17-18赛季,他飘在外线做一些“助攻”,宁死不肯进球。离开禁区的做法其实对球队和自己都是一个陷阱。要知道那时的贝尔已经失去了首发位置,C罗一个人在禁区里西甲球队分布图,本泽马“空出禁区”是没有意义的,他不擅长远射,射门次数和射门准度都创下“双低”。不过,本泽马的聪明之处就在于他善于自我总结。从18-19赛季开始,他仿佛一夜之间意识到“我就是中锋”,结合C罗离队打开封盖的机会,不断向禁区内钻,在禁区内触球频率创下新高的同时,也增加了射门的产量和质量。
还有一个人必须提到——格列兹曼。格列兹曼在过去几个赛季的真实射门率上堪称超神级,放眼世界足坛,恐怕没人比格列兹曼更懂“中产高效率”这句话的含义。此人几乎不会尝试什么极高难度的射门,但一旦中等难度的射门摆在面前西甲球队分布图,他基本都会轻松接住,不到鸭子熟三分不放手。不过本赛季环境突变,格列兹曼经常依靠自己并不擅长的爆发力在左路谋生,要求他用左脚保持非常高的真实射门率有点难,5.07%的真实射门率如果能保持到赛季结束西甲球队分布图,还是一个不错的数字。
第三张图片告诉你谁是意甲最佳射手
(横轴为每90分钟射门次数,纵轴为真实射门得分率,点越大代表上场时间越长)
在意甲,目前能够兼顾产出和质量的无疑是位居射手榜首位的希罗·因莫比莱。他在纵轴上看起来并不是那么领先,纯粹是因为西奥和若昂·佩德罗的样本量较小。而且因莫比莱和瓦尔迪相似之处在于,他们都出场时间很多,在射门权、准确度和时间的综合作用下,进球数很高。此人远射并不多,大部分射门都在禁区内,这对真实射门得分率的积累不太有利,毕竟所有的射门都离球门很近,这意味着预期进球数会增加。但因莫比莱本赛季有一项绝活:擅长在被封堵的情况下射门,这对于真实射门率的正向加成是不可忽视的。比如,下面这个球的预期进球数仅为0.11:
另一个重点自然是C罗。我知道他现在的处境不太好。从图表上看,他本赛季在联赛中的表现确实有些“高产低效”,真实射门得分率甚至已经跌入负值。这里必须要说的是,虽然偶尔的一两次远射不会对真实射门得分率造成太大影响,但如果尝试太多,累积起来就会成为相当大的负面因素。本赛季,C罗的射门选择确实显得有些不合理,远射太多。下面是一张图表,展示了本赛季迄今为止C罗在联赛中的射门分布:
说实话,这里的远射实在是太多了,有些甚至分布在边路。这些选择确实值得怀疑。比如下面这两次射门的预期进球只有 0.02 甚至 0.00(不适合你)。确实,一旦你射对了,奖金是巨大的;但偶尔这样做是可以的,但尝试太多就另当别论了:
其实,C罗可以主动做出一些调整,比如更多地去门前——别小看门前对真实射门得分率的累积效应,要知道,决定每次射门预期进球数的因素,可不只是距离球门的远近,角度、接传球的方式甚至射门位置都会有很大影响,虽然下面的球距离球门很近,但防守球员的对抗和干扰,加上角度阻挡,再加上是侧射、传中和头球(通常这两个要素被认为不是很利于进球),只贡献了0.09个进球给C罗,这是一笔巨大的加分:
当然,我并不是说一个球员的存在要服务于某种高级数据,而是说,既然这种射门已经被参考过往数十万次射门的大数据算法定义为进球概率只有9%,那么,就意味着这种射门其实非常难。而C罗就非常擅长这一点。所以,他更合理的做法显然是发挥自己的特长,多去门前射门。
不过需要注意的是,C罗近几年的职业生涯呈现出了极其奇怪的趋势,似乎在他年满30岁之后,开始在一个赛季里刻意调整自己的身体分布,联赛初期C罗的射门准度基本一直不好,后期会有修正;更重要的是,他在欧冠赛场上的表现要比联赛好很多,我们将C罗近五个赛季在联赛和欧冠赛场上的真实射门得分率整理成了柱状图,以便对比:
说实话,C罗在欧冠和联赛中的表现差距确实很大,我不想用“关键时刻大心脏”这种毫无根据的词汇来形容,因为一来联赛同样至关重要,二来我们也没有球员激素分泌的数据,没有一手资料去研究球员心态的变化。三来如果把所谓的关键时刻全部筛掉,样本量太小,就失去了量化的意义。这时候谈心态,连隔河观火都算不上。只能凭着这份履历猜测:或许本赛季C罗还能在欧冠和联赛中制造巨大的反差。
其实,无论我们怎么分析,都要注意一个客观事实:把所有球员放在一起比较的数据模型,并没有考虑到球员的年龄,C罗已经快35岁了,如果我们把这个不同年龄段的球员全部聚集到一起进行考核,很有可能无法画出一幅完整的图景,因为绝大多数人这个时候都很难进入榜单。总有一天,你会老去;你会从一个热血青年变成看着下一代长得健壮,然后擦干汗水继续工作,为妻儿多挣几百块钱,暂时压抑住年轻时的诸多梦想。我们会老,而职业生涯更短的运动员又何尝不会呢?
所以,一方面我相信C罗一定能适当调整射门准度,但另一方面我也清楚,有些东西其实可以用来研究和珍惜,但并不适合用来“勒索”,球队的偶像劳尔,35岁还远赴卡塔尔踢球。