We Aint Got No History博客的格雷厄姆·麦克里(Graham MacAree)发表了一篇由3部分组成的系列文章,内容是关于更好的基于玩家的分析的必要性,作为足球分析的下一个发展(第1,2和3部分)。在这个系列中,他利用自己对棒球比赛的深刻理解和比尔詹姆斯的强调,专注于所产生的动作,以便更加关注足球运动员的行动,从而实现目标。他的结论是,我们需要比现在更多的数据来正确评估球场上的行动,因为必须了解防守者的位置,以正确解释拥有球队所采取的行动。除了防御性位置数据之外,MacAree还认为时间元素必须与空间结合,因为某些动作的值随着匹配中的时间而变化。考虑到它所代表的雾化水平,这个想法可以被视为足球的统一理论。它是足球分析社区可以努力实现的雄心勃勃的愿景,但需要更多的处理能力和更多的数据,而不是目前社区可用的数据。 与此同时,实现这一目标的最佳步骤之一是创建一个基于网络的模型,该模型可以为各个团队成员的行动充分分配价值。这种方法本身就是时间和资源密集型的。这些数据是可用的,但它可以从像Opta这样的组中提供的数千个数据库编码事件中获得。解读数据库需要一个计算机科学的背景,并将它拼凑回来,以便形成一个连贯的故事,说明在球场上的活动如何促成比赛的结果需要统计模型的深度知识。然后,这两个背景必须同时存在于足够关心足球的人身上,以将数字理解应用于对这种方法有很大抵抗力的运动。获得这些人的,其中一个团队可以开始分解球员在比赛中对球队结果的实际贡献。其中一个由7人组成的团队在Chimu Solutions工作,其中一个产品是FootballrRating.com。 FootballrRating.com网站背后的算法源自西北大学的Luis Amarals教授实验室围绕2008年欧洲杯比赛。阿马拉尔教授在研究复杂的社会和生物系统方面的背景与他对足球运动的热爱相结合,往往可以将这种复杂的有机系统与未经训练的眼睛进行比较。就像生物和社会系统有许多基本规则可以通过一系列事件来解释他们的大部分结果,足球比赛也是如此。人们必须运用足够的观察和计算能力来找出潜在的趋势。正是凭借这种思维方式,Amaral教授和一位对计算机程序设计感兴趣的实习生开始尝试模拟个人对团队更广泛成功或失败的贡献。观察到UEFA正在为2008年欧洲杯比赛发布更详细的球员数据,Amarals教授实习生开始从联盟网站上搜集数据。当时是实验室研究员的Jordi Duch教授开始通过UEFAs传递数据创建玩家网络来分析数据。最初的目标是建立在传递数据基础上的性能指标。 在编制索引并公布结果之前,必须进行一些简化。 Amaral教授在我们的采访中总结了他们: 基本上我们做了几个假设。 [首先],所有控球都是好的,[第二]所有能够获得得分机会或投篮的控球都更好。我们所做的是开发一个评分系统,其中使用传递矩阵来估计给定团队能够为目标射击产生机会的可能性。 初始传递数据的组按比赛进行聚合(例如Gerard Pique在特定比赛中传递给Carles Puyol五次)。虽然知道通道的确切时间和位置可能更好,但初始模型将使用聚合数据构建,以期展示模型的值。一旦建立了模型的价值,就可以集成更多的时间密集和昂贵的数据。这种数据的简化导致了一个在网络级别进行估值的模型,而不是基于发生的实际事件序列。 结果是一个评估球员之间流量的模型,并且基本上评估了一名球员参与一条路径的频率,该路径导致射门次数更高的可能性。然后将此方法应用于Euro 2008数据,并且建模结果与实际比赛中实现的结果很好地相关。结果非常重要,值得在2010年6月的同行评审的PlosOne期刊上发表。小组研究发现: 只有前两名得分球员和他们的差异相比,对手球队前两名得分球员可以用来预测比赛结果。在31场比赛中,22场比赛表现出足够明显的球员得分差距,这些比赛的模型预测值很高。在个人玩家的基础上,实验室模型占据UEFA全部锦标赛名单上的20名非守门员中的8名。模型的准确性很高,因为在UEFAs列表和模型上出现的八个玩家的可能性几乎为零。 这种基于传球的评级系统确实在评级守门员方面存在挑战。 FootballrRating.com团队承认他们甚至没有将它们包含在团队生成的任何公开数据或可视化中。他们将此类评估留给了那些具有更好守门员中心指标的人。 该团队提出了一些方法,其中包括模型中的防御者贡献。 Amaral教授解释说: 防守方是由球队中的球员解决的,他们可以打断其他球队的比赛并获得奖励。如果球队很快恢复球,他们就有更多机会开始比赛。所以防守表现也来自那方。我认为这是人们不太谈论的一件令人惊奇的事情,那就是西班牙队以不可思议的方式赢回球。他们没有给其他球队留出时间安排到位,因为他们按得如此之快以至于其他球队很快失去了球。我们的方法是考虑到这一点,因为按下并赢得球的球队很快就获得额外积分。 即使在为防守球员分配得分时也可能存在偏差,因为他们可能会少接触球或者他们在比赛开始时早期的贡献经常转化为不那么频繁的机会来帮助创建导致射门的射门。 FootballrRating.com团队通过为玩家行为分配适当的权重来抵消这一潜在问题,并否定对特定位置排名的需求。 Amaral教授再次解释说: 作为一点技术,玩家之间的流动是以广泛的方式分布的,但是如果你看一下这个流的对数和我们计算点的方式,它就很接近于高斯。我们发现,对于参数值的合理步骤,参与不同位置的球员的高斯人以相同的值和标准偏差为中心。似乎奖励行为的方式不是过分有利于一个位置而不是另一个位置。举个例子,当我们开始这个时,我们意识到中后卫的平均得分低于其他人。如果我们通过某种价值分配奖励许可,则中后卫的行为会与其他职位保持一致。这是尝试做的事情之一,这不是偏向一个位置。 鉴于2010年世界杯,同行评审文章的发表时间不可能更好。研究小组推出了一个致力于覆盖那些年竞争的网站,这是两年前在我自己的博客上提到的一个主题。与此同时,几家公司联系了该团队,了解将数据用于各种潜在商业目的的可能性。他们拒绝了这些提议,并通过Chimu Solutions开发了自己的业务。该团队重返工作岗位,整合了英超联赛最后几个赛季的Opta数据以及国际比赛。这为他们的模型提供了在球场上发生的实际事件序列。所有这些工作进一步开发了允许与2012年欧洲锦标赛一起推出FootballrRating.com网站的模型。 该网站的用户找到一个仪表板布局,让他们可以查看各个玩家,团队或竞争对手的排名。从T中点击像西班牙这样的球队eams菜单,并且可以从2012年欧洲锦标赛中找到他们的平均球员评分和他们的对手的时间序列数据。他们与意大利的第一场比赛的接近程度在视觉上显示,而与爱尔兰,克罗地亚和法国的连续比赛在三场比赛中的7-0总比分差距平均为18分。他们与葡萄牙队的半决赛对西班牙队来说意味着接近3分的优势,而在决赛中对阵意大利队则意外地取得了类似的三分优势。用户点击此序列中的六个匹配中的任何一个,都能够快速提取匹配详细信息,以显示按降序排列的两个团队中每组玩家的评级。 回到团队页面,用户可以找到整个锦标赛的玩家平均评分,并用迷你图来描绘整个锦标赛的评分趋势。整体球员评分攻击统计数据的组成部分,如总投篮数和参与得分数以及防守统计数据(如获得的清理和铲球)将显示在每个球员评分的右侧。 用户可以通过播放器仪表板功能创建自己的视图。可以构建多组玩家,并通过玩家卡跟踪单个玩家,该玩家卡可以在团队页面上找到摘要数据。点击播放器的卡片,然后在屏幕上显示他们的详细统计数据。点击浏览器后退按钮,用户将被带回播放器仪表板。 Chimu Solutions总裁Jonathan Drake负责网站的外观和内容,他解释了未来的愿景。 我们对欧元的愿景实际上是为了展示一些公开的东西,因为我们与团队和球探一起工作,这些都是私人咨询关系。我们真正想做的是为粉丝们提供一些东西,在足球统计界我们将在本月举办奥运会,然后在8月再次启动的时候也会做EPL很酷很酷我们的方法是它可以应用于任何锦标赛和任何一组球员。我们可以运行模拟来说明如果该组玩家玩过10,000次该游戏会发生什么。因此,我们可以从更小的样本量中收集大量见解。 必须升级输入数据类型和结果分析以支持这些添加的功能。 Amaral教授解释了团队目前正在开发的方法: 现在我们的方法是开发一个单一的数字来衡量一名球员在比赛中的表现,忽略得分是什么或者什么时候球员进入[比赛]。我们正在开发工具,使我们能够做一些我们认为有趣的其他事情。其中一个是在比赛过程中观察表现。当比赛结束时,球队的表现与他们处于优势位置时不同。我们想要概括方法来考虑这些事情。有时玩家可能看起来玩得很好,但有时候当游戏已经决定并且没有人努力尝试时。我们要做的另一件事是让系统既可以预测两个对手的球队,也可以替换球员。因此,如果你有一个你知道某些特征的玩家可以想象他在该团队的网络中并让他替换网络中的另一个玩家,看看它如何改变团队。 在玩家转移窗口期间,对模型的这种升级将是有用的,使得粉丝和侦察员能够理解一个玩家替换另一个玩家的潜在价值。它还可以在梦幻足球联赛中每周进行智能替换。这是FootballrRating团队对多层次方法的更广泛愿景。 Jonathan Drake详细阐述了该组织的方法: 我们与团队合作了一些,而参与转移的人则更多。他们看到了这个价值。正在做的是向粉丝开放以提供反馈。它是团队和其他寻求高级分析的人的对话开场白。现在该网站是免费的基本评级,但从秋季开始与EPL很好地提供一些新的功能,现在正在开发一个小订阅付费墙,这本身不会是我们的完全关注,但我们的观点是,这是一个很好的方式,让我们踏入这个新兴空间的大门。它已经与专业组织进行了开放的对话。他们向我们提出了他们对自己的阵容或转移决定的疑问。潜在的合作伙伴在团队领域,但Opta和Prozone等组织也一直在寻找能够提供他们没有的分析的人和公司。我们提供的不是统计数据,但它们是可用于制定决策的实际分析。这是最终试图带到这个空间的东西。 阿马拉尔教授结束了这一观察: 当前小组提供的内容有点麻烦且用户不友好,因此尝试开发的一个方面是易于使用且直观的系统。只有拥有用户反馈,您才能这样做。来自不是一两个人的用户反馈,但希望有数十人。因此,最终目标是向不是统计人员的用户提供统计数据和分析。我们如何以有影响的方式传达信息? 你有它。 FootballrRating.com团队希望您的反馈能够改善他们已经令人印象深刻的模型。他们获得它的唯一方法是,如果您访问他们的网站,使用它,并通过每个数据视图上的链接提供反馈。这是足球分析社区有机会帮助更好地理解游戏本身,以及哪些玩家最适合在任何给定时间在球场上的11个网络中。正如本博客上篇文章所述,建模的重点不是第一次完美地开发模型,而是再也不会触摸它。它应该成为建模者和读者之间的对话,以便通过不断的修订来改进。在你的帮助下,FootballrRating.com团队可以继续修改他们的模型,并将我们推向最终目标Graham MacAree在他自己的博客上展示了对球员网络变得更好或更差的球员的空间/时间理解。