乒乓球吧 关注:620,226贴子:28,806,063

自建一个关于球员国际赛单打的数据分析模型(看个乐呵)

只看楼主收藏回复

这个我前段时间就在做了,起因是有一天在想,大部分数据贴都是整理到“胜率”这个级别就结束了,但是4-0赢和4-3赢肯定是有差别的,赢的对手强或者弱,也是有差别的,能不能用一个模型把这俩因素也纳入?所以我就做了这个东西:
一、模型说明:
1.数据来源为ITTF;仅计算国际赛事单打,包括团体赛中的单打,不包括任何双打、青年赛事;选用的世界排名数据为ittf当年12月份的排名。
2.逻辑假设:(i)赢得越快(即净胜局越多)越好,输得越慢(即净负局越少)越好;(ii)赢的对手排名越高(即世排数字越小)越好,输的对手排名越低(即世排数字越大)越差。
3.计算方式:
M=净胜局分(【-4,+4】)
N=对手世界排名(【1,1000(大概)】)
P(赢局积分)=∑(M/N)
Q(输局积分)=∑(M*N)
总得分=aP+bQ,此处取a=1000,b=1。
也就是说,假设某人4-3赢了世排1000的人,他将只能得到1/1000=0.001的赢局积分,但假如4-0赢了世排第1的人,则会得到4/1=4的巨分;同理,假如他0-4输了世排1000的人,则会失去-4*1000=4000的巨额输局积分,而3-4输了世排第一,则只会失去-1*1=-1的输局积分,最后计算总分时,4-0赢世排第一的效果和0-4输世排1000的效果互相抵消,4-3赢世排1000的效果和0-4输世排第1的效果互相抵消。
当然,这样算很可能也是有问题的,但我暂时只能想到这样。
我是抱着世上根本没有正确的模型,只有能用的模型的心态去做这个的希望能得出点有用的结论(或者看个乐呵也行),欢迎吧友批评指正:
图一是没有经过模型处理的单打数据和我手动查看写的附注,图二是模型处理过的数据。
为什么选择这些年份的数据和具体收获下面说。
最后,我想说,数据这种东西有着有限的意义,因为事实是客观的,但解读是主观的,特别是我这种自建模型配参数的半半半半成品,所以——多包涵。



IP属地:中国香港来自Android客户端1楼2022-04-17 16:27回复
    4月17日的帖子,当时被系统删了,申诉后今天忽然被放出来了百度,真有你的。


    IP属地:中国香港来自Android客户端2楼2022-04-22 12:05
    回复


      IP属地:广西来自iPhone客户端3楼2022-04-22 12:20
      回复
        一些QA:
        1.为何选取对手世排,不选取双方世排差?
        ——因为算差值太复杂,而且本来就是根据对手水平估算其自身水平;
        2.为何使用(赢局*1000+输局积分)的方式计算总分?
        ——上面解释了,且暂没想到更好的方法;
        3.为何不考虑赛事级别的不同?
        ——那样太过复杂,而且对手的世界排名一定程度上已经反映了赛事级别。当然,确实存在小赛赢大主力,大赛输的情况无法体现。


        IP属地:中国香港来自Android客户端4楼2022-04-22 12:24
        回复
          一、如何理解数据:
          绝对数值几乎没有意义,只有在比较中能看出数据的价值。而由于数据的可能误差,大致比较即可,在一定范围内可算作同一档。
          二、数据的误差来源:
          1.ittf数据并非完全准确,比如我经常遇到某个选手的排名在ittf当年的世排表中找不到,只好根据ID去查选手profile,看看有没有那一年的大概排名,还发现过其档案中的排名与ittf当年12月排名表中的排名差异极大的情况。
          2.操作过程中的偶然性误操作。
          3.数据的结构性误差,比如世排不合理,像2018年12月马龙的排名为11,并不符合其实力,其他中国选手排名可能也有类似情况。
          4.模型的结构性误差,二次处理出的数据肯定是会有一些问题的。
          三、数据的合理性:
          1.虽然世排不一定完全准确,但已经是最好的在数据层面反应对手实力的标准了(大规模,方便易得)。
          2.排名数据容易出问题的基本上是世排比较靠后的选手。主力几乎不会输给他们,如果发现输世排异常低的选手,我也会再次核查。而赢排名500和排名1000,对赢局积分而言几乎没什么差别,可以忽略不计。
          3.总体而言,赢排名靠后的选手对赢局积分和总分影响微乎其微,输则会对输局积分和总分有非常大的影响;赢排名靠前的选手能给赢局积分和总分带来质变,输则不会对输局积分和总分产生什么影响。所以实际上这些数据在一定程度上是能反应选手的稳定性和冲击力的。为了增加对数据的理解,我还增加了详细的附注描述。


          IP属地:中国香港来自Android客户端5楼2022-04-22 12:26
          回复
            数据选取:
            首先选取的数据为马龙(2005,2006)、樊振东(2013,2014)开始打成人赛的前两年,并且选取了马龙(2013,2014)来进行对照。
            然后选取了梁靖崑(2013,2014)成人赛前两年,关于王楚钦成人赛前两年,由于2014年他还非常小且只参赛一次,2015年没参加成人赛,所以实际上可以认为他的前两年是2016、2017。
            由于王楚钦2017年的参赛场数非常少,梁靖崑2016年也没有参赛记录,所以我选择增加了他们的2018年作为比较。
            由此,也增加了樊振东的2017,2018年作为比较。这样,每人都有四项(强迫症满足)。
            四位选手成人赛前两年(王楚钦可以算成人赛前四年)年龄都差不多,在16-18岁之间。其他数据为成熟期马龙(25-26岁),上升期樊振东、梁靖崑(20-22岁)。


            IP属地:中国香港来自Android客户端6楼2022-04-22 12:27
            回复
              数据分析:
              1.龙胖的轨迹是相似的,第一年展现出很强的冲击力,第二年参赛场次和胜率都有所回落(我想大概是第一年新上来冲击力强,第二年会受到更多研究针对,这里应该还要有第三年,等我之后有空补上)。一种可能也是和他们冒头的时期有关系(奥运后新周期开始的一年),虽然梁靖崑的数据不符合此规律,但新周期前两年会给小选手更多机会,这一点应该是很好理解的。
              2.马龙的2013,2014年展现了绝对主力的稳定性(虽然有人说这两年是其低谷,但看国际赛事单打,已经是这些数据里最优秀的了);樊振东17-18年展现了大主力的实力,但冲击力和稳定性尚略逊13-14年的马龙,一定程度体现出上升期主力和成熟期主力的差别;梁靖崑17-18年的数据又再逊小胖一筹,且2018年的数据显著好于2017年,是一个典型的上升期特征(所以还需2019年的数据再看看)。仅论2018年,大胖显示出的冲击力类似于龙胖打成人赛第一年的冲击力,也就是大主力级别的冲击力,这或许解释了为何教练组相当看好他。但他的稳定性还有所不足;
              3.王楚钦显示出的数据变化规律倒是类似龙胖,但是是含金量完全降低的“青春版”,这或许解释了为何教练组也看好他,以及为何他早期遭到一些观众的质疑非议。(注:我当然不是说教练组会看这个粗陋的模型,我的意思是模型能够反映出来的一些东西,教练组应该也会注意到,我想他们有更好的分析手段)


              IP属地:中国香港来自Android客户端8楼2022-04-22 12:30
              回复
                使用模型算积分后,发现胜率近似的情况下,积分差异能够非常之大,而主力和次主力从小开始的差距似乎也一目了然——除了梁靖崑在2018年曾经达到过一个接近主力级别的数据。
                不过我想,主力模式并不一定只有龙胖这种,目前分析的人数和数据量还太少,得不出结论。如果把梁、王近期的数据放进来应该会好看很多,还有就是20开始疫情对数据造成了断崖式的改变(以及积分规则又又又变了)。
                下一步可以添加张继科、许昕、林高远、林昀儒、张本智和、奥恰洛夫、雨果等人的数据,这样样本应该差不多了(老一代主力前期没有这种结构化数据)。
                并且添加马龙07,小胖15,大胖19,大头19四年的数据。
                (不过等我慢慢弄吧……)


                IP属地:中国香港来自Android客户端9楼2022-04-22 12:32
                回复
                  大胖2018那行大圣的名字打错了


                  IP属地:贵州10楼2022-04-22 12:37
                  收起回复
                    楼主的思路挺好的,稍微有一点想讨论一下。直接用世界排名作为N会不会偏差过大了,很多情况下wr1和wr2(或者wr11和wr17,仅举例)可能在实力上并没有很大的差别,是不是考虑用分段映射更合理一点(例如为wr1-3,4-10,11-20,…分别赋值,相应的a值也做一定的缩放)。
                    另外楼主提到的大小赛问题,是否可以以赛事积分作为一个权重系数λ(例如,λ=当前赛事冠军积分/乒乓球赛事最高冠军积分)。


                    IP属地:湖南来自Android客户端11楼2022-04-22 13:03
                    收起回复
                      用心的数据贴帮顶


                      IP属地:四川来自Android客户端13楼2022-04-22 13:29
                      回复
                        你这个模型牛逼了


                        IP属地:陕西来自iPhone客户端14楼2022-04-22 13:35
                        回复
                          点赞


                          IP属地:四川来自Android客户端15楼2022-04-22 13:37
                          回复
                            不如按照18年改世排规则之前的来算?


                            IP属地:北京16楼2022-04-22 13:42
                            收起回复