2018年俄羅斯世界杯開(kāi)打,首場比賽是東道(dào)主俄羅斯對(duì)陣沙特阿拉伯,将于6月14日拉開(kāi)序幕。
每屆世界杯最受關注的當屬決賽,上(shàng)屆2014年巴西世界杯,東道(dào)主巴西隊意外(wài)爆冷,隻獲得第四名,無緣決賽。今年的世界杯,不少機構/研究人員給出預測:德國将和(hé)巴西争奪冠軍,并且,巴西隊奪冠的概率更大(dà)些(xiē)。
綜合各種預測和(hé)民意調查,冠軍幾乎肯定在巴西、德國和(hé)阿根廷之間展開(kāi),雖然強強争鋒喜聞樂見,但(dàn)似乎也(yě)少了(le)些(xiē)驚喜。
機器學習和(hé)大(dà)數據的方法正越來(lái)越多地被用(yòng)在比賽結果預測上(shàng),不僅是世界杯,也(yě)不僅是結果,球隊組成、戰術選擇和(hé)球員訓練都已經開(kāi)始見到(dào)機器學習的身影。對(duì)于球迷和(hé)觀衆而言,人工(gōng)智能(néng)也(yě)将展開(kāi)一種全新的參與/觀看(kàn)體育賽事(shì)的體驗。
機器學習預測結果:巴西獲得冠軍
肯尼亞的投資銀行Genghis Capital Investment Bank的投資銀行分析師Gerald Muriuki,日前在Medium上(shàng)公布了(le)他(tā)使用(yòng)機器學習預測FIFA 2018的結果——巴西将赢得冠軍。
這(zhè)一結果跟微軟的AI和(hé)數據科學專家Sorin Peste的預測結果一緻。
實際上(shàng),預測世界杯冠軍是一個典型的機器學習問題,你(nǐ)首先預測每場比賽的獲勝者,接着再預測小(xiǎo)組賽、半決賽和(hé)決賽的冠軍。在這(zhè)個過程中,你(nǐ)需要進行數據整合、特征建模和(hé)結果預測。因此,很(hěn)多機器學習或數據科學家,都做過類似的項目。
Muriuki和(hé)Peste兩個人都是根據足球比賽的曆史數據,建立機器學習模型,模拟比賽,并預測這(zhè)些(xiē)比賽的結果。下(xià)面我們分别來(lái)看(kàn)看(kàn)。
使用(yòng)邏輯回歸進行預測
Muriuki使用(yòng)了(le)兩個來(lái)自(zì)Kaggle的數據集,包含了(le)從(cóng)1872年到(dào)2017年國際足球比賽的結果。他(tā)先分析了(le)兩個數據集,做了(le)一些(xiē)特征工(gōng)程,選擇跟2018年世界杯最相關的特征進行預測,再足控了(le)一些(xiē)數據增強。
在模型的選擇上(shàng),Muriuki用(yòng)的是邏輯回歸,一種分類器算(suàn)法。邏輯回歸通過使用(yòng)邏輯函數預估概率,從(cóng)而衡量分類因變量和(hé)一個或多個自(zì)變量之間的關系。簡單說,給定一組相關的數據後,邏輯回歸能(néng)夠預測結果(在世界杯的情況下(xià),就是預測是輸還是赢)。
這(zhè)是他(tā)的模型預測最初幾場比賽的結果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥(gē),平局。4天以後就可以驗證這(zhè)個結果是對(duì)還是錯了(le)。
16強的結果是這(zhè)樣的:
四分之一決賽将在葡萄牙vs巴西,以及德國vs阿根廷之間展開(kāi)。
最終巴西vs德國,巴西獲勝。
使用(yòng)随機森林(lín)進行預測
另一方面,微軟的AI和(hé)數據科學專家Sorin Peste的預測過程則更加完善。在數據的選擇上(shàng),除了(le)曆年世界杯結果,Peste還使用(yòng)了(le)歐洲杯、奧運會(huì)等大(dà)型比賽的數據,以及這(zhè)些(xiē)比賽的勝率分布。
此外(wài),Peste還考慮了(le)比賽的地址,也(yě)即是在主場、客場還是在雙方都無關的中立場所,以及比賽是否“friendly”,在踢friendly比賽時(shí),目的不是爲了(le)赢球,而是爲了(le)觀察對(duì)手的球員和(hé)策略。
在模型的選擇上(shàng),Peste用(yòng)的是随機森林(lín)(深度500),一種根據呈現(xiàn)給它的特征生成多個決策樹的算(suàn)法,并且每個單獨的樹對(duì)每個新輸入向量的結果“投票”。随機森林(lín)的速度快(kuài),相當準确,可以對(duì)泛化誤差進行無偏估計(jì),因此不需要交叉驗證。
下(xià)圖展示了(le)叠代1000次後的結果,巴西獲勝,阿根廷第二。
統計(jì)的方法:德國戰車險勝巴西
當然,除了(le)機器學習,還有更多預測是使用(yòng)大(dà)數據方法。KDnuggets上(shàng)一位狂熱球迷用(yòng)統計(jì)的方法,預測德國隊會(huì)奪冠。他(tā)的操作(zuò)步驟如下(xià):
收集信息:
國際足聯世界排名:這(zhè)是所有211支國家足球隊的排名系統。使用(yòng)積分系統,積分是基于所有FIFA認可的國際比賽的結果。然而,這(zhè)并不是最好(hǎo)的系統,而且有很(hěn)多缺點。
Elo評級:該系統最初是爲國際象棋聯合會(huì)FIDE開(kāi)發的,目的是給棋手打分。它的複雜(zá)矩陣根據比賽的類型分配點數,并考慮到(dào)雙方的淨勝球差異。它和(hé)國際足聯的主要不同之處在于,它也(yě)統計(jì)了(le)友誼賽的數量。
TransferMarkt team value:這(zhè)個總部位于德國的網站(zhàn)提供了(le)關于足球各個方面的信息,包括每個知(zhī)名球員的估計(jì)市值。他(tā)們列出了(le)參與國的名單和(hé)他(tā)們的團隊價值。
投注賠率:使用(yòng)投注比較網站(zhàn)OddsChecker,采用(yòng)每個國家最慷慨的賠率。
TransferMarkt的數字是歐元,而FIFA和(hé)Elo有他(tā)們自(zì)己的評級系統,投注賠率是分數。作(zuò)者将每一個系統都标準化,使它們具有可比性。在統計(jì)中,标準分數(也(yě)稱爲z分數/值,正常分數或标準化值)是數值與平均值不同的标準偏差數。
2018年世界杯,四個流行的預測來(lái)源
KDnuggets預測的z分數
如果KDnuggets的預測是正确的,那麽世界杯小(xiǎo)組賽的結果會(huì)是下(xià)面這(zhè)樣的:
研究結果引出了(le)一些(xiē)有趣的結論:
德國排名第一,但(dàn)僅略高(gāo)于巴西。緊随其後的是西班牙和(hé)法國。
Elo排名系統和(hé)投注幾率看(kàn)起來(lái)最相似,都列出了(le)相同的前五名(上(shàng)面提到(dào)的四個球隊和(hé)阿根廷)。
在整個體系中有一些(xiē)鮮明(míng)的對(duì)比,其中最引人注目的是秘魯在國際足聯(FIFA)和(hé)Elo排名中z分數都排在第10位,而在TrasferMarkt的球隊價值排名卻在第30位。
民意調查:德國、巴西、阿根廷最受歡迎
除了(le)KDnuggets上(shàng)的預測,還有諸多世界杯賽前的其他(tā)預測:
《每日電訊報(bào)》對(duì)每支球隊進行了(le)廣泛的分析,最後進行了(le)一項投票,讓讀者預測冠軍,投票結果如下(xià):
此外(wài),據中新網報(bào)道(dào),俄羅斯彼爾姆國立研究大(dà)學學生維克多 紮科派洛建立了(le)一個能(néng)預測2018年世界杯冠軍的神經網絡,神經網絡綜合各項參數進行分析計(jì)算(suàn)後得出結論稱,世界杯前三名将是德國隊、巴西隊和(hé)阿根廷隊。
四年前,巴西在家門(mén)口以1:7輸給了(le)德國隊,創下(xià)了(le)自(zì)1920年0:6輸給烏拉圭以來(lái)最大(dà)的世界杯輸球記錄,震驚全國人民。最終,德國隊奪得了(le)當年的世界杯冠軍。
今年的俄羅斯世界杯,諸多機構預測巴西和(hé)德國将上(shàng)演冠軍大(dà)戰。巴西能(néng)否一雪前恥,德國能(néng)否成功衛冕?我們拭目以待。 |