如果說(shuō)世界杯的小組賽還算是各國(guó)足球文化友好交流的“前菜”,從淘汰賽開(kāi)始,世界杯的“主菜”就正式擺上了桌面。1/8的賽場(chǎng)上我們還能看到來(lái)自亞洲、非洲和北美及加勒比地區(qū)的球隊(duì)與歐洲和拉美勁旅一較高低,進(jìn)入1/4決賽后,除了碩果僅存的“黑馬”摩洛哥隊(duì),世界杯又回到了傳統(tǒng)列強(qiáng)對(duì)決的熟悉味道。
四場(chǎng)對(duì)決,英格蘭與法國(guó)的較量最引人關(guān)注,被廣泛認(rèn)為是一場(chǎng)提前打響的決賽。作為一對(duì)老冤家,兩隊(duì)歷史上共交戰(zhàn)多達(dá)31次,僅本世紀(jì)以來(lái)已有7次交手,但在國(guó)際正式大賽中,英法兩隊(duì)從未在淘汰賽中相遇。英格蘭雖然近年來(lái)遇法國(guó)敗多勝少,但時(shí)移世易,目前兩隊(duì)狀態(tài)正盛,英格蘭人欲憑借“青春風(fēng)暴”一雪前恥,法國(guó)人則要捍衛(wèi)冠軍的榮譽(yù),一場(chǎng)火星撞地球的對(duì)決在所難免。
我們沒(méi)輸過(guò)球!本屆杯賽上英格蘭是唯一沒(méi)有爆冷輸球的傳統(tǒng)強(qiáng)隊(duì),近兩屆大賽(2018世界杯、2021歐洲杯)中,球隊(duì)的表現(xiàn)十分穩(wěn)定,作為“大英帝星”的隊(duì)長(zhǎng)凱恩更是希望在世界杯上證明自己。
我們年輕!19歲的貝林厄姆、21歲的薩卡、22歲的福登,中前場(chǎng)朝氣蓬勃、敢打敢拼,板凳深度令人羨慕。
如此激烈的對(duì)決,算法預(yù)測(cè)當(dāng)然不能缺席!
圖源:零點(diǎn)有數(shù)
沒(méi)想到算法模型還能預(yù)測(cè)世界杯比賽結(jié)果,它究竟是怎樣做到的?小零人帶大家一探究竟!
選擇基礎(chǔ)數(shù)據(jù),構(gòu)建模型框架
涉及足球比賽,特別是世界杯場(chǎng)次的預(yù)測(cè)非常多,常用的維度比如球隊(duì)的參賽紀(jì)錄、勝負(fù)記錄、教練和球員數(shù)據(jù)、競(jìng)猜賠率,甚至點(diǎn)球記錄等。考慮到信息獲取的難易度,最終確定選取兩項(xiàng)最重要的指標(biāo)作為測(cè)算依據(jù),分別是:歷史賽事得分?jǐn)?shù)據(jù),包括比賽時(shí)間、參賽隊(duì)伍、進(jìn)球數(shù)等數(shù)據(jù);FIFA男足世界排名歷史數(shù)據(jù),包括排名、累計(jì)積分、發(fā)布時(shí)間等數(shù)據(jù)。
對(duì)數(shù)據(jù)做預(yù)處理
預(yù)處理主要分為三步走:第一步是篩選,以雙方近4年的歷史賽事數(shù)據(jù)作為標(biāo)尺;第二步是校驗(yàn),將歷史賽事得分?jǐn)?shù)據(jù)與FIFA世界排名數(shù)據(jù)做一致性處理;第三步則是拼接:對(duì)于分析的目標(biāo)賽事,匹配該場(chǎng)比賽時(shí)間之前兩支球隊(duì)的最新FIFA排名。
圖源:零點(diǎn)有數(shù)
構(gòu)造相關(guān)復(fù)合型指標(biāo)
接著對(duì)各項(xiàng)數(shù)據(jù)對(duì)于模型的預(yù)測(cè)能力進(jìn)行逐一分析。初步構(gòu)造的變量包括但不限于:
●主客隊(duì)最新FIFA排名的差值;
●當(dāng)前比賽日前,在所有歷史比賽日期中,主客隊(duì)FIFA排名平均值的差異;最近的5場(chǎng)比賽中,主客隊(duì)FIFA排名平均值之間的差異;
●當(dāng)前比賽日前,在所有歷史比賽中,主客隊(duì)平均進(jìn)球數(shù)之間的差異;最新的5場(chǎng)比賽中,主客隊(duì)平均進(jìn)球數(shù)之間的差異;
初步構(gòu)造完成后,根據(jù)變量的概率分布特征,對(duì)生成的變量進(jìn)行篩選。例如,對(duì)于獲勝或失利的比賽,如果某項(xiàng)變量的概率分布差異明顯,則認(rèn)為該變量對(duì)模型具有一定程度的預(yù)測(cè)能力,反之,則預(yù)測(cè)能力較弱。經(jīng)過(guò)對(duì)各項(xiàng)變量的不斷重復(fù)計(jì)算,最終找出可用于預(yù)測(cè)比賽結(jié)果的變量組合。
圖源:零點(diǎn)有數(shù)
選取合適的模型
下一步,選取合適的模型。將選出的變量數(shù)據(jù)分成訓(xùn)練集和測(cè)試集,對(duì)每一模型,調(diào)整其參數(shù)設(shè)置,如學(xué)習(xí)速率、最大深度等,比較不同模型在測(cè)試集和訓(xùn)練集上的表現(xiàn)。對(duì)于本次世界杯比賽的勝負(fù)預(yù)測(cè),經(jīng)反復(fù)比較,確定選用Logistic Regression(邏輯回歸)、Gradient Boosting(梯度提升)、Random Forest(隨機(jī)森林)、LightGBM等模型進(jìn)行測(cè)試。最終,根據(jù)測(cè)試表現(xiàn)結(jié)果和復(fù)雜程度,選擇Logistic Regression(邏輯回歸)和Gradient Boosting(梯度提升)作為主要模型。從本屆世界杯開(kāi)賽以來(lái)各場(chǎng)的實(shí)際結(jié)果來(lái)看,Gradient Boosting(梯度提升)模型的預(yù)測(cè)準(zhǔn)度相對(duì)更高。
圖源:零點(diǎn)有數(shù)
使用最優(yōu)模型,預(yù)測(cè)比賽結(jié)果
最后,使用最優(yōu)模型,對(duì)比賽結(jié)果進(jìn)行預(yù)測(cè)。爭(zhēng)取世界杯每場(chǎng)比賽的勝利絕非易事,除了球隊(duì)的硬實(shí)力外,球員的傷病、裁判執(zhí)法的尺度乃至于臨門(mén)一腳的運(yùn)氣都可能對(duì)結(jié)果產(chǎn)生意想不到的影響,因此,零點(diǎn)有數(shù)利用優(yōu)化后的模型,繼續(xù)提升模型準(zhǔn)確率。
在小組賽進(jìn)程中我們截取了前16場(chǎng)比賽進(jìn)行驗(yàn)證,零點(diǎn)有數(shù)的基礎(chǔ)預(yù)測(cè)模型共“猜中”11場(chǎng),準(zhǔn)確率為68.8%,模型優(yōu)化后,準(zhǔn)確率直接上升到81.3%——摩洛哥vs克羅地亞、韓國(guó)vs烏拉圭的兩場(chǎng)“意外”平局都實(shí)現(xiàn)了精準(zhǔn)預(yù)測(cè)。在淘汰賽階段,模型也成功預(yù)測(cè)了荷蘭、阿根廷、英格蘭和法國(guó)等傳統(tǒng)強(qiáng)隊(duì)的晉級(jí)。
總而言之,算法千變?nèi)f化,預(yù)測(cè)只是提供了觀察比賽的一個(gè)角度,足球比賽總是充滿懸念,而這種不確定性恰恰是任何算法都難以解釋的。終場(chǎng)哨聲吹響前,一切皆有可能,這正是比賽的意義和魅力所在。
注:本文絕不構(gòu)成任何投資建議,零點(diǎn)有數(shù)真誠(chéng)建議各位放下功利心,輕松看待每場(chǎng)比賽,享受足球純粹的快樂(lè)!
聯(lián)系客服