11 Jun

Bør de europæiske hold frygte VM i Brasilien?

Neymar II

Investeringsbanken Goldman Sachs har lavet en VM-model, der har Brasilien som suveræne favoritter til at blive verdensmester denne sommer. Men er deres model overhovedet realistisk, og hvor meget betyder afstande egentlig for resultaterne ved VM?

Af Sebastian Barfort

Den 26. oktober 2010 var nok ret få mennesker i akvariet i Oberhausen klar over, hvor alvorlig en begivenhed de var vidne til. Der døde blæksprutten Paul nemlig (af naturlige årsager – heldigvis). For dem der ikke husker det, var blæksprutten Paul bedre end de fleste professionelle analytikere til at forudsige resultatet af Tysklands kampe ved VM i 2010, og det er dermed lidt af et tomrum, der skal udfyldes, hvis vi skal gøre os noget begreb om, hvem der vinder VM i Brasilien, der starter nu på torsdag.

Det er åbenlyst umuligt at erstatte en synsk blæksprutte, og et mere jordnært alternativ er at estimere sandsynligheden i en eller anden form for statistisk model.
To interessante forsøg på netop dette kom i forrige uge fra henholdsvis Goldman Sachs og Danske Bank. Begge modellerer sandsynligheden for at vinde VM statistisk, og det er bemærkelsesværdigt, at Danske Bank, der blander økonomiske og sportsrelaterede variable i deres model, når stort set samme resultat som Goldman, der udelukkende benytter sportsdata. Ifølge Danske Bank er der 45% sandsynlighed for, at Brasilien eksploderer i glædesrus, når finalen slutter den 13. juli. Goldman ligger en smule højere og estimerer sandsynligheden til 48,5%. Begge har Argentina som outsider med henholdsvis 8,1% og 14,1% sandsynlighed for at tage pokalen med hjem.

Det interessante er, at begge bankers bud på Brasiliens sandsynlighed for at vinde ligger langt højere end den underliggende sandsynlighed, der afspejles i bettingmarkedernes odds på de forskellige hold. Jeg har holdt øje med de 12 største engelske bookmakeres odds over de sidste par uger, og de ser således ud:

bettingOdds

Hvis vi tager Danske Bank og Goldmans estimater for gode varer, er der altså masser af free lunch på bettingmarkederne i øjeblikket. Oddset på Brasilien er i så fald sat alt for højt, så vi har forventet profit af at spille på dem som vinder ved VM. Jeg er selv kunde i Danske Bank, og har da overvejet at ringe derned og høre, om de vil låne mig et stort beløb til min investeringsidé, som givet deres egne estimater har en ret stor positiv forventet værdi. Før man gør det, er der imidlertid nok behov for lige at stoppe op og overveje, om det er bettingmarkederne eller de to banker, der tager fejl af sandsynlighederne.

Det første, man bemærker af ovenstående figur, er, at der ikke er nogen form for diskontinuitet omkring 27. maj, hvor Goldman offentliggør deres rapport eller 28. maj, hvor Danske Bank offentliggør deres. Begge rapporter er offentligt tilgængelige, og Goldmans har været refereret i både The New York Times, The Wall Street Journal og The Guardian. Den mest oplagte grund til at markedet ikke bevæger sig er nok, at der ikke rigtig er nogen, der tror på de to meget høje estimater på Brasilien. Og det er der muligvis god grund til.

Vi har længe vidst, at bettingmarkeder kan være en attraktiv mekanisme til at samle og aggregere information, hvis denne er spredt blandt mange aktører. Det skyldes dels, at de sorterer cheap talk fra, og dels, at profitmotiveret giver incitament til at undersøge en sag nærmere og blive klogere på problemstillingen. Denne erkendelse har fået virksomheder som Google og Hewlett-Packard til i årevis at køre interne betting-markeder om alt fra, hvor mange brugere der i fremtiden vil benytte Gmail, til hvordan nye HP-produkter vil sælge.

Hvis man gerne vil forsøge intuitivt at forstå, om de to bankers sandsynligheder er sat for højt, kan vi prøve med følgende lille tankeeksperiment (som jeg så på Twitter forleden):
Brasilien skal efter gruppespillet igennem fire knockoutkampe. Hvis den samlede sandsynlighed for gevinst skal være 48,5%, kan vi spørge os selv, hvilken sandsynlighed Brasilien skal have for at vinde hver kamp, der er konsistent med, at Brasilien vinder alle fire kampe knap halvdelen af gangene. Her er binomialfordelingen vores ven, og den individuelle sandsynlighed er lige omkring 83,5% (da 0,835^4 = 0.486).

Ifølge Goldmans model står Brasilien til at møde Holland, Uruguay, Tyskland og Argentina i de fire kampe, og deres estimat på 48,5% implicerer altså, at Brasilien med 83,5% sandsynlighed vinder hver af de kampe.
For at give os en ide om hvor højt det er, har jeg fundet bettingmarkeddata frem fra Premier League sæsonen 2013-14. Jeg har fokuseret på Manchester City, der vandt ligaen nogenlunde sikkert. Her er fire hjemmekampe, hvor bettingmarkederne vurderede sandsynligheden for, at City vandt lige omkring de 83%

Home Team

Away Team

Probability

1

Man City

Norwich

84.03

2

Man City

West Brom

84.03

3

Man City

Hull

86.21

4

Man City

Fulham

86.96

Af de fire hold rykkede Norwich og Fulham ned, mens Hull og West Brom blev henholdsvis nummer 16 og 17. Så med andre ord: Goldman Sachs’ model implicerer, at sandsynligheden, for at Brasilien slår Holland, Uruguay, Tyskland og Argentina ved VM, er stort set den samme, som for at Manchester City hjemme slår Norwich, West Brom, Hull og Fulham i Premier League. Realistisk? Det synes bettin markederne sjovt nok ikke.

En andet mistænkeligt aspekt ved Goldman Sachs’ model er fordelingen af mål scoret i gruppespillet. Goldman forudser, at langt størstedelen af holdene scorer ét mål per kamp. Jeg har hentet resultaterne fra gruppespillet ved VM 2010, og her er fordelingen af mål scoret per hold per kamp i Goldmans model sammenlignet med fordelingen af faktisk scorede mål VM 2010:

goals

Som figuren viser, er der ret stor diskrepans mellem forventede mål per hold per kamp og faktisk scorede mål i 2010. Bemærk at det ikke nødvendigvis betyder, at Goldmans model er forkert, men at den forudsiger, at Cameroun som det eneste hold ikke formår at score i gruppespillet, gør mig en smule urolig.

Jeg vil gerne understrege, at min pointe ikke er at hænge hverken Goldman Sachs eller Danske Bank ud. Tværtimod skal de have stor ros for at lægge deres metode frem og estimere deres modeller med offentligt tilgængeligt data. Når jeg alligevel ikke tror så meget på resultaterne, er det snarere fordi, jeg tror, deres modeller er for simple. Det kan selvfølgelig godt ses som en svaghed, til gengæld giver det alle med en computer mulighed for at udvide modellerne med nye variable, og det kan jeg selvfølgelig ikke stå for.

Jeg har ofte spekuleret over, hvorvidt afstanden mellem to lande har en betydning for resultatet. Denne variabel indgår ikke i hverken Goldman eller Danske Banks model, men det kunne den sådan set godt. Det er (relativt) nemt at generere en variabel, der måler afstanden i kilometer mellem to lande. Jeg har gjort det simpelt og målt afstanden mellem landenes hovedstæder. Derudover har jeg indsamlet samme type data, som Goldman og Danske Bank bruger. Jeg har scrapet kampinformation fra ELOratings, økonomisk data fra Penn World Tables, Ballon D’or-data fra Wikipedia og forskellige småting rundt omkring (detaljerne kan findes her).

Jeg estimerer nu samme model som Danske Bank med en yderligere variabel, nemlig afstanden mellem hjemme- og udeholds hovedstæder målt i kilometer. Jeg inkluderer også denne variabel i anden for at tillade en mere fleksibel form. Den afhængige variabel er forskel mellem mål scoret af hjemme- og udehold, og jeg estimerer modellen på alle landskampe minus træningskampe siden 1960 (samme metode som i Goldman Sachs modellen, N = 6.258).
Både afstandsvariablen og afstandsvariablen i anden er signifikante på 1%-niveau og har de forventede tegn: Jo større afstand i kilometer, der er mellem hjemme- og udehold, jo bedre er det for hjemmeholdet. Denne effekt er dog aftagende og reduceres ligefrem for meget store afstande (det er dog usikkert, da N er relativt småt for større afstande end 10.000 kilometer). Vi kan plotte effekten af afstand således:

distance

Bemærk at denne graf er ret dårligt nyt for de europæiske hold. Jeg holder altid med Italien, når Danmark ikke deltager, og der er præcis 8.789 km mellem Rom og Brasilia, hvilket ifølge mine estimater svarer til en målforskel på cirka 0,4 mål i Brasiliens favør – skulle de to hold mødes til VM.

Ovenstående viser, at det med en smule arbejde burde være muligt at forbedre den type statistiske modeller som Danske Bank og Goldman bruger, når de prædikterer mulige vindere af VM, således at vi i fremtiden er bedre til at forudsige resultaterne, end det næste synske dyr medierne graver frem. Desværre viser ovenstående også, at Italien næppe vinder VM til sommer, og at det muligvis kan være en idé at have en ekstra sydamerikaner på dit VM-drømmehold denne gang.

Dette indlæg er også bragt på altandetlige.dk 

Leave a Reply

Your email address will not be published. Required fields are marked *

Sport Fortalt Sport Fortalt
Responsive Menu Image Responsive Menu Clicked Image