Olen nyt ehtinyt tutustua tuohon DoctorOfDangerin kirjoitukseen, joten voin kommentoida hänen menetelmäänsä ja esittää muutamia omia ajatuksia.
1) Estimate, or calculate the overround on the bets that you have made.
This will vary from sport to sport, and will strongly depend on how much shopping around you do for the best prices. To take an example - if you bet on the 1X2 market for English Premiership football, an individual bookie will typcially have an overround in the region of 11%. If you select from a range (e.g. 5 or 6) of bookies, you will normally bring this down to circa 5%. Lets assume for the rest of our example that the overround is 5%
Opastaessaan Khii toiseen -testin soveltamista Tohtori väittää, että useimpien välittäjien marginaali olisi noin 11 %, mutta että ottamalla valikoimaansa 5-6 välittäjää ja pelaamalla vetonsa sille, joka tarjoaa parhaan kertoimen, bookkereiden edun voisi pudottaa noin viiteen prosenttiin. En tiedä, milloin artikkeli on kirjoitettu, mutta ilmeisesti siitä on aikaa enemmän kuin 10 vuotta. Nykyään tilanne on aivan toinen.
2) Calculate the average odds at which you have bet.
Lets say 2.31 for our example
3) Multiply the odds above by the overround e.g. 2.31*1.05 (5% overround) to get the 'bookies fair odds'. In this case that gives us a value of 2.43
4) Invert the answer from (3) above to get the 'bookies true chance'
i.e. the probability of winning as estimated by the bookmaker. In this case 0.412, i.e. 41.2% chance. This is effectively the 'strike rate' that the bookie would expect you to have on the market.
5) Multiply the answer from (4) above by the number of bets made.
Lets say we have made 165 bets, we would get an answer of 165*0.412=68.03. This is the number of winning bets that the bookie would expect you to have, assuming you had guessed randomly (according to the odds offered). 68.03 winners from 165 bets, means that the balance, 96.97 bets, were losers.
Kakkoskohdassa pitäisi laskea pelattujen vetojen keskimääräinen kerroin, jotta myöhemmin saataisiin laskettua bookkerin keskimääräinen "arvio". Keskimääräinen kerroin riippuu kuitenkin hyvin voimakkaasti otoksen suurimmista kertoimista. Jos on esimerkiksi pelannut 200 vetoa kertoimella 1,90, on keskimääräinen kerroin 1,90 ja sitä vastaava tn (olettaen, että vedonvälittäjällä on 5 prosentin etumarginaali) 50 %. Mutta jos on pelannut 199 vetoa kertoimella 1,90 ja yhden vedon kertoimella 200, on keskimääräinen kerroin 2,89. Jos ajatellaan, että tämä kerroin on vedonvälittäjän tarjoama kerroin, niin "reilu" kerroin on silloin n. 3,04, joka vastaa 33 prosentin todennäköisyyttä.
Kolmoskohdassa Tohtori muuntaa keskimääräisen kertoimen "vedonvälittäjän reiluksi kertoimeksi", mutta tekee sen väärin. Jos vedonvälittäjän etu on 5 %, pelaajan saama kerroin K muuntuu vedonvälittäjän arvioimaksi "reiluksi kertoimeksi" R kaavalla: R = (1/(1-0,05))*K. Ei siis R = (1+0,05)*K. Ero ei ole suuri, kun vedonvälittäjän etumarginaali on pieni, mutta esimerkiksi erikoisvetojen kohdalla etumarginaali on paljon suurempi kuin 0,05 ja silloin asialla on merkitystä. Ajatellaan vaikka tilannetta, jossa vedonvälittäjä tarjoaa tennisottelun ensimmäisen erän tuloksesta 6-4 kerrointa 4,8 matemaattisen palautusprosentin ollessa 80. Tällöin reilu kerroin R = (1/0,8)*4,80 = 6,00 eikä 1,2*4,8 = 5,76, kuten Tohtori laskisi.
Neloskohdassa "vedonvälittäjän reilusta kertoimesta" otetaan käänteisluku, jolloin Tohtorin mukaan saadaan (keskimääräinen) "osumatarkkuus", jonka vedovälittäjä olettaa pelaajan saavuttavan. Toisin sanoen "reilun kertoimen" käänteisluku antaa Tohtorin mukaan vedonvälittäjän todennäköisyysarvion tapahtumalle, että pelaajan veto osuu. Tällöin hän olettaa, että vedonvälittäjät asettavat kertoimensa arvioimiensa todennäköisyyksien mukaan pelikäyttäytymisestä välittämättä, mikä ei varmaankaan pidä paikkaansa. Pahempi juttu on kuitenkin se, että nyt törmätään täydellä voimalla kakkoskohdassa alkunsa saaneeseen ongelmaan eli siihen, että todennäköisyyksiä lähdettiin laskemaan pelaajan vedoilleen saamien kertoimien keskiarvosta sen sijaan, että olisi käytetty hänen todennäköisyysarvioidensa keskiarvoa. Tämä on ehkä ymmärrettävää siinä mielessä, että harva peluri kirjaa ylös omia todennäköisyysarvioitaan, kun taas kullekin välittäjälle pelattujen vetojen kertoimet on helppo tarkistaa oman pelitilin historiatiedoista. Tosiasia on kuitenkin se, että nyt mennään metsään pahemman kerran - paitsi siinä tapauksessa, että kaikki vedot on pelattu (suunnilleen) samalla kertoimella. Oikea korjaava toimenpide - mikäli haluaa edes jotenkin järkeviä tuloksia - on palata kakkoskohtaan ja laskea pelattujen vetojen keskimääräisen kertoimen sijaan pelattujen vetojen kertoimien käänteislukujen keskiarvo ja ottaa siitä käänteisluku, kuten pka ehtikin yllä jo ehdottaa.
Viitoskohdassa on edelleen sama ongelma kuin neloskohdassa. Jos palataan aikaisempaan numeeriseen esimerkkiin, jossa tapauksessa (1) pelaajalla oli 200 vetoa kertoimella 1,90 ja tapauksessa (2) 199 vetoa kertoimella 1,90 ja yksi veto kertoimella 200, niin huomataan, että jälkimmäisessä tapauksessa Tohtorin menetelmällä saadaan tulokseksi, että osuneita vetoja pitäisi olla (mikäli oletetaan vedonvälittäjän arvioiden pitävän paikkansa) noin 66 kappaletta (=0,33*200), vaikka oikeasti osuneiden vetojen määrän odotusarvo on lähellä sataa, tarkkaan ottaen hieman yli 99,5 (=199*0,5 + 1*(1/200*(1/1-0,05)).
7) Use the 'Chitest' function in Excel to evaluate the following: CHITEST(A1:A2,B1:B2) where cells A1 & A2 contain the actual number of winning and losing bets (i.e. 75 and 90 respectively in our example), and cells B1 and B2 contain the estimated number of winners and losers, i.e. 68.03 and 96.97
8) The answer returned in (7) above, i.e. 0.27, is the probability that the number of winners and losers you obtained is as a result of chance, i.e. just a lucky run. In other words there is a 27% chance that this is just a lucky run, and correspondingly, a 73% chance that you have a winning system.
Kohdissa seitsemän ja kahdeksan selitetään Khii toiseen -testin käyttö Excelissä suunnilleen oikein, mutta vedetään "ylitulkitseva" johtopäätös.
Itse ajattelin, että Khii toiseen -testiä voisi käyttää lähinnä omien todennäköisyysarvioiden testaamiseen (jolloin omat arviot muodostaisivat sen teoreettisen jakauman, joka nollahypoteesin perusteella oletetaan oikeaksi) toteutuneita tuloksia vastaan. Tohtori tekee kuitenkin niin päin, että hän itse asiassa testaa vedonvälittäjien (tai markkinan) arvioita vedonlyöjän arvioita vastaan. Asetelman kääntäminen näin päin ei sinänsä ole kamalan huono ratkaisu (eräällä tavalla se on jopa parempi kuin omien arvioiden oikeellisuuden asettaminen nollahypoteesiksi), mutta on aika karkeaa testin tulosten ylitulkintaa, että pelaajalla olisi 73 prosentin todennäköisyydellä "winning system", kun p-arvo on 0,27. Se, mitä tuollaisesta tuloksesta voidaan päätellä (jos siis kaikki alustavat laskelmat on tehty oikein, mikä ei tässä tapauksessa pidä paikkaansa), on se, että vedonlyöjä on tarkastellussa sarjassa 73 prosentin todennäköisyydellä tehnyt sen verran parempia arvioita kuin vedonvälittäjä (tai markkina), että hän tilanteen jatkuessa samana (eli jos vedonvälittäjät eivät paranna omaa kertoimenlaskentaansa), voi odottaa samaa menetelmää käyttäen pystyvänsä voitolliseen peliin. Ei siis ole mitenkään varmaa, että vaikka testin p-arvo olisi 0,001, pelaajalla olisi tästä ikuisuuteen voittoisa pelisyysteemi. Loppujen lopuksi todennäköisin vaihtoehto on nimittäin se, että oikeat todennäköisyydet ovat useimmissa tapauksissa jossain markkinan/vedonvälittäjien ja vedonlyöjän omien arvioiden välissä. Jos vedonlyöjän arvio poikkeaa keskimäärin 2 prosenttia oikeasta todennäköisyydestä ja vedonvälittäjän arvio 5 %, vedonlyöjä todennäköisesti pystyy voitolliseen peliin. Mutta jos vedonvälittäjät parantavat omia arvioitaan siten, että ne poikkeavat enää vain 3 prosenttia absoluuttisesti oikeista todennäköisyyksistä, voittavasta vedonlyöjästä tulee luultavasti häviävä vedonlyöjä vedonvälittäjien etumarginaalin takia. On mahdollista, että Tohtorin Khii-toiseen testi antaa molemmissa tapauksissa (riittävän suurilla otoksilla) tulokseksi, että vedonlyöjä on voitollinen, vaikka kirjanpito jälkimmäisessä tapauksessa osoittaisi tappiota! Tämä johtuu siis siitä, että myös tappiollinen vedonlyöjä voi saavuttaa enemmän osumia kuin vedonvälittäjä olettaisi hänen saavuttavan.
Lopuksi vielä lyhyesti hypoteesien testauksesta ja p-arvoista (nyt ei ole enää aikaa kirjoitella enempää). Tieteessä on vakiintunut käytäntö, että kvantitatiivisessa tutkimuksessa asetetaan ensin nollahypoteesiksi (jonka kumoamista tutkimuksella tavoitellaan) oletus, ettei tutkimuksen tekijän teoria pidä paikkaansa siten, että nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi hyväksytään, jos jokin ennalta määrätty p-arvo alittuu. P-arvo 0,05 vastaa 5 prosentin riskiä tehdä väärä johtopäätös nollahypoteesin hylkäämisessä, p-arvo 0,01 vastaa yhden prosentin riskiä tehdä väärä johtopäätös, jne. Nämä riskitasot ovat vakiintuneet käyttöön, koska aikoinaan p-arvojen laskeminen käsipelillä oli työlästä ja päätettiin laskea valmiit taulukot tietyille p-arvoille. Tuota hypoteesien asettamista ja testaamista opetetaan kai jo lukioista lähtien, mutta se on kovin kankeaa. Paljon fiksumpaa on käyttää suoraan p-arvoa ja tapauskohtaisesti miettiä, minkälaisten johtopäätösten tekemiseen jokin tietty p-arvo oikeuttaa. Esimerkiksi vedonlyöjät ovat usein siinä tilanteessa, että on suorastaan tuhoisaa odottaa sitä, että saavuttaa "tilastollisesti merkitsevän" varmuuden jonkin asian paikkansapitävyydestä - tällöin voi käydä joko niin, että hakkaa päätään seinään pelaamalla tappiollisia vetoja, tai niin, että tuottoisa tilaisuus jää hyödyntämättä. Toisin kuin Tohtori väittää, useimmat tilastotieteilijät eivät tarvitse 99 prosentin tilastollista varmuutta tehdäkseen johtopäätöksiä; siihen sortuvat lähinnä tilastotiedettä soveltavat tutkijat oman alan käytäntöjensä, tieteellisten julkaisujen vaatimusten tai oman ymmärtämättömyyntensä/varovaisuutensa takia.
EDIT: Korjattu laskentakaava R:lle.