EPILOGI
Kausi 2013 on paketissa. Alla mietteitä menneestä ja ajatuksia tulevasta.
Varoituksen sana: Mikäli et jaksa lukea pitkiä tekstejä, siirry lukemaan esim. Kauppalehden nettisivuja, joilta löytyy hienoja muutaman lauseen “artikkeleita”. Alla muutama esimerkkiotsikko:
“Nokia romahti!”, “Jättiosingot!”, “Öky-Ollilla!”, “Kohu-Ollilla!”, “Kohujohtaja!”, “Ökyjohtaja!”, “Kohu-Nokia!”, “Kohunoksu!”, “Noksukohu!”, “Öky-Nokia!”, “Ökynoksu!”, jne…
Sori, lyhyt kannanottoni tämän päivän laatujournalismista, tai ennemmin sen puutteesta. Sitten asiaan.
Kirjoitukseni tarkoituksena on käydä läpi kausi 2013 numeroiden valossa, avata omaa tekemistäni ja ehkä jopa antaa muille uusia ideoita ja näkökulmia mallintamiseen ja arviointiin liittyen. Tarkoitusperäni on myös osittain hieman itsekäs, koska toivon saavani muilta palautetta ja mielipiteitä, joita voin käyttää oman toimintani kehittämiseen. Uskon myös, että mikäli jonain päivänä haluan kaupallistaa vihjeeni on se paljon helpompi tehdä, mikäli on avannut omaa toimintatapaansa mahdollisimman hyvin. Tämä ei tietenkään ole tae tuotoista ja onnistumisista, mutta pienentää ehkä epäluuloa, joka aina jossain määrin liittyy tähän toimintaan.
COLD NUMBERS
Aloitetaan numeroilla, koska totuus löytyy niistä.
- 2013.PNG (18.32 KiB) Katsottu 4772 kertaa
Maaliskuussa asetin seuraavat arviot ja tavoitteet kaudelle 2013: Noin 400 ML vihjettä 104 % palautuksella. Moneyline-vihjeitä tuli odotettua enemmän, 553 kpl, palautusprosentin ollessa todella heikko 98.4 %. Runline-vihjeitä tuli 336 kpl palautusprosentin ollessa kohtalainen 102.4 %. Side-vihjeitä oli siis yhteensä 889 kpl palautusprosentin jäädessä hieman alle 100 % (99.7 %). Side-vihjeiden osalta jäin selkeästi alle odotetun ja tavoitellun tuloksen. Syitä on varmasti monia. Talven testikauden aikana aion paneutua ainakin tiukemman filtterin mallintamiseen ja testaaminen, jolla saisin vihjeiden määrää hieman pudotettua ja näin ollen häntiä karsittua. Pyrin myös löytämään hyvän ja mahdollisimman toimivan tavan arvioida todennäköiset käytössä olevat vaihtosyöttäjät. Näiden kahden asian kehittely, testaaminen ja implementointi vievät varmasti paljon aikaa, mutta uskon, että näillä toimilla pääsen taas askeleen eteenpäin.
Totals-vihjeitä tuli kauden aikana 436 kpl palautusprosentin ollessa hyvä 104.5 %. Totals-malliini olenkin varsin tyytyväinen ja uskonkin sen olevan, jos nyt ei maailman paras, niin ainakin pohjois-euroopan eliittiä.
Malli pohjautuu samaan laskentaan kuin side-kohteissa. Muokkaan arvioita tiettyjen ottelu-, kenttä- ja pelaajakohtaisten oletusten ja parametrien mukaan, esim. ottelupäivän lämpötila ja ilman kosteus ottelupaikkakunnalla nostaa/laskee ottelun odotettua juoksumäärää 0-5 %. Myös kentän muodolla ja koolla on vaikutus tietyn kertoimen mukaan (park factors). Lisäksi aloittavien syöttäjien syöttötyyli (groundball/flyball) vaikuttaa ottelun odotettuun juoksumäärään.
Kaiken kaikkiaan vihjeitä tuli paljon, yli 1300 kpl. Positiivista suureessa vihjemäärässä on tuurista johtuvien heilahtelujen nopeampi (ainakin teoriassa) tasoittuminen. Palautusprosentti taas jää väkisinkin hieman alhaisemmaksi, koska näin suurella vihjemäärässä ei tehokkailla markkinoilla voi odottaa löytävänsä paljon valueta kaikissa otteluissa. Tästä päästäänkin siihen, että käyttämäni malli ei ole vielä täysin valmis (tuskin koskaan on).
Sulateltuani muutaman päivän tämän kauden tulosta, on ajatukseni kaudesta muuttunut hieman positiivisemmaksi juuri suuren vihjemäärän vuoksi. 101.37 % (+38.6 yks) palautus, 1325 vihjettä ja keskimäärin 2.13 yksikön keskimääräinen panos vastaa noin 3.0 % palautusta 600 vihjeellä, 3.6 % palautusta 500 vihjeellä ja 4.5 % palautusta 400 vihjeellä. Tämä ei ehkä ole täysin oikea tapa ajatella asiaa, mutta antaa ainakin osviittaa siitä, mitä palautusprosentin pitää olla pienemmillä vihjemäärillä, jotta päästäisiin vastaavanlaiseen (euro-/yksikkömääräiseen) tulokseen.
ANALYYSI
Käytän siis mallia, joka antaa automaattisesti todennäköisyysarviot kauden jokaiseen otteluun. Mallin taustalla on satoja tunteja laskentaa ja testausta, mutta silti en suoraan käytä sen antamia arvioita. Mallin tuottamat luvut toimivat pohjana analyysille ja ovatkin useasti hyvin lähellä lopullisia arvioita. Käyn kuitenkin jokaisen ottelun yksitellen läpi apunani iso kasa tilastoja. Alla kuva tilastosivultani (joka hakee tietokannastani tiedot jokaista ottelua varten), jonka avulla pyrin rakentamaan kokonaiskuvan ottelusta ja joko vahvistamaan mallin antaman arvion tai hylkäämään sen.
- tilastot.png (103.03 KiB) Katsottu 4772 kertaa
Käytän mallissani useita eri tilastoja ja tunnuslukuja. Painottamalla näitä eri tavalla ja käyttämällä niistä eripituisia aikasarjoja (trendejä) pääsen monen mutkan kautta lopulliseen arvioon (voimaluku). En nyt koe aiheelliseksi tai tarpeelliseksi avata kaikkia yksittäisiä tilastoja/tunnuslukuja joita käytän, mutta yksi huomio liittyen tilastojen/tunnuslukujen valintaan on mielestäni erittäin tärkeä. Tämä on varmasti itsestäänselvyys monelle, mutta nostan kuitenkin esille tilastojen/tunnuslukujen valinnan ja käyttötarkoituksen. Kannattaa miettiä tarkasti mitä haluaa mitata/arvioida ja onnistuuko se käytössä olevilla tilastoilla/tunnusluvuilla. Hieman kömpelö esimerkki jalkapallosta, jonka johtopäätös ei välttämättä edes ole oikea, mutta tajuatte varmaan pointin:
Mikäli halutaan arvioida miten monta maalia joukkue todennäköisesti tekee arvioitavana olevassa ottelussa, kannattaako tilastona käyttää tehtyjä maaleja vai jotain muuta? Mielestäni ollaan lähempänä totuutta, mikäli pystytään identifioimaan ne tekijät/ominaisuudet jotka vaikuttavat maalien syntymiseen eli esim. pelaajien nopeus, taito, fysiikka, taktiset kyvyt jne. Tehdyt maalit kun ei välttämättä parhaalla tavalla ennusta tulevia tehtyjä maaleja.
Tiedän, että jalkapallossa käytetään paljon Poisson-jakaumaan perustuvia malleja. Em. on vain havainnollistava esimerkki. Baseballissa, esim. ennakoitaessa syöttäjän xERA:ta (expected earned run average) yksittäiseen otteluun, ei kannata käyttää syöttäjän historiallista ERA:ta vaan esim. strikeouteista, walkeista ja homeruneista johdettua FIP-tunnuslukua (fielding independent pitching). FIP ennakoi hieman paremmin tulevaa, koska se ei sisällä tuurista johtuvia satunnaisuuksia toisin kuin ERA.
Ensi kaudeksi tulen päivittämään tilastovalikoimaani ja tunnuslukuja joita käytän analyysissani. Varsinkin lyöntipelin arviointiin olen identifioinut muutaman vaihtoehtoisen tavan, mm. valmiin ennustusmallin (kiinnostuneille lisää tietoa
http://www.fangraphs.com/library/principles/projections), jotka todennäköisesti lisään työkalupakkiini. Näiden lisääminen poistaa toivottavasti ongelman, joka ilmeni muutaman joukkueen perusanalyysin kohdalla (esim. Houstonin lyöntipelin voimaluku oli lähes poikkeuksetta hieman ”liian korkea”). Tulen myös kiinnittämään enemmän huomiota eri tilastojen/tunnuslukujen luotettavuuden mittaamiseen. Tämä tarkoittaa käytännössä yksittäisen pelaajan eri tilastojen/tunnuslukujen keskihajonnan tarkastelua. Mikäli hajonta on jonkun tilaston/tunnusluvun kohdalla suurta, ei kyseistä tilastoa/tunnuslukua välttämättä kannata tämän pelaaja osalta käyttää, koska tällaisen tilaston/tunnusluvun perusteella ei voida sanoa tulevasta juuri mitään. Alla esimerkki:
Nick Hundley, hit% last 3 seasons: 0.20, 0.35, 0.30 -> hit%-tunnuslukua on vaikea ennustaa kolmen edelliskauden numeroiden perusteella, koska hajonta kausien välillä on suurta.
Mikäli taas hajonta on vähäistä, voidaan kyseisellä tilastolla/tunnusluvulla mahdollisesti tehdä johtopäätöksiä tulevasta. Alla esimerkki:
Matt Cain, WHIP last 3 seasons: 1.04, 1.08, 1.08 -> WHIP-tunnusluvun voidaan suhteellisen suurella todennäköisyydellä olettaa olevan lähellä kolmen edelliskauden keskiarvoa 1.07.
Yllä esitetyt esimerkit ovat hyvin yksinkertaistettuja.
HUOMIOITA KAUDELTA 2013
Vihjeiden määrä oli tosiaan suuri kaudella 2013. Kuitenkin sanallisten perustelujen ja muun oheistuotoksen määrä jäi harmittavan pieneksi. Jossain vaiheessa alkukesää totesin, että mikäli haluan kahlata koko kauden läpi edes kohtalaisella menestyksellä, joudun miettimään tarkasti mihin käytän aikani. Kyhäsinkin kasaan ”teksti-generaattorin”, mutta se vaatii vielä todella paljon duunia, että saan lisättyä automaattisesti tuotettua laadukasta ja vaihtelevaa tekstiä vihjeiden oheen. Oleellinen kysymys on myös, onko tämäntyyppisestä analyysistä hyötyä kenellekään?
Testailin myös eri asioita kauden aikana mm. aloittavan syöttäjän edellisen ottelun suorituksen vaikutusta close-kertoimiin. Aiheesta olikin lyhyt juttu blogissani 10.9:
"Mikäli tällä kaudella (elokuun loppuun saakka) olisi pelannut moneyline vedon kaikkia sellaisia joukkueita vastaan, jossa aloittava startteri olisi tiettyjen kriteereiden mukaan* syöttänyt vähintään 50% paremman edellisen ottelun kuin sarjan keskitason syöttäjä, olisi pelkästään tätä parametria käyttäen saanut peliä 568 ML kohteen verran palautusprosentin ollessa 104,7% (Oddsportalista keskimääräiset close kertoimet, jotka ovat keskimäärin Pinnaclen close kertoimia heikommat). Mikäli tässä havainnossa on mitään perää tarkoittaa tämä käytännössä sitä, että MLB:tä pelaavat vedonlyöjät painottavat liikaa aloitussyöttäjien edellisen ottelun suoritusta. Tässä päästään sujuvasti käyttäytymistieteen puolelle, mikä sinänsä on ihan mielenkiintoinen ala myös vedonlyöjän kannalta (rahoitusalallahan on tutkittu jo jonkin verran sijoittajien käyttäytymismalleja esim. laumakäyttäytymistä). Kun ehdin teen saman "ajon" hieman isommalla otoksella."
Tutkittuani yllä olevaa keissiä pidemmällä otannalla, katosi tällä kaudella voimissaan ollut trendi kokonaan. Vastaavia ilmiöitä on hauska tutkia mutta totuus taitaa kuitenkin olla, että niistä hyvin harvoin mitään käyttökelpoista löytyy.
KAUSI 2014
Homma tosiaan jatkuu ensi kaudella ja tavoitteenani on tarjota tuottavampia ja laadukkaampia vihjeitä sekä fiksumpia ja viihdyttävämpiä kirjoituksia. Aika näyttää tuoko tulevaisuus jotain muutakin tullessaan. Pienin askelin ja nöyrästi eteenpäin.
Itä-Helsinki hiljenee.
Locke and Stults must start.