lördag 23 mars 2013

Tribal Statistics

Människor är usla när det kommer till siffror. Vi kan bara helt enkelt inte riktigt begripa oss på dem, och det är en av orsakerna till att forskare kan komma med alla välunderbyggda argument de vill om global uppvärmning, men att vi genast slutar tro på dem när det blir kallt där vi bor. Det är visserligen inte vårt eget fel, människohjärnan är inte konstruerad så, och handen på hjärtat, hur ofta är det nu man egentligen behöver behandla enorma mängder data, sådär rent alldagligt? Man behöver inte kunna analysera långsiktiga datatrender bara för att byta en glödlampa eller öppna en pilsner.

Det finns dock några grejer som alla borde känna till. Varje av dem låter superenkel när den förklaras, men de flesta av dem kommer att lura dig på nytt inom ett par dagar efter att du läst det här. Kom alltså ihåg att...


Det vi kallar "genomsnitt" är egentligen inte det
Här har du en chockerande statistik: Snittinkomsten i Finland ligger på 2901€ i månaden, efter skatt. Och om man som jag tjänar betydligt under det så kan det vara ganska obehaglig läsning. Du kanske tyckte att du hade det ganska okej, men känner dig eventuellt nu tvungen att börja sälja hembränt för att komma upp i de inkomstnivåer som din jävla granne förmodligen drar in. Vad är deras jävla hemlighet egentligen? De kan väll för fan inte alla sälja röv på Tavastgatan?!

Problemet är dock att:
Den populära användningen av termen "genomsnittlig" är dock rätt så olik den matematiska termen, men de används som om de var samma sak. Det är orsaken till att vi ofta blir förvånade, känner oss kränkta och mår dåligt över hur mycket rikare/fetare/längre genomsnittsfinländaren är än oss. I dagligt tal har ordet "genomsnitt" samma betydelse som "de flesta" eller "den mest representativa personen" (som i, "genomsnittsfinländaren läser inte klassisk litteratur" eller "Medelsvensson har fanimig inte råd att klä sig som Alexander Bard"). Men när man börjar dra fram termen för att prata statistik blir resultaten därför lite märkliga, som att 67% av Finlands befolkning tjänar mindre än "genomsnittet". Så hur i satan kan "genomsnittet" betyda "de flesta" när de flesta inte tillhör genomsnittet?

Nå, vi lärde oss alla i skolan att räkna ut genomsnittet: Du tar summan av alla värden du vill ha med och dividerar den med antalet värden. Vilket funkar bra om det du kikar på är förhållandevis nära:  genomsnittet av 1,2,3,4 och 5 är 3, mitt i och enkelt att komma fram till. Problemet är att genomsnitt är fullkomligt värdelösa om en minoritet av siffrorna är ovanligt höga - genomsnittet av 1,2,3,4 och 40 är till exempel 10, vilket inte hjälper någon att veta ett jota om någon av värdena.


Och det är problemet med statistik om "genomsnittsinkomst", en handfull snorrika jävlar snedvrider skiten ur talet. Om du tjänar mindre än genomsnittsinkomsten så är det inte för att ditt jobb lurar dig (okej, inte enbart därför) utan för att du lever i samma land som Antti Herlin och Nalle Wahlroos.

Vad har det för betydelse?
Detta kan tyckas vara löjlig enkelt när det förklaras, men faktum är att det skapar nya myter varje dag. Du kan till exempel se i officiella undersökningar att det för varje 100 finländare finns det ca 45 skjutvapen, vilket kunde få en att förmoda det är svårt att hitta någon förstabas som inte är beväpnad till tänderna. Sedan ser man att samma undersökning kommit fram till att endast 12% av befolkningen innehar vapenlicens. Och på samma sätt som med fyrket handlar det här om samma sak, en del som äger vapen äger massor av vapen, vilket totalt snedvrider helhetsbilden.

Detta är orsaken till att de flesta någorlunda respekterade källor som försöker undersöka förmögenhetsfördelning använder sig av median- inte genomsnittsinkomst. Medianen är den egentliga mittpunkten: man kommer dit genom att stryka värden på vardera sidan tills man kommer till mitten, vilket ger den aningen mer bekanta summan på 2212€. Och hasta lasagna så har jag med ens fått 17% av er att känna sig lite bättre till mods.



En påstående med "99% säkerhet" kan vara både sant och meningslöst
Tänk dig att du sitter i en läkarmottagning, och att vederbörande har dåliga nyheter, du har testat positivt för något slags cancer. Du frågar "nämen, är du helt säker?" och han informerar om att just detta test som används med 99% sannolikhet kan upptäcka cancer när den finns där och ger falska positiva resultat för friska människor vid bara 1% av alla tillfällen.

Voi satan! Du är 99% doomed! Så på med fallskärmen och hämta en flaska Domppa, här skall betas av listor på grejer att göra innan man dör!


Problemet är dock att:
Även om det som läkaren säger är sant, så är sannolikheten för att du faktiskt har cancer endast ca 1 på 3. "Okej, och hur exakt går det där ihop?" frågar du kanske nu. Jo, sidu, jag nämnde det faktiskt i ett inlägg för en par år sedan och det kallas sannolikhetsfelaktighet.

Ja, det är sant att om du faktiskt har cancer, så är kan testet med 99% säkerhet berätta detta för dig, vilket betyder att av 100 personer med sjukdomen så missar den bara en. Problemet är den andra, till synes meningslösa, siffran, dvs att när cancern inte är där kommer den fortfarande att visa positivt resultat 1% av gångerna. Så medan det försöker att hitta cancer, berättar den för så många friska att de har det att ett positivt resultat närmast blir meningslöst. Men hur kan detta stämma om det bara ger falskt positivt resultat 1% av gångerna. För att det talet fortfarande är enormt.

Under 2011 diagnosticerades i Finland 30132 fall av cancer, dvs en av i runda tal 180 finländare drabbades. Detta innebär att om ovanstående högst fiktiva och imaginära test hade använts på alla finländare skulle ca 55,000 (en procent av befolkningen) av de då totalt ca 85,000 positiva resultaten varit falska. Så för varje person med ett positivt resultat är chansen att ha något slags cancer endast dryga 35%. Vilket är en god orsak till att genomföra flera test, men knappast en orsak till att säga upp sig och börja testa heroin.

Vad har det för betydelse?
En massa teknologi kommer med dylika sorters löften, vilket låter imponerande, men endast om man inte tänker på volymerna som de appliceras på. Till exempel så skröt Transportation Security Administration, dvs den federa myndighet som ansvarar för säkerheten på alla inrikestransporter i USA, för ett par år sedan att deras nya terroristhittande utrustning kunde upptäcka över 99% av alla terrorister som passerade genom landet, medan det endast falskanklagade enbart 0,01% av alla oskyldiga resenärer.

"Nakenvisitering var inte alls så roligt som det lät på förhand."

Dessa siffror kan låta fantastiska, men som när det kommer till exemplet ovan med cancer, så kommer ett gigantiskt antal oskyldiga att behandlas som terrorister. Ta till exempel år 2010, när 700 miljoner passagerare steg på ett plan inom, till eller från USA. Om TSA:s terrordetektor då "endast" drämde till med falska positiva resultat 0,01% av alla gånger betyder det fortfarande att 70,000 stackars jävlar blev slitna ur bordningskön, anklagade och muddrade. Och under så gott som alla år var statistiskt sett exakt 0 av dem terrorister. Så de där 0,01% låter lysande enbart så länge du inte är en av dem som anklagas för att ha en bomb uppklämd i röven



Det som kallas "en epidemi" kan handla om slumpen
Studier har visat att folk som lever nära högspänningsledningar har högre risk att dö i cancer och andra sjukdomar! Det betyder att elektricitet dödar dig inifrån utan att någon märker det! Så det är tur att du inte just nu sitter med nyllet framför någon lysande grej som drivs av elektricitet...

"Kom genast ner därifrån! Du kan få cancer!"

Problemet är dock att:
Hela grejen med att "högspänningsledningar förorsakar cancer", handlade om en riktig forskningsrapport som skapade panik inte så fruktansvärt länge sedan. Den gick ut på att man tittade på en karta, ritade en cirkel runt folk som bodde nära högspänningsledningar och kollade vad för sjukdomar de hade. Och hast du mir gesehen så var det inte alls svårt att hitta grannskap smockfulla av cancer.

Men genom att göra det här så drabbades forskarna av det som kallas klusterillusion eller Texas sharpshooter fallacy, dvs att man ser falska mönster i random data. Namnet kommer från att man jämfört detta med en hypotetisk cowboy som skjuter en ladugårdsvägg full med hål och sedan målar en måltavla där flest skott har träffat.

Sanningen är nämligen den att i en tillräckligt stor befolkning så kommer man att hitta slumpmässiga mönster, speciellt om man ger sig själv oändligt utrymme att hitta likheter. Samma studie kunde därför kanske ha upptäckt att barn som lever nära högspänningsledningar har 5% högre risk att heta "Gavin" eller att de har 12% större benägenhet att föredra röda cyklar. Så länge man tittar på minimala skillnader och är oförsiktig kan man således komma fram till all slags märklig skit. Det undersökningen kom fram till var alltså att på vissa håll var barn fyra gånger så benägna att drabbas av leukemi (HERREGUD! Högspänningslinjer mördar våra barn!), men de ignorerade samtidigt det faktum att på andra områden så var barnen mindre benägna att ha det (YAY! Högspänningslinjer har magiska helande egenskaper!). I verkligheten så tog ytterligheterna ut varandra.

Och om du just tänkte säga att "Nåjo, men om de faktiskt var fyra gånger så benägna att bli sjuka så måste det nu finnas någon orsak till det!, så har du redan glömt åtminstone en grej jag redan nämnde:: (tips från coachen: leukemi är sällsynt, så det behövs inte särskilt många fall för att fyrdubbla antalet).

Vad har det för betydelse?
Kommer ni ihåg den där märkliga historien från ifjol om en nisse i Miami som flippade och åt upp ansikten på någon annan dude? Och i stort sett varje dag efter det kom det nyheter om flera bitanfall. Till och med skeptiker började då att fundera på om alla bitanfall ändå inte hade något samband.

Och det var klart att de hade det. Sambandet var att när folk börjar fightas så är det inte helt ovanligt att vi bits, men enbart efter Miamiincidenten fanns det en orsak att något sådant skulle räknas som nyhetsvärdigt. Det enda som hade ändrat var alltså att varje bett plötsligt blev en rubrik. Vi började söka efter mönster och där fanns det, men sedan blev vi uttråkade av det, även om någon någonstans biter någon just nu.

Nå, ibland finns det faktiskt riktiga trender, men som förorsakas av något helt orelevant. Vilket för till den största felaktigheten av alla...



Korrelation är inte samma sak som kausalitet
Medierna älskar att rapportera om de nyaste forskarrönen om som kommer att döda oss den här gången. Enligt den här studien om TV:s effekt på hälsan så kom forskarna chockerande nog fram till att TV-tittande är lika farligt som rökning, och att varje timme du ser på TV efter att du fyllt 25 kommer att skala hela 11 minuter av din livslängd.

Eller så kan man stöta på någon som är helt övertygad  om att vaccinering förorsakar autism hos barn. De kan till och med ha fantastiskt övertygande diagram om saken som visar att, ja, vaccinering har blivit vanligare, vilket antalet autismdiagnoser också gjort. Och de har diagram! Hur kan man argumentera mot diagram?!

"Som du kan se så är du matematiskt sett en fullständig skithög och förtjänar all den stryk du strax skall få!"
Problemet är dock att:
Om du vet något om hur en TV fungerar och förklaringen inte innehåller orden "svart magi", så har du kanske noterat att det är en låda med ljus och ledningar och det är ganska svårt att förstå hur en sådan godmodig hög med elektronik på detta sätt kan suga livskraften ur dig från andra sidan rummet. Och häri ligger problemet: man rapporterar om kausalitet när det egentligen handlar om korrelation.

Skillnaden är att innan du vet hur din TV försöker ta livet av dig så är allt du vet att television och döden är besläktade på något sätt. Det finns t.ex. inget sätt att kolla upp om massivt TV-tittande och att dö lite tidigare båda är symptom på något helt annat.

Det kan ju visserligen även ha något att göra med exakt var man ser på TV...
Och just det är exakt vad det verkar handla om här. Folk som inte tycker om att motionera tenderar att skaffa sig fritidssysselsättningar som inte involverar att röra på sig (som TV-tittande) och att inte få tillräckligt med motion är det som på riktigt är skadligt för hälsan. Det är till exempel i detta fall betydligt farligare att läsa en bok än att titta på TV på en motionscykel.

Vad har det för betydelse?
Ingen som helst egentligen, så länge vi kan hålla oss från att skylla problem på ovidkommande saker. Som om, till exempel, vi beslöt oss för att livräddande vacciner förorsakar autism när sanningen är att antalet barn som diagnostiserades med autism ökade för att vår förmåga att upptäcka autism ökade.

Inga kommentarer:

Skicka en kommentar