Du skal sammenfatte data med det geometriske middelværdi

Som informationsdesigner er jeg tiltalt for at opsummere data. Men selv det enkleste spørgsmål, som ”Hvor stort er en typisk sag?” Præsenterer valg om, hvad man skal gøre; om, hvilken slags resume man skal bruge. Et "gennemsnit" antages at beskrive noget som et typisk tilfælde eller "central tendens" af dataene. Men der er mange slags gennemsnit, som du måske ved. Her vil jeg give et hurtigt overblik over to velkendte gennemsnit, median og aritmetisk middelværdi, og sammenligne dem med en tredje, det geometriske middelværdi - som jeg synes burde få meget mere brug end det gør.

For at hjælpe med at illustrere hver af statistikkerne bruger jeg et lille eksempel-datasæt i hele artiklen:

Medianen

Dette er, når du vælger det midterste element i dine data, efter at have bestilt dem fra små til store (og hvis der er et jævnt tal, skal du tage det aritmetiske gennemsnit af de to, der er tættest på midten). I vores eksempel er dette 2:

Medianer er nyttige til at dele dataene i to halvdele, hver med det samme antal elementer - f.eks. “Store” og “små” skraldespande. Medianen er virkelig et specielt tilfælde af et kvantil: det er den 50. percentil (50/100) eller den anden kvartil (2/4), hvilket betyder, at det nemt kan parres med andre kvantiler, ligesom det med kasse-og-whisker-plot .

Ekstreme værdier

En fordel ved medianerne er, at de ignorerer ekstreme værdier. Dette kan være nyttigt, men efter min erfaring ønsker folk at ignorere ekstremer alt for let: de kategoriserer alt, der er upraktisk for deres kæledyrsteori, som en "outlier" og sletter den. Men ekstremer hjælper med at fortælle dig, hvad der er muligt, og kan antyde en meget anderledes fordeling i dine data end hvad du forventer. Vær forsigtig med at narre dig selv.

Faktisk ignorerer medianer ikke bare outliers 'værdier: de ignorerer værdierne for alt, undtagen fra det midterste element. Ellers er det kun vigtigt for rangordren. Risikoen for dette kan ses i eksemplet: 44% af elementerne er 9'ere, men denne værdi påvirker ikke medianen: 9'erne kunne være alt, endda 1 million hver, og medianen ville forblive 2.

Det er svært at gå galt forkert ved at bruge medianer som din sammendragsstatistik: de arbejder på mange slags data og er robuste med hensyn til outliers. Men fordi de ignorerer så meget af dataene, fungerer de ikke godt med små datasæt. Og de kan ikke bruges godt som en del af nøgletal eller mange andre manipulationer - som vi snart ser.

Den aritmetiske gennemsnit

Du vil normalt bare kalde dette "middelværdi" eller, hvis du er slurvet med ord, "gennemsnittet" (som Microsoft Excel gør): tilføj alt op og divider med antallet af elementer. Disse trin spreder effektivt den samlede værdi, du har over alle de sager, du har, hvilket gør alle sager ens. Grundlæggende svarer du på spørgsmålet "Hvad skulle hver enkelt sag være, hvis alle tilfælde var identiske?"

Du kan også se på den gennemsnitlige beregning geometrisk: middelværdien genkonfigurerer separate områder til et stort område og derefter skærer det i lige store dele:

Sammenlignet med medianen har middelværdien en reel fordel: det tager højde for alle værdier og er meget mindre tilbøjelige til at springe rundt, hvis du tilføjer et datapunkt eller to (medmindre de er ekstreme).

Sørg for, at det giver mening

En vigtig forudsætning er, at de mængder, du beregner, skal være "tilføjelige" på en eller anden sensisk måde i betragtning af den virkelige betydning af dine data. Normalt er dette ikke nogen big deal: du kan næsten altid finde en gyldig fortolkning af det aritmetiske middelværdi. Spørgsmålet er, om det er den fortolkning, du ønsker - fordi alternative statistikker kan give andre rimelige resultater på samme tid, og du er nødt til at beslutte.

"Trick" bedstemor problem

Et almindeligt slags matematikproblem forsøger at lukke eleverne til at tage et aritmetisk middel, når de ikke skulle: ”Du kører 40 km / t til bedstemors hus og derefter 60 km / t tilbage; hvad var din gennemsnitlige hastighed? ”Den naive studerende skriver 50, ignorerer“ mph ”så meget som muligt og behandler værdierne som afstande. Tricket er, at tiden er skjult i enhederne, men faktisk skifter mellem rejsenes to ben. For at få det ønskede svar skal benene vægtes forskelligt, enten med et vægtet gennemsnit (nogle værdier duplikeres effektivt for at tælle for mere), eller et harmonisk middel (som jeg ikke vil diskutere i denne artikel). Fordi vi virkelig beskæftiger os med priser, med en "per time" derinde, giver additiv kombination ikke længere mening. En anden moral er at være opmærksom på enheder.

(Nogle mennesker vil, når de forklarer problemet ovenfor, erklære, at harmoniske midler altid skal bruges til gennemsnitlige priser. Men intet af den slags er sandt: det afhænger af, om tid eller afstand varierer, og af hvad du er interesseret i. Pas på tæpperegler, især fra internettet, bortset fra dette!)

Den geometriske gennemsnit

Handlingen her er parallelle med det aritmetiske middel, men vi kombinerer vores værdier med et produkt i stedet for en sum, og opdeler dem derefter igen med en rod. Den begrebsmæssige forskel er at se hvert datapunkt som en skaleringsfaktor, som kombineres ved at forøge hinanden multiplikativt. I vores eksempeldata har vi: 1 x 2 x 2 x 2 x 2 x 9 x 9 x 9 x 9 = 104.976; og den 9. rod deraf giver ca. 3,6.

Der er også en rumlig fortolkning af dette, det er lidt, men sværere: hvert element udvider et volumen til en anden dimension, i alt 9 dimensioner. Vi klemmer derefter dette hypervolumen ind i en firkantet form, så hver kant er den samme, og måler en kant. Det vil sige, gennemsnittet er hvad enhver skaleringsfaktor ville være, hvis de alle var ens.

Hvis det virker for abstrakt, kan du prøve at forestille dig, hvad der sker med kun tre datapunkter, som er analogt: vi måler længden, højden og bredden af ​​et rektangulært objekt, klemmer det i en terning og måler den ene side af det. Vi kan ikke illustrere dette godt på papir eller pixels, men her er en rå illustration:

Den store antagelse af det geometriske middelværdi er, at dataene virkelig kan fortolkes som skaleringsfaktorer: der kan ikke være nuller eller negative tal, som virkelig ikke gælder. (Du kan teknisk beregne det med nuller, men så vil resultatet også være 0; ikke særlig informativ.) Nogle computere kan også bruges, når du tager produktet fra et stort datasæt fra mangel på hukommelse. Men frygt ikke, du kan gøre algoritmen i omvendt rækkefølge med rødder først og produkt sekund.

Jeg er tilhænger af det geometriske middel, og det har mange fordele og gode anvendelser. Jeg vil diskutere en håndfuld nedenfor - mange siger virkelig lignende ting, men i forskellige sammenhænge for forskellige mål.

Skæve data

I den virkelige verden er data ofte skæve nedad, med en masse små værdier og et par store. (For eksempel: samværet mellem arter i en skov, lønninger i et selskab, afstand til ture, der er taget i din bil.) Hvis dette er, hvad du har, vil det aritmetiske middelværdi mislykkes og fejle spektakulært at beskrive den "centrale tendens" - du har brug for det geometriske middelværdi i stedet.

Overvej hvad der sker, hvis vi ændrer vores eksempel-datasæt for at gøre den endelige værdi til en ekstrem outlier på 90 i stedet for 9, hvilket gør de fleste af vores værdier relativt meget små:

Vi kan se, hvordan det aritmetiske middelværdi er yderst følsomt over for denne outlier: det antyder nu, at en "typisk" værdi er 14, selv når kun et element når dette niveau. Ekstrem ufølsomhed over for udliggeren ses i medianen: den beregner stadig til 2 på trods af denne store ændring. Det geometriske middelværdi tilbyder et kompromis: det skifter opad, fra 3,6 til 4,7, men øges ikke med størrelsesordrer bare på grund af et datapunkt.

Lognormale data og små prøver

En arketype af skæve data er "lognormal" distribution. Det er lidt glattere end vores eksempel, men lignende. Interessant nok er medianen og det geometriske middelværdi i et ægte lognormalt datasæt identiske.

Dette kan antyde, at medianen er at foretrække - da det er det samme, men lettere at beregne. Men ikke så hurtigt.

De data, du har, er ofte kun et stikprøve, som vi håber er repræsentative for hele ”befolkningen.” Vi håber også, at vi har statistikker, der kan udlede populationsværdierne fra stikprøven. Prøvestørrelse betyder meget, med større prøver altid giver et bedre gæt. Medianen er "ineffektiv" sammenlignet med midlerne, idet du har brug for større prøver for at få gode resultater. Du kan se det i det originale datasæt, som var ret lille: Hvis vi kun havde tilføjet en værdi, kunne medianen have sprunget markant. Enten af ​​midlerne, der bruger alle data i din prøve, er mindre modtagelige for det.

Så det geometriske middelværdi klarer sig bedre med små prøver og vurderer populationsmedianen alligevel: brug det.

Er dine data lognormale?

Du kan teste, om du statistisk har distribueret log-normalt distribuerede data, men her er to måder at gøre et groft gæt på.

Grafisk test

  1. Planlæg fordelingen af ​​dine data, efter at du har anvendt en logaritme til dem (hvilket som helst vil gøre).
  2. Hvis kurven forekommer klokkeformet, dvs. "normal" eller "gaussisk", var den originale fordeling omtrent log-normal.

Gennemsnitlig test

  1. Sammenlign omfanget af dine data (minimum og maksimum) med middelværdien: Find forskelle mellem dem og gennemsnittet og også kvoterne.
  2. Hvis forskellene er omtrent de samme, betyder det, at dataene er ret symmetriske og normale. Men hvis kvoterne er ens, er dataene mere sandsynligt log-symmetriske og skævede til venstre lognormalt.

For eksempel, hvis jeg har mindst 1, et gennemsnit på 3 og højst 9, får jeg forskelle på 2 og 7, men kvoter på 3 og 3 - så jeg siger, at dataene er skæve.

Du kan også se på høje og lave kvantiler (f.eks. 10., 50. og 90.).

Lige forhold

Det geometriske gennemsnit håndterer også forholdene på en ensartet måde, mens den anden måling ikke gør det. Med det aritmetiske middelværdi og medianen er der en forskel mellem det gennemsnitlige forhold og gennemsnittet. Det vil sige, i hvilken rækkefølge du foretager dine beregninger betyder noget, og du kan producere to forskellige resultater, hver med sin egen fortolkning. Se nedenfor med et lille eksempel-datasæt:

Under de tre statistikker vil du se både en sort procentdel, der beregnes ud fra den gennemsnitlige hele og gennemsnitlige del, og en rød procentdel, som er et gennemsnit af forholdet i dataene. Kun for det geometriske middelværdi er de ens.

For en informationsdesigner er denne egenskab ekstremt nyttig, fordi den betyder, at det endelige forhold kan graferes ret sammen med den gennemsnitlige hele og gennemsnitlige del - og der er ingen mulig inkonsekvens.

Inkonsekvens kunne også undgås med det aritmetiske middelværdi, men kun ved at vælge det (sorte) gennemsnit. som har en særlig betydning: det er et forhold, der giver større vægt på elementerne med højere værdier. I vores eksempel tæller 6/7 mere end 2/2. Nu kan dette være en fortolkning, du kan lide, men det afhænger af situationen. Gennemsnittet af forhold (rødt) behandler derimod hvert element lige (ligesom det geometriske middelværdi gør). Dette er ønskeligt, når kun forholdet i sig selv betyder ikke størrelsen på prøverne. Visuelt skal du dog vælge, om du vil repræsentere totaler eller forhold, dog - medmindre du bruger det geometriske middelværdi.

Sammensatte satser

Den vigtigste anvendelse af geometriske midler, som du sandsynligvis finder beskrevet på internettet, beregner gennemsnitlig sammensat rente, inflation eller investeringsafkast. I disse slags tilfælde har du en række forhold, der fungerer multiplikativt: hver skalerer det forrige total i rækkefølge. Det geometriske middelværdi producerer det mest almindeligt efterspurgte resumé her: den hastighed, som alle satser skulle være, hvis de var ens og producerede den samme slutværdi.

Her er et eksempel med en $ 500 pus, der vokser to gange med en lille procentdel. Hvis vi erstatter procenterne med deres geometriske middelværdi, vokser killingen til den samme slutværdi, $ 588.

Lærebogsproblemer kræver sandsynligvis et geometrisk middel. Men det er ikke umuligt at have brug for et aritmetisk middel, som hvis du forsøgte at gætte næste års rente eller medianen, hvis du vil opdele årlige rater i høje og lave kategorier. Igen er der ikke en enkelt masterstatistik, der gælder for en given type data: det afhænger af, hvad du leder efter.

De er ikke kun for penge

Data, der kombineres multiplikativt, ligesom satser, er faktisk meget almindelige uden for økonomien. Nøglen er at genkende, når en målte variabler påvirkes af mange (semi) uafhængige kræfter, som hver skalerer den variabel op eller ned - snarere end blot at tilføje eller trække en fast mængde til den. Dette gælder ofte inden for naturvidenskaben.

For eksempel kan jordforhold være gunstige for væksten af ​​organismer, og forøgelse af nitrogenindhold kan forbedre biomassen med 10%. Men den nøjagtige numeriske stigning vil afhænge af mange andre miljøfaktorer: du kan ikke antage en stigning på +10 ton, siger du, i alle situationer.

Og mere almindeligt end du tror

Den måde, hvorpå data ofte præsenteres, kan få dem til at virke additive (aritmetiske), når de underliggende kræfter faktisk er multiplikative (geometriske). Jeg tror, ​​at dette sker, når dataene er kendte - så vi antager, at de er enkle - og når årsagerne til disse data er mystiske eller komplekse.

For eksempel, hvis du downloader undervisningsnumre til offentlige universiteter, kan disse virke som datapunkter, der simpelthen er brute fakta, hvert sæt af en administrator eller statslovgiver. Men sandheden er, at lokale lønninger, skatter, campusfaciliteter, gradueringsgrader og sammensætningen af ​​studenterorganet alle spiller en rolle i at gøre undervisningen til det, det er. Og selv om de nøjagtige forhold kan være diffuse og komplekse, kan vi satse på, at de faktisk er relateret til faktorer, ikke plus-eller-minus-ændringer. Derfor bør vi tage et geometrisk gennemsnit af tuitioner for at finde deres centrale tendens.

Forskellige skalaer

Det geometriske middelværdi er også fremragende til konstruktion af sammensatte indekser ved anvendelse af meget forskellige slags data, som alle scores forskelligt. Årsagen er, at det geometriske middelværdi er ligeglad med de anvendte skalaer (så længe de samme bruges hver gang).

For eksempel kan du kombinere en 570 SAT-score med et 5/6 indgangs essay og 3 stjerner til sport, og 95% sandsynlighed for at betale undervisning - du behøver ikke at prøve at normalisere scorerne først. Dette fungerer ikke med et aritmetisk gennemsnit, hvor scoringer i den største skala (SAT her) vil dominere gennemsnittet; dybest set ville du vægt hver værdi i henhold til dens skala.

jævnhed

Jævnhed er, hvor konsistente eller "glatte" dine data ser ud, uanset de større mønstre i distribution eller værdi; ujævne data forekommer ru eller støjende. Som du måske ved, måler det aritmetiske middel ikke jævnhed: alt det, der betyder noget, er den samlede værdi og antallet af varer. Medianen ignorerer også ruhed. Her er et eksempel til at illustrere med glatte (A) og støjende (B) data:

Kun det geometriske middelværdi er følsomt over for ujævnheder - hvor det giver en sænket score. At være i stand til at måle konsistens kan være nyttigt: for eksempel i folkesundheden er et enkelt udbrud af bakterier i drikkevandet lige så dårligt eller værre end mange tilfælde på lavere niveau.

Men der er en ulempe. Forestil dig at beregne et geometrisk middelværdi, få en usædvanligt lav score og undre dig hvorfor. Der er ingen måde at fortælle, om denne reduktion er forårsaget af ujævnheder eller bare lavere værdier overalt. Hvis jævnhed får dig til at fortolke hovedpine, eller det virkelig ikke betyder noget, skal du i stedet bruge et aritmetisk middel.

logaritmer

En bekvem egenskab ved det geometriske middelværdi er, at det svarer til log-transformering af dine data, at tage et regelmæssigt aritmetisk gennemsnit og derefter omdanne resultatet tilbage (med "antilog" -eksponenten). Du kan se den ækvivalens her:

Der er ingen reel grund til at udføre en geometrisk middelberegning med logaritmer, men forskere arbejder ofte med loggførte data alligevel, og denne egenskab gør det nemt at få det geometriske middelværdi.

Pas på gennemsnit af transformerede data

Men det skyldes, at du ikke naivt skal beregne gennemsnit på transformerede data. Du kunne utilsigtet tage et gennemsnit af et gennemsnit med resultater, der er vanskelige at fortolke, og ikke hvad du forventede. Teoretiske økologer brugte år med at forsøge at forstå et mystisk mønster i naturen, kun for endelig at indse, at det var en artefakt af at binde log-transformerede data - som var blevet en standardpraksis.

Som informationsdesigner bruger jeg ikke logaritmisk transformation meget ofte: det er for svært for almindelige læsere at forstå en skala, der ikke er regelmæssig. Men en god anvendelse er at vende procentdel til forhold. For eksempel kan du ved hjælp af den anden logaritme få forhold med magten 2 - dreje 0,5 og 0,25 til 2: 1 og 4: 1. Forhold er relativt velkendte for de fleste mennesker (fra sport og væddemål), og som med enhver logaritmisk skala, vil dette sprede værdier i den lave ende af tingene, hvilket gør dem lettere at se.

Fjernelse af nul

Det geometriske middelværdi vil ikke være informativt, hvis nuller (eller negativer) er til stede i dataene. Så man kan blive fristet til at tilpasse dem på en eller anden måde, så det kan fungere. Dette er sandsynligvis en dårlig idé. Men to omstændigheder muligvis tillader det, så vidt jeg kan se.

For det første, hvis dine data med rimelighed kan fortolkes som procentvis stigning, kan du omdanne dem til normale procentvise værdier; for eksempel bliver + 15% 115%. Nul bliver derefter 100%, og du kan fortsætte med beregningen. Du kan derefter konvertere tilbage til den originale form ved at trække 100% fra, hvis du ville. Men gør det ikke blot af bekvemmelighed: Resultaterne skal være meningsfulde.

For det andet, hvis nuller med rimelighed kan fortolkes som ikke-svar, som ikke rigtig skal tælle overhovedet, kan de slettes. Imidlertid vil betydningen af ​​din resuméstatistik dog ændre sig fra "central tendens til dataene" til "central tendens for svarene." Må ikke narre dig selv til at gøre dette, når det ikke giver mening. Resultaterne vil heller ikke være de samme som i den første procedure, som du kan se.

Endelig har jeg også set nogle mennesker tilføje den mindste værdi i deres datasæt til hver værdi. Dette gør det muligt at beregne middelværdien, som forbliver lignende medianen. Men en undersøgelse fandt, at den nøjagtige mængde, der blev tilføjet, havde en betydelig effekt på visse resultater, hvilket ville gøre dem meget ustabile og afhængige af prøveudtagning. Så jeg ville undgå dette personligt.

Nogle andre tidbits

Der er en streng rækkefølge af de resultater, du får fra de aritmetiske, geometriske og harmoniske midler. Det geometriske middelværdi vil altid være mindre end det aritmetiske, og det harmoniske vil være det mindste af alle. Den ene undtagelse er for perfekt ensartede data, i hvilket tilfælde de er de samme. Hvor medianen ligger, afhænger af distributionen af ​​dataene.

Alle tre midler er forekomster af det "generaliserede middelværdi." Det er dybest set en generisk algoritme, der kræver at hæve dataene til en bestemt magt, tilføje værdierne sammen, dele med antallet af elementer og derefter tage roden (det inverse af strøm). De specifikke midler varierer i deres magt og rod. Det aritmetiske middelværdi bruger en magt på 1 (hvilket ikke gør noget, hvilket gør det aritmetiske middel bare simpel tilføjelse og opdeling). Det harmoniske middel bruger -1. Og den geometriske anvendelse af 0. Det minimale og maksimale kan også ses som generaliserede midler ved at bruge kræfter af negativ uendelig og uendelig.

Afskedstanke

Vi lever ikke i en verden, der er enkel, lineær eller additiv - så lad ikke som om vi gør det, når du laver statistik og forsøger at tegne data. Nogle gange vil det aritmetiske middel være nyttigt, men brug det ikke bare fordi det er kendt. Det geometriske middelværdi har en masse gode egenskaber, ligesom medianen gør. Men der er ingen masterstatistik, der styrer dem alle: Du får et valg. Overvej de data, du har, hvordan de er relateret, og de spørgsmål, du er interesseret i; vælg derefter værktøjer, der kan hjælpe dig med at gøre opmærksom på disse data og forklare dem for andre mennesker.