Deskriptiv statistik
     centralitetsmål    ●  spredning    ●  sandsynlighed      korrelation
     regression      frekvens      normalfordelingen      standardscore

           
    Dette afsnit er en introduktion til deskriptiv, som er grundlæggende for forståelse af de statistiske tests og mere komplicerede
    teknikker. For mere mere dybdegående studier af statistik henvises til andet litteratur og andre websider -
her
   
Når data omtales er der en række termer der er essentielle at kende til for at forstå tekster om data. Først og fremmest termen
    'population' der betyder den gruppe der fokuseres på. Ofte fejltolkes population som befolkning, men fx er populationen i et stu-
    die om effekten af konditionstræning til hjertepatienter i Danmark ganske enkelt =  hjertepatienter i Danmark. Og populationen
    af terning-kast-forsøg er øjnene 1-6 osv.

SIDEN ER UNDER UDARBEJDELSE

Beskrivelse af data

Deskriptiv statistik anvendes til at beskrive et datasæt.

Data har en række karakteristika - først og fremmest kan de karak-teriseres ved deres skalering; det vil sige om de kan betragtes som

                nominal
                ordinal                               - læs mere om skalering HER
             ●   interval
               
ratio skala


Til at beskrive datasæt samlet, er der 3 typiske værdier der er relevante (disse kaldes centralitetsmål / measurement of centrality):

Middelværdi (UK:mean)

Medianen (UK:median)

Typetallet (UK: mode)

             ●   middelværdien - også kaldet arithmetic mean eller
                  matematisk gennemsnit med tegnet μ (my)
                medianen
                typetallet
 

Hvilke centralitetsmål kan bruges på hvilke skalaer?
Middelværdien kan kun bruges på skaleringer hvor der er en regulær talværdi - dvs. interval eller ratio skala.
Medianen naturligvis også findes på interval eller ratio skala og desuden kan ordinal skalaen også rangordnes, så medianen kan findes.
Typetallet (eller type-værdien) kan selvfølgelig bruges til at karakterisere alle typer af data.

Generelt kan alle relevante mål tages i brug, men det er vigtigt at holde sig for øje hvilke mål der er mest relevante!
Den største generalisering kan være: brug middelværdien hvis data tillader det, men hvis middelværdien repræsenterer data meget dårligt (fx hvis der er få ekstremt høje eller ekstremt lave værdier - også kaldet hhv. positivt skæv fordeling og negativ skæv fordeling af data), skal medianen anvendes.
Typetallet siger i sig selv oftest ingenting om data, men anvendes i forskellige sammenhænge til fx beskrivelse af en population.

   

 

            Refleksion...
 ●  
Hvad er middelværdien af 3,5,7,9?
    Hvad er medianen af 3,5,7,9?
 
  
Hvad er typetallet af 3,3,3,5,7,7,7,9?
 
  
Hvorfor er middelværdien et dårligt cen-
      traliseringsmål til datasæt med ensidigt
      ekstreme værdier?
    Hvad var middelværdien af 3,5,7,9? Og
      hvad er den af 3,5,7,9, 51?

 


Spredning                                                                                                                                                                                                       UK:dispersion
Hvis data kun karakteriseres ved ovenstående, kan det være umuligt at lave en dybdegående beskrivelse af data - eksempelvis er middelværdien = 10 ved begge datasæt til højre.
 
 
Datasæt 1:
1,2,2,3,2,3,18,19,30,20

Datasæt 2: 8,8,9,9,9,10,11,11,12,13
 
Hvis spredningen anvendes til beskrivelsen, giver det derfor et mere nuanceret billede af data.
Til at beskrive spredning anvendes også 3 begreber:

             ●   Spredning
               
Inter-Quartil afstand1
                Standard deviation2 (tegnet σ (Sigma))

Spredning (UK:Range)

Inter-Quartil afstand (UK:IQ)


Standard Deviation (UK:S.D.)


1 Inter-Quartil afstand findes således:
- Quartiler findes ved at rangordne data og finde data der er hhv. nederste 25% (Q1) og øverste 25% (Q3).
- Herefter trækkesQ1 fra Q3 og divideres med 2.

 

2 Standarddeviationen er det stærkeste våben i beskrivelse af spredningen.
Den bedste måde at overskue SD er ved at se på et eksempel; det er ikke så svært som formlen afspejler!

Vi tager udgangspunkt i datasættet 2,4,6,8.
Først og fremmest udregner vi den reelle afstand mellem den enkelte værdi og middelværdien - som du kan se i tabellen til højre, får vi problemer hvis vi kun eksponerer værdien data-middelværdi, da det kan antage en negativ værdi (Prøv fx at lægge alle X-middel-værdierne sammen!!) - derfor kvadreres værdien!
 

 

X

X - Middelværdi

(X - Middelværdi)2

2

2 – 5 = -3

9

4

4 - 5 = -1

1

6

6 – 5 = 1

1

8

8 – 5 = 3

9


 

 

Matematisk set er der ikke noget i vejen for at kvadrere værdier - husk blot at dividere med (antallet af observationer-1)
Nu har vi så den samlede værdi SD
    
    
De nærmere matematiske omstændigheder for dette, kan findes - her.

 

Brug hovedet - brug PC´en...

 I Excel vælges
   indsæt  ->
   funktion ->
   STDAFV
 
 

Der er ingen grund til ikke at anvende PC til at beregne SD eller nogen anden matematisk værdi i relation til data - hvis blot du har forståelsen for hvorfor sammenhængen er som den er...
Fx. vil variansen og dermed SD i relation til middelværdien hænge sammen med spredningen; som  i tabellen til højre - når middelværdien er tæt relateret til SD er spredningen stor!

SD

Middel

Spredning

10

1

stor

10

100

moderat

10

1000

lille

 

Sandsynlighed                                                                                                                                                  UK:probability
Sandsynlighed kan i denne sammenhæng betragtes som 'chancen for at en hændelse sker ved et tilfælde'.

                                    -hvis en hændelse er absolut usandsynlig har den værdien =0
                                    -hvis den er givet har den værdien = 1
                                    -alle andre værdier har sandsynligheder p mellem 0 og 1.

Sandsynlighed skrives p(X) eller p(X = a) - fx betyder p(X) = 0.4 at sandsynligheden for at X sker er 0.4 eller 4/10 eller 40 % - alle beskrivelsesmåder kan anvendes! p(X = 10) = 0.7 betyder at sandsynligheden for at X antager en værdi på 10 er 0.7

Sandsynligheder kan være

             ●   eksklusive - fx 'bestået / ikke bestået'
                uafhængige - fx kan 'VAS-score 10' hænge sammen med 'søndag', men de er ikke afhængige!
                afhængige - sandsynligheden for 'knæskade' afhænger af 'træningstilstand'

 

 
         
Korrelation       UK:correlation

Korrelationsanalyse tager afsæt I variabler der har lineære relationer. I analysen ser vi på hvordan de er relateret og på styrken af relationerne. Hermed kan det afgøres om ændringer I én variabel – kaldet den uafhængige variabel – medfører ændringer I den anden variabel -stigning eller fald - eller om den forbliver uændret (af den grund kaldet den afhængige variabel.)

Lad os se på en række eksempler hvor vi afgør om der er relation mellem den uafhængige variabel (X-aksen) og den afhængige variabel (Y-aksen).

 
    Eksempel 1 og 2 - korrelationsanalyse


I eksempel 1 og 2 er der korellation.
Den 'perfekte' relation betyder at en ændring i den uafhængige variabel medfører præcis den samme ændring i den afhængige variabel.

I eksempel 1 er der perfekt positiv relation r=1

I eksempel 2 er der perfekt negativ relation r=-1
 
    Eksempel 3 og 4 - korrelationsanalyse

I eksempel 3 og 4 er der ligeledes korrelation.
Det kan ikke umiddelbart afgøres hvor stor den er, men den er 0<r<1.
Den præcise værdi kan efterfølgende beregnes med statistikprogrammer.

se gratis software her

 
    Eksempel 5 og 6 - korrelationsanalyse

I eksempel 5 er der ikke relation - det er ret tilfældigt hvilke ændringer der sker i den afhængige variabel når den uafhængige ændres.
I eksempel 6 er der relation, men det er non-lineær korrelation; dvs at korellationsanalysen ikke kan anvendes.

Der er en række måder at beregne korrelationskoefficientn på - fx Spearmans´ Rho eller Pearson´s Rho.

Pearsons bruges når begge datasæt er normalfordelte interval eller ratio data og Spearmans' bruges når begge datasæt er ordinale data eller interval eller ratio data som er normalfordelte.  



 
     læs mere om normalfordelingen her
      læs mere om skalaer som tekst her
   ●   se skalaer illustreret her




Du kan også anvende Excel til at beregne korellationen - sådan gør du:

 
     Åbn Excel og indsæt dine resultater
    Skriv formlen
      
=KORRELATION (alle ønskede felter)

                Se eksemplet til venstre

 


Vær opmærksom på hvordan du fortolker korrelation. At der er relation mellem 2 datasæt er ikke nødvendigvis et udtryk for at det er den ene variabel der ændrer den anden!
Fx kunne antallet af behandlinger på en fysioterapiafdeling falde i forbindelse med indførelsen af et nyt regime - men hvis antallet af indlæggelser eksempelvis er faldet samtidig, er det formentligt ikke regimet der er korreleret til antal behandlinger! Fænomenet kaldes indirekte korrelation.

Endvidere kunne der være tale om tilfældig korrelation - den type kan der findes en række eksempler på; de bedste findes fx som jokes hvor det fx kan påvises at faldet i antallet af solgte røde legoklodser er korreleret til stigningen i danskernes gennemsnitsvægt!

OBS coefficint of determination

   

regression
      UK:regression
Hvor korrelationsanalyse kan give en overordnet beskrivelse af sammenhængen mellem variabler, kan regressionsanalyse anvendes til mere præcis beskrivelse af sammenhænge og til en egentligt forudsigelse af én variabel på baggrund af en anden.
 


En regressionsligning beskriver hvilken værdi Y (den afhængige variabel) ville have for en hvilken som helst værdi af X (den uafhængige variabel) baseret på en linje der lægges ind i et scatterplot - se eksemplet til højre. Linjen kaldes the line of best fit og kan betegnes som den linje der bedst betegner relationen mellem variablerne.
Linjen udtrykker der hvor afstanden mellem de reelle observationer og de gennemsnitlige observationer er mindst. Der er forskellige måder at indtegne linjen, men i praksis anvender vi altid software som fx SPSS ud fra princippet om at minimere den vertikale afstand mellem de enkelte plots og linjen - som vist på eksemplet til højre.
Afstanden mellem de enkelte punkter og linjen kaldes residualværdi og udtrykker den forudsagte værdi ud fra regressionslinjen - den relle værdi.


Scatterplot med indtegnet regressionslinje og angivelse af afstande


Linjen udtrykkes ved ligningen y = bx + a

hvor y=Y-værdi og x=X-værdi, mens b=hældningen på linjen og a=skæringspunktet med X-aksen

Nøjagtigheden af linjen - og dermed dens styrke i forhold til at forudsige værdierne - afhænger af hvor tæt den er relateret til de enkelte værdier. På figur 1 herunder er der god basis for overensstemmelse ved forudsigelsen, mens der i figur 2 må forventes stor usikkerhed pga den store afstand mellem linjen og plot for observationerne.


figur 1 - regressionsanalyse                         figur 2 - regressionsanalyse           

SPSS eller andre statistikprogrammer giver også en numerisk værdi for regression som kaldes R Squared eller R2. Her omregnes værdien til procent - dvs at 100% betyder at 100% af varitionen i y-værdierne kan tillæges ændringer i X-værdierne.

Umiddelbart er det lidt forvirrende, at der er 3 forskellige relationsmål for 2 variabler - R2, determinations-loefficient og korrelationskoefficient, men det fænomen støder vi ind i flere steder indenfor statistikken. Ydermere er det vigtigt at understrege, at der er sammenhæng mellem hvordan relationerne beregnes:

                       R2 = determinations-koefficienten * 100
                       Determinations-koefficienten = (Pearson’s korrelationskoefficient)2 = r2

Det betyder at Pearson’s korrelationskoefficient=1 indikere perfekt positiv lineær relation mellem 2 variabler - altså: variation i den afhængige variabel Y kan forklares ved at se på den uafhængige variabel X. Dermed ville determinations-koefficienten også være =1
Regressionslinjen vil være perfekt og residualerne = 0 og linjen gå gennem alle observationer og regressionsligningen ville kunne bruges til nøjagtog forudsigelse af Y givet hvilket som helst X. Ydermere ville
R2=0.

Hvis du kommer til det punkt hvor du har forståelsen for disse størrelser vil du bedre kunne beskriver statistiske fænomener og du vil være bedre stillet når du vælger metoder - for selv om der er en række regler der ikke kan brydes i statistikken, er det ofte dig selv der skal vælge mellem flere valgmuligheder og være klædt på til at træffe de bedste valg og kunne argumentere for dem...

 

         
Frekvens       UK:frequency

Et datasæt kan være svært at overskue og ofte hjælper det at gruppere data i tabeller. Generelt kan der bruges 2 slags frekvenstabller som vist i eksemplerne til højre.

Grupperingen af data giver et bedre overblik - specielt i frekvenstabeller, men vær opmærksom på svagheden ved at gruppere resultater, der medfører 'udvanding' af de enkelte kategorier - eksempelvis ville et lille datasæt med VAS-score kunne fortolkes fejlagtigt med gruppering; et stort sæt med fx vægtangivelse af en population vil på den anden side kunne fremstå endnu mere overskueligt med grupperede data.

 OBS uddybende tekst

 


Figur. Ugrupperet frekvenstabel
 

 

   

Figur. Grupperet frekvenstabel
 

 

Brug Excel - Værktøjet Regression bruger funktionen LINREGR.
Analyseværktøjet Regression udfører en lineær regressionsanalyse ved at benytte metoden "mindste kvadrater" til at definere en linje gennem et sæt observationer. Du kan analysere, på hvilken måde en enkelt afhængig variabel påvirkes af værdier fra en eller flere uafhængig variabler.
Du kan f.eks analysere, på hvilken måde en sportsudøvers resultater påvirkes af faktorer som alder, højde og vægt. Du kan tilskrive en vis del af den samlede præstation til hver af disse tre faktorer på grundlag af et sæt præstationsdata og derefter anvende resultaterne til at forudsige præstationerne for en ny, ikke-testet sportsudøver.

 


Figur - regressionsanalyse i Excel
normalfordeling     UK:normal distribution
         
Normalfordelingen er den vigtigste af alle statiske fordelinger. En lang række variabler antager en normalfordeling når de måles på en normalbefolkning - fx menneskers højde, vægt, IQ, muskelkraft osv. En stikprøve af en befolkningsgruppe vil derfor oftest også være normalfordelt. Normalfordelingen er vigtig når vi studerer datasæt og forskelle mellem data - også kaldet inferential statistik.

Et histogram med frekvenser af et normalfordelt datasæt har en karakteristisk klokkeform - også kaldet gaussisk form (Efter en af de første statistikere der observerede sammenhængene.) her er 3 forskellige eksempler på data der er normalfordelte:


figur 1,2 og 3 - normalfordeling af data

De ovennævnte mål for højde m.v. vil antage form som fig. 3, mens fig. 1 og 2 er eksempler hvor data er samlet i intervaller - det kunne også være relevant fx ved højdemål hvor stikprøven var meget stor. Højderne kunne så samles i fx. 160,0-164,9 cm, 165,0-169,9 cm osv. Forskellen på figur 1 og 2 kunne blot skyldes forskelle på bredden af intervallerne der er valgt.
Hvis du tænker på baggrunden for normalfordelingskurven, vil du se, at en meget karakteristisk ting ved kurven (og dermed datasættet) er at jo større stikprøven er, jo mindre indflydelse vil enkelte ekstreme værdier have på data og kurven. Formen på kurven bestemmes af:

  ●         

μ og σ eller af SD og


I tabellen herunder er vist hvilke typer værdier der anvendes i de enkelte situationer:

  stikprøve population
middelværdi μ
standarddeviation SD eller S σ

Og herunder er vist 3 forskellige eksempler på normalfordelingskurver:  

Som tidligere nævnt er normalfordelingskurven karakteriseret ved at stikprøvens størrelse korrelerer med kurvens 'stabilitet'. Nu kan vi endvidere konkludere at der er andre karakteristika for kurven - Uanset værdien af ovennævnte størrelser er

               ●    fordelingen symmetrisk omkring midten
               ●    frekvensen nærmer sig 0 i begge retninger, men kan ikke krydse X-aksen
               ●    det totale areal under kurven svarer til værdien 1 (når alle data inkluderes er sandsynlighed for et givent udfald p=1 
               ●    ca. 68,2% af alle data ligger altid indenfor 1 SD i hver retning fra gennemsnittet
               ●    ca. 95,4% af alle data ligger altid indenfor 2 SD i hver retning fra gennemsnittet
               ●    ca. 99,7% af alle data ligger altid indenfor 3 SD i hver retning fra gennemsnittet


 

 

         

Brug Excel
 

NORMFORDELING

Se også

Returnerer normalfordelingen for den angivne middelværdi og standardafvigelse. Denne funktion finder mange anvendelser inden for statistik, herunder hypotetiske test.

Syntaks

NORMFORDELING(x;middelværdi;standardafv;kumulativ)

X    er den værdi, funktionen ønskes evalueret for.

Middelværdi    er middelværdien for den stokastiske variabel.

Standardafv    er standardafvigelsen for den stokastiske variabel.

Kumulativ    er en logisk værdi, som bestemmer funktionens form. Hvis kumulativ er SAND, returneres fordelingsfunktionen og hvis FALSK, returneres tæthedsfunktionen.

Bemærk!

  • Hvis middelværdi eller standardafv er ikke-numerisk, returnerer NORMFORDELING fejlværdien #VÆRDI!.
  • Hvis standardafv ≤ 0, returnerer NORMFORDELING fejlværdien #NUM!.
  • Hvis middelværdi = 0, standardafv = 1 og kumulativ = TRUE, returnerer NORMFORDELING standardnormalfordelingen STANDARDNORMALFORDELING.
  • Ligningen for normalfordelingsfunktionen (kumulativ = FALSE) er:

    Ligning

  • Når kumulativ = TRUE, er formlen integralet fra negativ uendeligt til x af den givne formel.

Eksempel

Det kan være lettere at forstå eksemplet, hvis du kopierer det til et tomt regneark.

VisSådan gør du

  1. Opret en tom projektmappe eller et tomt regneark.
  2. Marker eksemplet i Hjælp. Du må ikke markere række- eller kolonneoverskrifterne. 

    Markere et eksempel i Hjælp

    Markere et eksempel i Hjælp

  3. Tryk på CTRL+C.
  4. Marker celle A1 i regnearket, og tryk på CTRL+V.
  5. Hvis du vil skifte mellem visning af resultaterne og visning af de formler, der returnerer resultaterne, skal du trykke på CTRL+` (accent grave) eller pege på Formelrevision i menuen Funktioner. Klik derefter på Tilstand for formelrevision.

 

Brug SPSS

I SPSS kan du checke om data er normalfordelte på både en visuel måde og med funktionen 'normality'.
Visuelt checkes med et histogram - åbn datasættet og klik graphs - histogram..... og vælg en af dine variabler fra listen til venstre og 'send den' til feltet variable:

Herefter skal du sætte flueben i feltet 'Display normal curve' som gjort herover og klikke OK og vurdere resultatet:

-er data normalfordelte?

Det kan være svært at afgøre og derfor kan data beregnes i stedet med funktionen

         
         
Standardscore     UK:standardscore
       
       
       
       
Referencer