| Deskriptiv statistik | |||||||||||||||||||
|
SIDEN ER UNDER UDARBEJDELSE |
|||||||||||||||||||
| Deskriptiv statistik
anvendes til at beskrive et datasæt. Data har en række karakteristika - først og fremmest kan de karak-teriseres ved deres skalering; det vil sige om de kan betragtes som
●
nominal |
Middelværdi (UK:mean)
Medianen (UK:median)
Typetallet (UK: mode) |
||||||||||||||||||
|
● middelværdien
- også kaldet arithmetic mean eller matematisk gennemsnit med tegnet μ (my) ● medianen ● typetallet |
|||||||||||||||||||
|
Hvilke
centralitetsmål kan bruges på hvilke skalaer? Generelt kan alle
relevante mål tages i brug, men det er vigtigt at holde sig for øje
hvilke mål der er mest relevante! |
Refleksion... |
||||||||||||||||||
Spredning UK:dispersion |
|||||||||||||||||||
| Hvis data kun
karakteriseres ved ovenstående, kan det være umuligt at lave en
dybdegående beskrivelse af data - eksempelvis er middelværdien = 10
ved begge datasæt til højre. |
Datasæt 1: 1,2,2,3,2,3,18,19,30,20 Datasæt 2: 8,8,9,9,9,10,11,11,12,13 |
||||||||||||||||||
| Hvis spredningen
anvendes til beskrivelsen, giver det derfor et mere nuanceret
billede af data. Til at beskrive spredning anvendes også 3 begreber:
● Spredning |
Spredning
(UK:Range) Inter-Quartil
afstand (UK:IQ) |
||||||||||||||||||
|
|
|||||||||||||||||||
|
2
Standarddeviationen er det stærkeste våben i beskrivelse af
spredningen. |
|
||||||||||||||||||
|
|
|||||||||||||||||||
|
|
|||||||||||||||||||
|
Matematisk set er der
ikke noget i vejen for at kvadrere værdier - husk blot at dividere
med (antallet af observationer-1) |
|||||||||||||||||||
|
|
|||||||||||||||||||
|
|||||||||||||||||||
Sandsynlighed UK:probability |
|||||||||||||||||||
|
Sandsynlighed kan i denne sammenhæng betragtes som 'chancen for
at en hændelse sker ved et tilfælde'. -hvis en hændelse er absolut usandsynlig har den værdien =0 -hvis den er givet har den værdien = 1 -alle andre værdier har sandsynligheder p mellem 0 og 1. Sandsynlighed skrives p(X) eller p(X = a) - fx betyder p(X) = 0.4 at sandsynligheden for at X sker er 0.4 eller 4/10 eller 40 % - alle beskrivelsesmåder kan anvendes! p(X = 10) = 0.7 betyder at sandsynligheden for at X antager en værdi på 10 er 0.7 Sandsynligheder kan være
● eksklusive - fx
'bestået / ikke bestået'
|
|||||||||||||||||||
| Korrelation | UK:correlation | ||||||||||||||||||
|
Korrelationsanalyse tager afsæt I variabler der har lineære relationer. I analysen ser vi på hvordan de er relateret og på styrken af relationerne. Hermed kan det afgøres om ændringer I én variabel – kaldet den uafhængige variabel – medfører ændringer I den anden variabel -stigning eller fald - eller om den forbliver uændret (af den grund kaldet den afhængige variabel.) Lad os se på en række eksempler hvor vi afgør om der er relation mellem den uafhængige variabel (X-aksen) og den afhængige variabel (Y-aksen). |
|||||||||||||||||||
|
|
I eksempel 1 og 2 er der korellation. Den 'perfekte' relation betyder at en ændring i den uafhængige variabel medfører præcis den samme ændring i den afhængige variabel. I eksempel 1 er der perfekt positiv relation r=1 I eksempel 2 er der perfekt negativ relation r=-1 |
||||||||||||||||||
![]() Eksempel 3 og 4 - korrelationsanalyse |
I eksempel 3 og 4 er der ligeledes korrelation. Det kan ikke umiddelbart afgøres hvor stor den er, men den er 0<r<1. Den præcise værdi kan efterfølgende beregnes med statistikprogrammer. se gratis software her |
||||||||||||||||||
![]() Eksempel 5 og 6 - korrelationsanalyse |
I eksempel 5 er der ikke relation - det er ret tilfældigt hvilke ændringer der sker i den afhængige variabel når den uafhængige ændres. I eksempel 6 er der relation, men det er non-lineær korrelation; dvs at korellationsanalysen ikke kan anvendes. |
||||||||||||||||||
Der er en række måder at beregne korrelationskoefficientn på - fx Spearmans´ Rho eller Pearson´s Rho. Pearsons bruges når begge datasæt er normalfordelte interval eller ratio data og Spearmans' bruges når begge datasæt er ordinale data eller interval eller ratio data som er normalfordelte.
|
● læs mere om normalfordelingen her ● læs mere om skalaer som tekst her ● se skalaer illustreret her Du kan også anvende Excel til at beregne korellationen - sådan gør du: |
||||||||||||||||||
Vær opmærksom på hvordan du fortolker korrelation. At der er relation mellem 2 datasæt er ikke nødvendigvis et udtryk for at det er den ene variabel der ændrer den anden! Fx kunne antallet af behandlinger på en fysioterapiafdeling falde i forbindelse med indførelsen af et nyt regime - men hvis antallet af indlæggelser eksempelvis er faldet samtidig, er det formentligt ikke regimet der er korreleret til antal behandlinger! Fænomenet kaldes indirekte korrelation.
Endvidere kunne der være tale om tilfældig korrelation - den
type kan der findes en række eksempler på; de bedste findes fx som
jokes hvor det fx kan påvises at faldet i antallet af solgte røde
legoklodser er korreleret til stigningen i danskernes
gennemsnitsvægt! |
|||||||||||||||||||
regression |
UK:regression | ||||||||||||||||||
| Hvor
korrelationsanalyse kan give en overordnet beskrivelse af
sammenhængen mellem variabler, kan regressionsanalyse anvendes til
mere præcis beskrivelse af sammenhænge og til en egentligt
forudsigelse af én variabel på baggrund af en anden.
|
|||||||||||||||||||
|
|
![]() Scatterplot med indtegnet regressionslinje og angivelse af afstande |
||||||||||||||||||
|
Nøjagtigheden af linjen - og dermed dens styrke i forhold til at forudsige værdierne - afhænger af hvor tæt den er relateret til de enkelte værdier. På figur 1 herunder er der god basis for overensstemmelse ved forudsigelsen, mens der i figur 2 må forventes stor usikkerhed pga den store afstand mellem linjen og plot for observationerne.
SPSS eller andre statistikprogrammer giver også en numerisk værdi for regression som kaldes R Squared eller R2. Her omregnes værdien til procent - dvs at 100% betyder at 100% af varitionen i y-værdierne kan tillæges ændringer i X-værdierne. Umiddelbart er det lidt forvirrende, at der er 3 forskellige relationsmål for 2 variabler - R2, determinations-loefficient og korrelationskoefficient, men det fænomen støder vi ind i flere steder indenfor statistikken. Ydermere er det vigtigt at understrege, at der er sammenhæng mellem hvordan relationerne beregnes:
●
R2 =
determinations-koefficienten * 100
Det betyder at
Pearson’s korrelationskoefficient=1
indikere perfekt positiv lineær relation mellem 2 variabler
- altså: variation i den afhængige variabel Y kan forklares ved at
se på den uafhængige variabel X. Dermed ville
determinations-koefficienten
også være =1 Hvis du kommer til det punkt hvor du har forståelsen for disse størrelser vil du bedre kunne beskriver statistiske fænomener og du vil være bedre stillet når du vælger metoder - for selv om der er en række regler der ikke kan brydes i statistikken, er det ofte dig selv der skal vælge mellem flere valgmuligheder og være klædt på til at træffe de bedste valg og kunne argumentere for dem...
|
|||||||||||||||||||
| Frekvens | UK:frequency | ||||||||||||||||||
|
Et datasæt kan være
svært at overskue og ofte hjælper det at gruppere data i tabeller.
Generelt kan der bruges 2 slags frekvenstabller som vist i
eksemplerne til højre. |
|
||||||||||||||||||
|
|
|||||||||||||||||||
|
Figur. Grupperet
frekvenstabel |
|||||||||||||||||||
|
Brug Excel -
Værktøjet Regression bruger funktionen LINREGR. |
![]() Figur - regressionsanalyse i Excel |
||||||||||||||||||
| normalfordeling | UK:normal distribution | ||||||||||||||||||
|
Normalfordelingen er den vigtigste af
alle statiske fordelinger. En lang række variabler antager en
normalfordeling når de måles på en normalbefolkning - fx menneskers
højde, vægt, IQ, muskelkraft osv. En stikprøve af en
befolkningsgruppe vil derfor oftest også være normalfordelt.
Normalfordelingen er vigtig når vi studerer datasæt og forskelle
mellem data - også kaldet inferential
statistik.
Et histogram med frekvenser af et normalfordelt datasæt har en karakteristisk klokkeform - også kaldet gaussisk form (Efter en af de første statistikere der observerede sammenhængene.) her er 3 forskellige eksempler på data der er normalfordelte:
De ovennævnte mål for højde m.v. vil
antage form som fig. 3, mens fig. 1 og 2 er eksempler hvor data er
samlet i intervaller - det kunne også være relevant fx ved højdemål
hvor stikprøven var meget stor. Højderne kunne så samles i fx.
160,0-164,9 cm, 165,0-169,9 cm osv. Forskellen på figur 1 og 2 kunne
blot skyldes forskelle på bredden af intervallerne der er valgt.
Og herunder er vist 3 forskellige eksempler på normalfordelingskurver:
Som tidligere nævnt er normalfordelingskurven karakteriseret ved at stikprøvens størrelse korrelerer med kurvens 'stabilitet'. Nu kan vi endvidere konkludere at der er andre karakteristika for kurven - Uanset værdien af ovennævnte størrelser er ●
fordelingen symmetrisk omkring midten |
|||||||||||||||||||
|
|
|||||||||||||||||||
|
Brug Excel NORMFORDELINGReturnerer normalfordelingen for den angivne middelværdi og standardafvigelse. Denne funktion finder mange anvendelser inden for statistik, herunder hypotetiske test. Syntaks NORMFORDELING(x;middelværdi;standardafv;kumulativ) X er den værdi, funktionen ønskes evalueret for. Middelværdi er middelværdien for den stokastiske variabel. Standardafv er standardafvigelsen for den stokastiske variabel. Kumulativ er en logisk værdi, som bestemmer funktionens form. Hvis kumulativ er SAND, returneres fordelingsfunktionen og hvis FALSK, returneres tæthedsfunktionen. Bemærk!
Eksempel Det kan være lettere at forstå eksemplet, hvis du kopierer det til et tomt regneark.
|
|||||||||||||||||||
|
Brug SPSS
I SPSS kan du checke om data er
normalfordelte på både en visuel måde og med funktionen 'normality'.
Herefter skal du sætte flueben i feltet 'Display normal curve' som gjort herover og klikke OK og vurdere resultatet:
-er data normalfordelte? Det kan være svært at afgøre og derfor kan data beregnes i stedet med funktionen |
|||||||||||||||||||
| Standardscore | UK:standardscore | ||||||||||||||||||
|
Referencer |
|||||||||||||||||||