Andmeanalüüs MS Exceli abil


Arvkarakteristikud


 

Valemid

Protseduur
Descriptive Statistics
Pivot Table

  
Valemid

Esiteks on arvkarakteristikud võimalik leida, realiseerides nende arvutamise valemid Exceli valemitena. Mõned vähekasutatavad parameetrid ongi ainult nii leitavad (näiteks üldkogumi ekstsess ja asümmeetriakordaja).

Järgmises väljavõttes MS Exceli ekraanipildist on valemireal näha tunnuse 'Pikkus' keskmise arvutamiseks kasutatav valem, mille tulemusena arvuti väljastas kursoriga määratud kohta soovitud arvkarakteristiku.

Keerulisemate valemite korral on enne lõpliku vastuse saamist vigade vältimiseks soovitav leida mitmeid vahetulemusi (näiteks tunnuse väärtuste ruudud, nende summad jne.).

-----------------------------------------------

Teiseks on kõigi enamkasutatavate arvkarakteristikute leidmiseks MS Exceli funktsioon, näiteks AVERAGE - aritmeetiline keskmine, STDEV - standardhälbe valimhinnang, SKEW - asümmeetriakordaja jne. Kõigi nende funktsioonide argumendiks on uuritava tunnuse väärtusi sisaldav andmeblokk.

Tunnuse 'Pikkus' keskväärtus leituna funktsiooni AVERAGE abil.
Funktsiooni argumentidena on ette antud lahtrid B1-J1, mis sisaldavad uuritava tunnuse väärtusi. 

NB! Funktsioonide korral sisestatakse andmeblokk ilma tunnuse nimeta.

   


Üles


   
Protseduur Descriptive Statistics

Kolmas viis leida tunnuseid iseloomustavaid arvkarakteristikuid on protseduur Descriptive Statistics, mis peale "linnukese" tegemist valiku Summary statistics ette väljastab korraga kõik olulisemad valimi arvkarakteristikud ja valiku Confidence Level for Mean korral ka keskväärtuse usaldusintervalli.

Protseduuri Descriptive Statistics (Tools -> Data Analysis) tellimisaknas tuleb määrata järgmised väljad:

   Input Range - algandmete blokk (võib sisaldada ka mitut veergu (rida), st. võib analüüsida korraga mitut tunnust);
   Grouped By - määratakse andmete paigutus blokis, tavaliselt on erinevad tunnused paigutatud erinevatesse tulpadesse (Columns), kuid võivad olla ka erinevates ridades (Rows);
   Labels In First Column - märgitakse tunnuse nime või tähise olemasolu korral andmebloki ülemises reas;
   Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook);
   Summary statistics - määratakse, kas karakteristikute väärtused üldse väljastatakse;
   Confidence Level for Mean - määratakse usaldusnivoo protsentides keskväärtuse usalduspiiride arvutamiseks;
   Kth Largest - määratakse järjekorranumber K, et teada saada suuruse poolest K-ndat väärtust;
   Kth Smallest - määratakse järjekorranumber K, et teada saada väiksemalt poolt K- ndat väärtust.

Descriptive statistics

Ülaltoodud valikute tulemusel saame MS Exceli uuele töölehele järgneva tunnuse 'Pikkus' arvkarakteristikute tabeli (lisatud ka eestikeelsed vasted):

Pikkus    
Mean 178.33 Keskmine
Standard Error 3.77 Standardviga
Median 179.00 Mediaan
Mode 164.00 Mood
Standard Deviation 11.32 Standardhälve
Sample Variance 128.25 Dispersioon
Kurtosis -1.44 Ekstsess
Skewness -0.02 Asümmeetriakordaja
Range 29.00 Haare
Minimum 164.00 Väikseim väärtus
Maximum 193.00 Suurim väärtus
Sum 1,605.00 Summa
Count 9.00 Valimi maht
Confidence Level(95.0%) 8.70 Liidetav keskväärtuse usalduspiiride arvutamiseks

   


Üles


   
Pivot Table

Olulisemate arvkarakteristikute leidmiseks mingi klassifitseeriva tunnuse eri tasemetel võib kasutada ka Pivot Table abi.

Näiteks olgu meil peale pikkuse teada ka tunnuse 'Sugu' väärtused:

Sugu Mees Naine Naine Mees Mees Mees Mees Mees Naine
Pikkus 182 164 168 176 186 193 179 193 164

Ja soovime leida meeste ja naiste arvu ning keskmisi pikkusi eraldi mõlema soo korral. Täites Pivot Table's lahtrid nagu juuresoleval pildil, saame tulemuseks tabeli, kus on kirjas vaatluste arv (Count) ja keskmised (Average) pikkused nii sugude kaupa kui ka kõik kokku.

 

Sugu

   

Data

Mees

Naine

Grand Total

Count of Pikkus

6

3

9

Average of Pikkus

184.83

165.33

178.33

   

Üles


 

ktanel@eau.ee
http://ph.eau.ee/~ktanel/kool_ja_too/
märts, 2000