Andmeanalüüs MS Exceli abil


Sagedustabelid


 

Pidev arvtunnus

Diskreetne arvtunnus Mittearvuline tunnus

  
Pidev arvtunnus

Pideva arvtunnuse klassifitseerimiseks (rühmitamiseks) ja sagedustabeli moodustamiseks on MS Exceli statistikaprotseduuride (Tools -> Data Analysis) hulgas protseduur Histogram.

Selle rakendamiseks on esmalt vaja moodustada rühmitamiseeskiri rühmade ülemiste piiride bloki näol. Näiteks, kui me soovime jagada tunnust 'pikkus' klassidesse: 165 ja alla selle, 166-180, 181-195 ja üle 195 cm, siis peame Excelis sisestama arvudebloki 165, 180, 195:

Pikkus 182 164 168 176 186 193 179 193 164
Bin_pikkus  165  180 195

Piisab vaid kolmest klassipiirist, kuna protseduur Histogram genereerib ise alati ühe lisaklassi rühmitamiseeskirjaga mittemääratud väärtuste tarvis (antud juhul siis inimestele pikkusega üle 195 cm).

Protseduuri Histogram aknas tuleb täita järgmised väljad:

Input Range - algandmete blokk (tavaliselt üks tulp);
Bin Range - rühmade ülemiste piiride väärtuste blokk;
Labels - märgitakse tunnuse nime või tähise olemasolu korral andmebloki ülemises reas;
Output options - määratakse tulemuste väljastamise asukoht: samale töölehele  (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook);
Pareto (sorted histogramm) - sagedused järjestatakse kahanevas järjekorras; Cumulative Percentage - arvutatakse jaotusfunktsiooni väärtused;
Chart Output - tulemused väljastatakse lisaks tabelile ka graafikul (tulpdiagrammina).

Prots. Histogram aken

Peale lahtrite täitmist protseduuri Histogram tellimisaknas saame MS Ecxeli uuele töölehele järgneva tabeli ja graafiku.

Bin_pikkus

Frequency

Cumulative %

165

2

22.22%

180

3

55.56%

195

4

100.00%

More

0

100.00%

 Prots. Histogramm väljastatud tulpdiagramm

NB! Saadud sagedustabeli ja graafiku tõlgendamisel tuleb silmas pidada, et toodud arvud (tabeli esimeses veerus ja graafiku x-teljel) pole mitte rühmade keskmised, vaid ülemised piirid, ja edasiste väärarusaamade vältimiseks oleks soovitav need asendada tegelike väärtustevahemikega.
   


Üles


   
Diskreetne arvtunnus

Esimene variant on konstrueerida sagedustabel ja tulpdiagramm analoogselt pidevale arvtunnusele protseduuri Histogram abil.

Erinevus on vaid rühmitamiseeskirjas. Nimelt peab enne protseduuri käivitamist olema moodustatud rühmitamiseeskiri tunnuse kõigi erinevate väärtuste bloki näol. See väärtuste blokk tuleb omistada ka protseduuri aknas väljale Bin Range.

Matemaatika hinne

3 4 4 5 4 3 4 3 5
Bin_hinne 3 4 5

Ühe väärtustest (tavaliselt suurima, antud näites siis hinde '5') võib jätta ka ette andmata, kuna Excel lisab jällegi ise ühe klassi võimalike defineerimata väärtuste tarvis, tähistades selle väljatrükis sõnaga More.

-----------------------------------------------

Teine variant on kasutada sagedustabeli konstrueerimisel Pivot Table'i abi (lähemalt on sellest juttu järgnevas, mittearvulise tunnuse sagedustabeli tegemist käsitlevas osas).
   


Üles


   
Mittearvuline tunnus
 

Esimene variant on kodeerida tunnus arvuliseks ja analüüsida seejärel kui diskreetset arvtunnust.

-----------------------------------------------

Teine variant on kasutada Pivot Table't (käsk Pivot Table Report menüüst Data).

 - Pivot Table kaks esimest sammu läbige nagu tavaliselt (st., andke Excelile ette uuritav andmeblokk (või nõustuge arvuti pakutuga) ja klikkige nupul Next).
 - Tabeli konstrueerimise aknas (vt. pilti) tuleb lohistada mittearvuline uuritav tunnus veeru- (või rea-) faktori  kohale (vastavalt lahtritesse Column või Row). 
 - Tabeli Data-ossa lohistada tunnuste loetelust sama tunnus.
 - Kui Data-lahtrisse ei teki kirja 'Count of ...', tehke lohistatul topeltklõps ning valige leitavaks arvkarakteristikuks tunnuse väärtuste arv Count.

Kas te armastate mannaputru? ei ei jah ei jah vist jah jah ei

Tulemusena saame järgmise sagedustabeli:

Count of Mannapuder? Mannapuder?   
    ei jah vist Grand Total
Total 4 4 1 9

   

Üles


 

ktanel@eau.ee
http://ph.eau.ee/~ktanel/kool_ja_too/
märts, 2000