Õpiobjektid -> MS Excelile mitteomased andmeanalüüsil kasutatavad joonised

MS EXCELILE MITTEOMASED
ANDMEANALÜÜSIL KASUTATAVAD JOONISED


Õpiobjekti kirjeldus
Sissejuhatus
 
Jooniste valik
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤

Logistilise regressioonimudeli illustreerimine, variant 2
(kaks diagrammi ühel joonisel)

Logistiline regressioonanalüüs on enim rakendatav binaarsete (0-1-tüüpi) tunnuste modelleerimise meetod. Uuritav tunnus e funktsioontunnus e sõltuv muutuja (y) sellisel analüüsil mõõdab mingi sündmuse toimumist (väärtus '1') või mittetoimumist (väärtus '0') ning argumenttunnus e sõltumatu muutuja (x) kujutab enesest (pidevat) arvtunnust.

Kuigi uuritava tunnuse väärtuste prognoosimiseks on kasutatav ka lineaarne regressioonanalüüs (võrrand on kujul y = a + bx), ei garanteeri taoline avaldis prognooside jäämist lubatavatesse piiridesse (vahemikku 0-st 1-ni). Sestap on kasutusel mitmeid mittelineaarseid teisendusi, millest levinuim on logit-teisendus.

Logistilise regressiooni valem, prognoosimaks tunnuse y väärtusi tunnuse x väärtuste kaudu, on kujul:

logit(y) = a + bx,

kus logit(y) = y / (1 - y).

Uuritava sündmuse toimumise tõenäosus avaldub siis kujul

y = ea+bx / (1+ea+bx) = 1 / (1+e-a-bx).

Kuigi taolise analüüsi teostamiseks ning tulemuste illustreerimiseks Excelis otseselt vahendid puuduvad, on vastavad ülesanded piisavate teadmiste ja oskuste korral siiski lahendatavad.
 


 

Andmed.
Uuriti taimekahjurite surevust sõltuvalt taimemürgi kontsentratsioonist. Näiteandmestik sisaldab andmeid seitsmel erineval kontsentratsioonil läbi viidud katsete tulemuste kohta (igal kontsentratsioonil 8 katset, kukku 56 katset). Uuritava tunnuse väärtus '1' vastab kahjuri surmale ja väärtus '0' kahjuri ellu jäämisele. Andmed võite katsetamiseks alla laadida siit:

kahjur1.xls.
 

Ülesanne.
Konstrueerida diagramm illustreerimaks logistilise regressiooni tulemusi - joonistada logistilise regressioonifunktsiooni graafik (argumenttunnuse väärtuste piirkonnas pideva joonena ning sellest väljaspool kriipsjoonena) ning esitada algandmetele vastavad punktid täiendava joonisena logistilise regressioonivõrrandi graafiku kohal.


 

Probleem.
Excel paigutab punktdiagrammil samadele väärtustele vastavad punktid kohakuti, tehes võimatuks väärtuste mingis piirkonnas paiknemise hulga visuaalse hindamise (üks väärtus näib joonisel samaväärsena 10 väärtusega), samuti ei võimalda Excel esitada ühel joonisel korraga mitut erinevate telgedega diagrammi.
 

Lahendus.

  • Joonistada erinevad diagrammid samadele telgedele (muutes vajadusel telgede ulatust ja skaalat), seejärel keelata Excelil algsete telgede ja nende väärtuste kuvamine ning joonistada uued teljed ja väärtused fiktiivsete andmeseeriate alusel;
  • kohakuti paiknevate punktide väärtusi tuleb muuta nii, et punktid paigutuksid joonisel kõrvuti.
     

Tööjuhend.

1) - 3) Need etapid on identsed logistilise regressioonanalüüsi tulemuste illustreemise variandiga 1, mistap neid siin kohal enam pikemalt ei kirjelda (vt eelmist juhendit).
Nende etappide järgselt peaks olema valmis järgmine joonis (ja töölehel abitabel logistilisest regressioonivõrrandist prognoositud väärtustega, mille alusel antud joonis tehtud ongi):


 

4) Järgnevalt tuleks valmis joonise kohale lisada teine joonis, mis sisaldab algandmetele vastavaid punkte (esitatuna mittekattuvana ning algse joonise x-telje suhtes joondatuna).
Lisaks võiks sündmuse toimumisele ja mittetoimumisele vastavate punktide vahele jätta vahe - on visuaalselt selgem ja on ka koht, kuhu hiljem horisontaalset joont tõmmata.


 

4.1) Soovitud tulemuse saamiseks tuleb esmalt arvutada uued mittekattuvad efektide väärtused ja teha seda järgmise eeskirja kohaselt:

  • juhul, kui esimene samale kontsentratsioonile vastav väärtus on 0, siis asendada see mingi ühest suurema väärtusega (näiteks 1,25-ga - so algandmetest moodustatava lisajoonise nö 0-väärtuste kaugus logistilise regressioonivõrrandi graafiku x-teljest - eelneval joonisel suurus A),
    kui aga väärtus on 1, siis kirjutada selle asemele näiteks 1,35 (sellega jääb sündmuse toimumist ja mittetoimumist märkivate punktide vahele tühi ruum ulatusega 1,35 - 1,25 = 0,1, so suurus B eelneval joonisel),
     
  • iga järgmine samale kontsentratsioonile vastav väärtus võetakse eelnevast mingi väikese suuruse võrra (näiteks 0,015 võrra - so suurus C joonisel) väiksem (nö 0-sündmuse korral) või suurem (nö 1-sündmuse korral).
     

Kirjeldatu Excelis teostamiseks tuleks

  • andmetabel sorteerida argumenttunnuse (antud näites 'kontsentratsioon') väärtuste ja seejärel funktsioontunnuse ('efekt') väärtuste järgi;

  • arvutada uue tunnuse väärtused IF-funktsioone kombineerides:
    • kontrollides esmalt, kas parajasti täidetavas reas on tegu sama kontsentratsiooniga ja sama tulemusega, kui eelmises reas;
    • kui on, siis vähendada või suurendada (vastavalt sellele, kas efekti väärtuseks on 0 või 1) rida üleval pool paiknevat efekti väärtust mingi väikese suuruse (näiteks 0,015 - suurus C joonisel ülal pool) võrra,
    • kui ei ole, siis võtta 'efekt=0' korral uueks väärtuseks näiteks 1,25 (suurus A joonisel) ja 'efekt=1' korral uueks väärtuseks näiteks 1,35 (suurus A+B joonisel).


       

4.2) Lisades joonisele uue andmeseeriana mittekattuvate efektide veeru (x-telje väärtusteks on muidugi esimeses veerus paiknevad katsetel rakendatud kontsentratsioonide väärtused) ning muutes vajadusel y-telje ulatust, et uus lisatud andmeseeria ikka graafikule mahuks, on tulemuseks miskit alljärgnevat:


 

Edasi tuleks kujundada uue andmeseeria esitus sobivaks (kaotada ära punkte ühendav joon ning asendada Exceli poolt vaikimisi andmepunktide tähistamiseks kasutatav sümbol väiksema ja sobivama sümboliga.

Tulemus:


 

5) Joonise edasise kujundamise käigust tuleks

  • keelata Excelil vertikaalse telje ja selle väärtuste kuvamine,

  • sisestada Exceli töölehele abitabel lisamaks graafikule joont otspunktidega (x, y) = (0, 0) ja (x, y) = (0, 1) ning punkte (näiteks) sammuga 0,2 (nende punktide alusel kujunevad fiktiivsele y-teljele ühikud),

  • lisada loodud abitabeli alusel joonisele uus andmeseeria ning muuta selle kujundust (andmepunktide tähiseks tumehall rist suurusega 3 ja jooneks tumehall peenike pidev joon), täiendavalt tuleks lasta Excelil lisada graafikule uue andmeseeria andmepunktide väärtused (andmepunktidest vasakule poole).


     

6) Sündmuse toimumist ja mittetoimumist märkivate punktide vahele pideva joone lisamiseks tuleb ka selle tarvis sisestada Exceli töölehele abitabel.
Soovides joont täpselt punktide vahele jäetud tühja ala keskele, peab selle koordinaadiks y-telje suhtes valima suuruse A+B/2 (vt joonist tööjehendi alguses), so 1,30 antud näites. Koordinaatideks x-telje suhtes peab valima 0 ja 80 (kui soovida joont kogu x-telje ulatuses, so 0-80 mg).


 

7) Viimaks tuleks lisada telgedele nimetused, muuta vajadusel x-telje skaala tihedust, kirjutada logistilise regressioonivõrrandi graafiku kohal oleva joonise juurde, mis väärtusi märgivad horisontaalsest joonest allpool olevad punktid ('Surnud') ja mis väärtusi ülevalpool olevad punktid ('Elus') ning lisada graafikule ka veel logistiline regressioonivõrrand (lisatekstid ja valemid on Excel 2007-s ja 2010-s lisatavad näiteks tekstikastina).



< Eelmine

Creative Commons License Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License