|
Appunti scientifiche |
|
Visite: 3231 | Gradito: | [ Medio appunti ] |
Leggi anche appunti:L'elaborazione dei dati: i rapporti statisticiL'elaborazione dei dati: i rapporti statistici Una terza fase dell'indagine Introduzione alla statisticaIntroduzione alla statistica Definizione di statistica e sue applicazioni E' Relazione di Calcolo e StatisticaRelazione di Calcolo e Statistica Realizzare un software che : Realizzare |
LA VARIABILE STATISTICA DOPPIA
Molto spesso si è interessati a studiare sulla stessa popolazione di ammontare N contemporaneamente due fenomeni X e Y, ognuno dei quali si presenta con le rispettive modalità
x1,x2,.,xi,.xk e y1,y2,.,yj,.,yh
in questo tipo di analisi i dati vengono sistemati in una tebella che si definisce TABELLA A DOPPIA ENTRATA :
Y y1 y2 y3....yj...yh totale
X
x n1,1 n1,2 n1,3.n1,i..n1,h n1,0
x2 n2,1 n2,2 n2,3.n2,i..n2,h n2,0
. . . . . . . n3,0
. . . . . . . .
. . . . . . . .
xi ni,1 ni,2 ni,3 ni,j . . ni,0
. . . . . . .
. . . . . .
xk nk,1 nk,2 . . nk,j . nk,h nk,0
totale n0,1 n0,2 n0,3 . n0,j . n0,h N
Le quantità nij rappresentano le frequenze doppie, cioè il numero di unità statistiche che hanno presentato contemporaneamente la modalità xi del fenomeno X e la modalità yj del fenomeno Y.
Le quantità ni0 rappresentano i totali per riga e cioè le frequenze del fenomeno X indipendenti dalla Y. Ad esempio n20 è la frequenza della modalità x2 indipendentemente da quale modalità di Y si è verificata.
Le quantità n0j sono i totali per colonna cioè le frequenze del fenomeno Y indipendenti dalla X. Ad esempio n02 è la frequenza di y2 indipendentemente da quale modalità di X si è verificata.
Dalla tabella a doppia entrata si possono costruire le DISTRIBUZIONI MARGINALI o PARZIALI della X e della Y:
DISTRIBUZIONE MARGINALE DISTRIBUZIONE MARGINALE
DELLA X DELLA Y
xi ni yj nj
x1 n10 y1 n01
x2 n20 y2 n02
. . . .
. . . .
xi ni0 yj n0j
. . . .
. . . .
xk nk0 yh n0h
totale N totale N
Dalla tabella a doppia entrata si possono costruire le DISTRIBUZIONI CONDIZIONATE DI X DA Y E DI Y DA X:
DISTRIBUZIONE CONDIZIONATA DI X DA y1 T f(X/Y=y1) si considerano le frequenze della prima colonna
xi ni1
x1 n11
x2 n21
. .
. .
xi ni1
. .
. .
xk nk1
n01
DISTRIBUZIONE CONDIZIONATA DI X DA yj T f(X/Y=yj) si considerano le frequenze della j-esima colonna
xi nij
x1 n1j
x2 n2j
.
.
xi nij
.
.
xk nkj
n0j
e così via.
DISTRIBUZIONE CONDIZIONATA DI Y DA x2 T f(Y/X=x2) si considerano le frequenze della seconda riga
yj n2j
y1 n21
y2 n22
.
.
yj n2j
.
.
yh n2h
n20
DISTRIBUZIONE CONDIZIONATA DI Y DA xi T f(Y/X=xi) si considerano le frequenze della i-esima riga
Yj nij
Y1 ni1
Y2 ni2
.
.
yj nij
.
.
yh nih
ni0
Per le distribuzioni condizionate si possono calcolare le MEDIE CONDIZIONATE o subordinate di X ad Y:
x/Y = x1n11+x2n21+..+xini1+.+xknk1
n01
x/Yj = x1n1j+x2n2j+.+xinij+.+xknkj
n0j
e le MEDIE CONDIZIONATE DI Y AD X :
y/X = y1n11+y2n12+.+yjn1j+.+yhn1h
n10
y/Xi = y1ni1+y2ni2+.+yjnij+..+yhnih
ni0
ANALISI DELLE RELAZIONI TRA VARIABILI STATISTICHE
Molto spesso siamo interessati a capire se tra 2 fenomeni X ed Y possa esistere una relazione di dipendenza.
Si distinguono diversi tipi di dipendenza:
1)DIPENDENZA STOCASTICA O IN GENERALE
data la tabella a doppia entrata si dirà che X è indipendente da Y e viceversa se la frequenza relativa della distribuzione condizionata non è diversa dalla frequenza relativa della distribuzione marginale cioè se
nij = ni0
n0j N
per ogni i e j, questa condizione può anche scriversi come:
nij = ni0n0j
N
In altre parole X ed Y sono stocasticamente indipendenti quando la frequenza doppia (nij) è uguale al prodotto dei totali parziali corrispondenti diviso l'ammontare N della popolazione.
Se nij ni0n0j si dirà che X ed Y sono DIPENDENTI
N
Questo tipo di dipendenza è bilaterale cioè X dipende da Y ma anche viceversa.
2)DIPENDENZA IN MEDIA
Data la tabella a doppia entrata diremo che X è indipendente in media da Y se tutte le medie condizionate sono tra loro uguali e uguali alla media generale, cioè se:
_ _ _ _ _
x/Y =x/Y =..= x/Yj=.. = x/Yh = x
in caso contrario cioè se almeno una delle medie condizionate è diversa dalle altre diremo che X è dipendente in media da Y.
Analogamente diremo che Y è indipendente da X se le medie condizionate di Y sono tutte tra loro uguali, cioè se
_ _ _ _
y/X =y/X =...=y/Xi=..=y/Xk
mentre diremo che Y dipende in media da X se almeno una di tali medie condizionate è diversa dalle altre.
La dipendenza in media è UNILATERALE cioè se Y dipende in media da X non è detto che si verifichi il contrario.
Nel caso in cui tra X ed Y esiste una dipendenza in media unidirezionale si individua quale dei due fenomeni è antecedente e quale è conseguente.
Il fenomeno antecedente è la variabile indipendente, il carattere conseguente è la variabile dipendente.
L'esistenza di una dipendenza tra X ed Y significa che tra esse esiste un legame di tipo funzionale:
y* = f(x)
lo studio della regressione consiste nel determinare il tipo di funzione che meglio esprime il legame esistente.(vedi app.2)
MODELLO DI REGRESSIONE LINEARE SEMPLICE
Una variabile statistica doppia può essere rappresentata graficamente da una nuvola di punti (xi,yj), chiamata SCATTER DIAGRAM del tipo:
y .
. . .
. . .
. . .
. . .
x
si vuole individuare l'equazione di una retta teorica
y*=a+bx
chiamata RETTA DI REGRESSIONE che possa esprimere nel modo migliore la relazione esistente tra X ed Y e approssimare il più possibile lo scatter diagram.
Per calcolare i parametri a (intercetta) e b (coefficiente angolare) di tale retta si utilizza il metodo dei MINIMI QUADRATI che consiste nel minimizzare le distanze verticali tra i punti dello scatter e i punti sulla retta.
Graficamente
y . y*=a+bxi
.
yi* . .
. . . yi*-yi
. .
yi
x
si sceglie quella retta per la quale la somma dei quadrati degli scarti tra valori osservati yi e valori teorici yi* è minima, cioè:
N
S (yi*-yi)2= minimo
i=1
che può anche scriversi sostituendo ad yi* l'espressione della retta a+bxi
N
S (a+bxi-yi)2=minimo
i=1
utilizzando il calcolo differenziale per la minimizzazione occorre fare le derivate parziali rispetto ai due parametri incogniti ed eguagliarle a 0, la soluzione del sistema
d =0
da
d =0
db
ci fornisce le espressioni per il calcolo die parametri:
_ _
S (xi-x)(yi-y) Codevianza (x,y)
b= _ =
S (xi-x)2 Devianza(x)
dividendo numeratore e denominatore per N si ha
Codevianza(x,y) / N Covarianza(x,y) sxy
= =
Devianza(x) / N Varianza(x) sx
_ _
a = y - b x
La retta di regressione passa sempre per il punto medio di
_ _
coordinate ( x, y ).
Spieghiamo il significato dei due parametri:
parametro a T è l'intercetta della retta cioè il punto in cui essa tocca l'asse delle ordinate ed esprime il valore assunto da Y quando X=0
parametro b T è il coefficiente angolare della retta cioè la sua pendenza, esso si definisce COEFFICIENTE DI REGRESSIONE
La retta di regressione può anche essere del tipo:
x*=a+byi
in tal caso Y è la variabile indipendente e X è la variabile dipendente, i parametri sono dati da:
_ _
S (xi-x)(yi-y) Codev.(X,Y) sxy
b = _ = =
S (yi-y)2 Dev.(Y) sy
_ _
a= x - b y
formule alternative di calcolo per il coefficiente di regressione b
riscriviamo la formula generale del coefficiente di regressione
n _ _ _ _
S (xi-x)(yi-y) Cod.(X,Y)
b= i=1 =
n _
S (xi-x)2 Dev.(X)
i=1
effettuiamo il prodotto al nemeratore e sviluppiamo il quadrato del binomio al denominatore
n _ _ __
S (xiyi-xiy-xyi+xy)
= i=1 scindiamo la sommatoria
n _ _
S (xi2+x2-2xix)
i=1
n _n _ n __
Sxiyi- ySxi-xSyi+Nxy
= i=1 i=1 i=1
n _ _ n
Sxi2+Nx2-2xSxi
i=1 i=1
_ _ __
Sxiyi-NySxi/N-NxSyi/N+Nxy
= _ _
Sxi2+Nx2-2NxSxi/N
__ __ __ __
Sxiyi-Nxy-Nxy+Nxy Sxiyi-Nxy
= _ _ = _
Sxi2+Nx2-2Nx2 Sxi2-N(x)2
CALCOLO DEI PARAMETRI DI REGRESSIONE NEL CASO DI TABELLA A DOPPIA ENTRATA
k h _ _
S S (xi-x)(yj-y)nij Cod.(XY)
b= i=1j=1 =
k _
S (xi-x)2ni0 Dev.(X)
i=1
nel caso di formula abbreviata
_ _
S S xiyjnij - N x y
b= i j
_
S xi2ni0 - N(x)2
i
il calcolo del parametro a non cambia :
_ _
a=y-bx
VARIANZA DI REGRESSIONE
Si vuole valutare la significatività della retta di regressione cioè quanto è forte la dispersione dei valori osservati (yi) rispetto ai valori teorici cioè sulla retta (yi*).
A tal fine si analizzano tre tipi di devianze:
1)DEVIANZA TOTALE T è la somma dei quadrati degli scarti tra valori osservati (yi) e la loro media ( ), cioè
n
Dev(Y)= (yi-
i=1
che è una misura della dispersione (N.B.è il numeratore della varianza di Y) già presente nel fenomeno Y.
Graficamente: le ordinate dei punti dello scatter diagram rappresentano gli yi osservati, la media può essre rappresentata mediante una retta orizzontale.
y
. .
. . . yi-
. .
. .
x
le differenze yi- sono le distanze verticali dei punti dalla retta.
2) DEVIANZA DI REGRESSIONE T è la somma dei quadrati degli scarti dei valori teorici (yi*) dal valore medio ( ), cioè
n
Dev ( R )= S (yi*-
i=1
e ci indica la dispersione dei valori teorici sulla retta (yi*) rispetto alla media.
Graficamente: i valori teorici (yi*) sono rappresentati dalla retta di regressione, la media ( ) è rappresentata dalla retta orizzontale
y yi*
yi*-
X
le differenze yi*- sono le distanze verticali tra la retta di regressione e la retta orizzontale della media.
3) DEVIANZA RESIDUA O DELL'ERRORE T è la somma dei quadrati degli scarti tra valori osservati (yi) e valori teorici (yi*), cioè è quella funzione che con il metodo dei minimi quadrati abbiamo minimizzato (N.B. non annullato!), cioè
n
Dev( E )= S (yi-yi*)2
i=1
Graficamente: i valori osservati sono le ordinate dei punti dello scatter, i valori teorici sono i punti sulla retta di regressione
yi
. yi*
.
. . .
. . yi-yi*
. .
.
xi
le differenze sono rappresentate dalle distanze tra i punti dello scatter e la retta di regressione.
Si dimostra che :
Dev(Y) = Dev(R) + Dev(E)
Dimostrazione T partiamo dall'espressione generale della devianza totale
n
Dev(Y) = S (yi-
i=1
aggiungiamo e sottraiamo yi*
S (yi-yi*+yi*- )2 sviluppiamo il quadrato del binomio e
a b scindiamo la sommatoria
S (yi-yi*)2 + S (yi*- S (yi-yi*)(yi*-
è 0 o comunque piccolissimo
S(yi-yi*)2+S(yi*-
Dev(E) + Dev(R) C.V.D.
da cui si deduce che Dev(R)=Dev(Y)-Dev(E)
Per quantificare quanta parte della devianza totale è determinata dalla retta di regressione o anche il grado di accostamento della retta allo scatter, si utilizza l'INDICE DI DETERMINAZIONE LINEARE dato da:
Dev(R) Dev(Y)-Dev(E) Dev(E)
r2 = = = 1 -
Dev(Y) Dev(Y) Dev(Y)
r2
r2=0T se Dev(R)=S(yi*- )2=0 cioè tutti i valori teorici yi* coincidono con , pertanto la retta di regressione coincide con la retta orizzontale, questo significa che b=coefficiente di regressione è =0 e quindi Y è indipendente in media da X.
r2=1 T se Dev(E)= S(yi-yi*)2 =0 cioè quando tutti i valori osservati sono allineati lungo la retta di regressione, il grado di accostamento è massimo e quindi yi=yi*, in tal caso diremo che esiste perfetta dipendenza in media tra X ed Y.
In definitiva l'indice r2 serve a completare l'analisi di regressione perché quantifica la relazione di dipendenza, cioè più il suo valore è vicino a 1 più forte è la dipendenza e quindi il grado di accostamento, più il suo valore è vicino a 0 più debole è la relazione lineare tra X ed Y.
Per il calcolo di r2 si utilizza la relazione:
___ _ ___
Cod(X,Y) S(xi-X)(yi- (Sxiyi-NX
r2= = =
_ _
Dev(X) Dev(Y) S(xi-X)2S(yi- )2 (Sxi2-NX2)(Syi2-N
INTERDIPENDENZA E CORRELAZIONE
Definiamo il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON il seguente rapporto :
Cod(X,Y)
r=
Dev(X)Dev(Y)
Dividiamo numeratore e denominatore per N
Cod(X,Y)/N Cov(X,Y) σxy
r= = =
Dev(X)/N.Dev(Y)/N Var(X).Var(Y) σx2σy2
σxy
σxσy
Formula abbreviata :
_
Σxiyi - N X
r=
(Sxi2-NX2)(Syi2-N
esso può assumere valori tra -1 e 1
r
*per r=-1T diremo che tra X e Y c'è perfetta discordanza o correlazione negativa cioè a valori più piccolo dell'uno corrispondono valori più grandi dell'altro di segno opposto e viceversa.
*per r=1T diremo che tra X e Y c'è perfetta concordanza o correlazione positiva cioè a valori più piccoli dell'uno corrispondono valori piccoli dell'altro, o anche a valori grandi dell'uno valori grandi dell'altro con lo stesso segno.
*per r=0T si dirà che tra X e Y c'è in correlazione e dunque indipendenza lineare.
In generale se
r> T concordanza
r< Tdiscordanza
Il concetto di correlazione è strettamente collegato a quello di dipendenza lineare, possiamo infatti considerare vari esempi in cui associamo diversi valori di r alla forma dello scatter:
yi
r=-1 i punti sono perfettamente allineati lungo
la retta di regressione decrescente, perfetta
correlazione negativa e anche perfetta dipendenza
lineare inversa
xi
yi r=-0,96 i punti dello scatter sono molto vicini
. alla retta di regressione decrescente, correlazione
. . . negativa e dipendenza lineare inversa molto forte
. .
xi
yi .
. . r=-0.58
. .
. .
.
xi
yi
r=0 incorrelazione, lo scatter assume forma
. . . quasi circolare per cui si ha indipendenza lineare
. ..
. . .
. . . .
.
xi
yi r=0,80
. .
.
.
. .
.
xi
yi r=0.98 i punti dello scatter sono molto vicini
alla retta crescente, correlazione positiva e
dipendenza lineare diretta molto forte
. .
. . . .
. .
xi
yi r=1 i punti dello scatter sono perfettamente allineati
perfetta correlazione positiva e anche
perfetta dipendenza lineare diretta
xi
Occorre fare alcune considerazioni importanti:
A)il coefficiente di correlazione studia l'interdipendenza tra X ed Y e non semplicemente la loro dipendenza in media, se r=0 non bisogna concludere che tra X e Y c'è indipendenza ma con maggiore precisione occorre che si dica che c'è indifferenza cioè mancanza di concordanza o discordanza, in altre parole indipendenza lineare. Invece se tra X ed Y c'è indipendenza in media allora certamente r=0.
B) Esiste una precisa relazione tra l'indice di determinazione (r2) e il coefficiente di correlazione (r), infatti riprendiamo la formula che esprime r:
Codev.(X,Y) eleviamo al quadrato
r=
Dev(X)Dev(Y)
Codev(X,Y)
r2=
Dev(X)Dev(Y)
Quindi l'indice di determinazione è il quadrato del coefficiente di correlazione e viceversa il coefficiente di correlazione è la radice quadrata dell'indice di determinazione.
C)Il coefficiente r non ci informa su quale delle due variabili X ed Y è antecedente e quale è conseguente.
Supponiamo di aver calcolato i coefficienti di regressione sia di X in Y che di Y in X, cioè:
Codev(X,Y)
bY/X=
Dev(X)
Codev(X,Y)
bX/Y=
Dev(Y)
Si dimostra che r= bY/X . bX/Y proviamolo:
bY/X.bX/Y = Codev(X,Y) . Codev(X,Y) = Codev(X,Y)
Dev(X) Dev(Y) Dev(X)Dev(Y)
Codev(X,Y) = r C.V.D.
Dev(X)Dev(Y)
Appunti su: devianza residua diviso devianza totale della retta di regressione, variabile statistica doppia, |
|
Appunti computer | |
Tesine Portoghese | |
Lezioni Spagnolo | |