AppuntiMania.com » Scientifiche » Appunti di Statistica » La variabile statistica doppia

La variabile statistica doppia

Gradito:

[ Medio appunti ]

L'elaborazione dei dati: i rapporti statistici

L'elaborazione dei dati: i rapporti statistici Una terza fase dell'indagine

Introduzione alla statistica

Introduzione alla statistica Definizione di statistica e sue applicazioni E'

Relazione di Calcolo e Statistica

Relazione di Calcolo e Statistica Realizzare un software che : Realizzare

LA VARIABILE STATISTICA DOPPIA

Molto spesso si è interessati a studiare sulla stessa popolazione di ammontare N contemporaneamente due fenomeni X e Y, ognuno dei quali si presenta con le rispettive modalità

x₁,x₂,.,x_i,.x_k e y₁,y₂,.,y_j,.,y_h

in questo tipo di analisi i dati vengono sistemati in una tebella che si definisce TABELLA A DOPPIA ENTRATA :

Y y₁ y₂ y₃....y_j...y_h totale

x n_1,1 n_1,2 n_1,3.n_1,i..n_1,h n_1,0

x₂ n_2,1 n_2,2 n_2,3.n_2,i..n_2,h n_2,0

. . . . . . . n_3,0

. . . . . . . .

x_i n_i,1 n_i,2 n_i,3 n_i,j . . n_i,0

. . . . . . .

. . . . . .

x_k n_k,1 n_k,2 . . n_k,j . n_k,h n_k,0

totale n_0,1 n_0,2 n_0,3 . n_0,j . n_0,h N

Le quantità n_ij rappresentano le frequenze doppie, cioè il numero di unità statistiche che hanno presentato contemporaneamente la modalità x_i del fenomeno X e la modalità y_j del fenomeno Y.

Le quantità n_i0 rappresentano i totali per riga e cioè le frequenze del fenomeno X indipendenti dalla Y. Ad esempio n₂₀ è la frequenza della modalità x₂ indipendentemente da quale modalità di Y si è verificata.

Le quantità n_0j sono i totali per colonna cioè le frequenze del fenomeno Y indipendenti dalla X. Ad esempio n₀₂ è la frequenza di y₂ indipendentemente da quale modalità di X si è verificata.

Dalla tabella a doppia entrata si possono costruire le DISTRIBUZIONI MARGINALI o PARZIALI della X e della Y:

DISTRIBUZIONE MARGINALE DISTRIBUZIONE MARGINALE

DELLA X DELLA Y

x_i n_i y_j n_j

x₁ n₁₀ y₁ n₀₁

x₂ n₂₀ y₂ n₀₂

. . . .

x_i n_i0 y_j n_0j

. . . .

x_k n_k0 y_h n_0h

totale N totale N

Dalla tabella a doppia entrata si possono costruire le DISTRIBUZIONI CONDIZIONATE DI X DA Y E DI Y DA X:

DISTRIBUZIONE CONDIZIONATA DI X DA y₁ T f(X/Y=y₁) si considerano le frequenze della prima colonna

x_i n_i1

x₁ n₁₁

x₂ n₂₁

. .

x_i n_i1

. .

x_k n_k1

n₀₁

DISTRIBUZIONE CONDIZIONATA DI X DA y_j T f(X/Y=y_j) si considerano le frequenze della j-esima colonna

x_i n_ij

x₁ n_1j

x₂ n_2j

x_i n_ij

x_k n_kj

n_0j

e così via.

DISTRIBUZIONE CONDIZIONATA DI Y DA x₂ T f(Y/X=x₂) si considerano le frequenze della seconda riga

y_j n_2j

y₁ n₂₁

y₂ n₂₂

y_j n_2j

y_h n_2h

n₂₀

DISTRIBUZIONE CONDIZIONATA DI Y DA x_i T f(Y/X=x_i) si considerano le frequenze della i-esima riga

Y_j n_ij

Y₁ n_i1

Y₂ n_i2

y_j n_ij

y_h n_ih

n_i0

Per le distribuzioni condizionate si possono calcolare le MEDIE CONDIZIONATE o subordinate di X ad Y:

x_/Y = x₁n₁₁+x₂n₂₁+..+x_in_i1+.+x_kn_k1

n₀₁

x_/Y_j = x₁n_1j+x₂n_2j+.+x_in_ij+.+x_kn_kj

n_0j

e le MEDIE CONDIZIONATE DI Y AD X :

y_/X = y₁n₁₁+y₂n₁₂+.+y_jn_1j+.+y_hn_1h

n₁₀

y_/X_i = y₁n_i1+y₂n_i2+.+y_jn_ij+..+y_hn_ih

n_i0

ANALISI DELLE RELAZIONI TRA VARIABILI STATISTICHE

Molto spesso siamo interessati a capire se tra 2 fenomeni X ed Y possa esistere una relazione di dipendenza.

Si distinguono diversi tipi di dipendenza:

1)DIPENDENZA STOCASTICA O IN GENERALE

data la tabella a doppia entrata si dirà che X è indipendente da Y e viceversa se la frequenza relativa della distribuzione condizionata non è diversa dalla frequenza relativa della distribuzione marginale cioè se

n_ij = n_i0

n_0j N

per ogni i e j, questa condizione può anche scriversi come:

n_ij = n_i0n_0j

In altre parole X ed Y sono stocasticamente indipendenti quando la frequenza doppia (n_ij) è uguale al prodotto dei totali parziali corrispondenti diviso l'ammontare N della popolazione.

Se n_ij n_i0n_0j si dirà che X ed Y sono DIPENDENTI

Questo tipo di dipendenza è bilaterale cioè X dipende da Y ma anche viceversa.

2)DIPENDENZA IN MEDIA

Data la tabella a doppia entrata diremo che X è indipendente in media da Y se tutte le medie condizionate sono tra loro uguali e uguali alla media generale, cioè se:

_ _ _ _ _

x_/Y =x_/Y=..= x_/Y_j=.. = x_/Y_h = x

in caso contrario cioè se almeno una delle medie condizionate è diversa dalle altre diremo che X è dipendente in media da Y.

Analogamente diremo che Y è indipendente da X se le medie condizionate di Y sono tutte tra loro uguali, cioè se

_ _ _ _

y_/X=y_/X=...=y_/X_i=..=y_/X_k

mentre diremo che Y dipende in media da X se almeno una di tali medie condizionate è diversa dalle altre.

La dipendenza in media è UNILATERALE cioè se Y dipende in media da X non è detto che si verifichi il contrario.

Nel caso in cui tra X ed Y esiste una dipendenza in media unidirezionale si individua quale dei due fenomeni è antecedente e quale è conseguente.

Il fenomeno antecedente è la variabile indipendente, il carattere conseguente è la variabile dipendente.

L'esistenza di una dipendenza tra X ed Y significa che tra esse esiste un legame di tipo funzionale:

y^* = f(x)

lo studio della regressione consiste nel determinare il tipo di funzione che meglio esprime il legame esistente.(vedi app.2)

MODELLO DI REGRESSIONE LINEARE SEMPLICE

Una variabile statistica doppia può essere rappresentata graficamente da una nuvola di punti (x_i,y_j), chiamata SCATTER DIAGRAM del tipo:

y .

. . .

si vuole individuare l'equazione di una retta teorica

y*=a+bx

chiamata RETTA DI REGRESSIONE che possa esprimere nel modo migliore la relazione esistente tra X ed Y e approssimare il più possibile lo scatter diagram.

Per calcolare i parametri a (intercetta) e b (coefficiente angolare) di tale retta si utilizza il metodo dei MINIMI QUADRATI che consiste nel minimizzare le distanze verticali tra i punti dello scatter e i punti sulla retta.

Graficamente

y . y*=a+bx_i

y_i* . .

. . . y_i*-y_i

. .

y_i

si sceglie quella retta per la quale la somma dei quadrati degli scarti tra valori osservati y_i e valori teorici y_i* è minima, cioè:

S (y_i*-y_i)²= minimo

ⁱ⁼¹

che può anche scriversi sostituendo ad y_i* l'espressione della retta a+bx_i

S (a+bx_i-y_i)²=minimo

ⁱ⁼¹

utilizzando il calcolo differenziale per la minimizzazione occorre fare le derivate parziali rispetto ai due parametri incogniti ed eguagliarle a 0, la soluzione del sistema

d =0

ci fornisce le espressioni per il calcolo die parametri:

_ _

S (x_i-x)(y_i-y) Codevianza (x,y)

b= _ =

S (x_i-x)²Devianza(x)

dividendo numeratore e denominatore per N si ha

Codevianza(x,y) / N Covarianza(x,y) s_xy

= =

Devianza(x) / N Varianza(x) s_x

_ _

a = y - b x

La retta di regressione passa sempre per il punto medio di

_ _

coordinate ( x, y ).

Spieghiamo il significato dei due parametri:

parametro a T è l'intercetta della retta cioè il punto in cui essa tocca l'asse delle ordinate ed esprime il valore assunto da Y quando X=0

parametro b T è il coefficiente angolare della retta cioè la sua pendenza, esso si definisce COEFFICIENTE DI REGRESSIONE

se b > 0 la retta di regressione è inclinata positivamente cioè verso destra e ciò significa che tra X ed Y esiste una relazione lineare diretta, cioè Y aumenta in media al crescere di X e viceversa.
Se b < 0 la retta di regressione è inclinata negativamente cioè verso sinistra, questo significa che tra X ed Y esiste un legame lineare inverso cioè Y aumenta in media al diminuire di X e viceversa.
Se b = 0 la retta di regressione è orizzontale e da ciò si deduce che tra X ed Y non c'è alcuna relazione lineare cioè essi sono indipendenti in media.

La retta di regressione può anche essere del tipo:

x*=a+by_i

in tal caso Y è la variabile indipendente e X è la variabile dipendente, i parametri sono dati da:

_ _

S (x_i-x)(y_i-y) Codev.(X,Y) s_xy

b = _ = =

S (y_i-y)² Dev.(Y) s_y

_ _

a= x - b y

formule alternative di calcolo per il coefficiente di regressione b

riscriviamo la formula generale del coefficiente di regressione

_n _ __{_ _}

S (x_i-x)(y_i-y) Cod.(X,Y)

b= ⁱ⁼¹ =

_n _

S (x_i-x)² Dev.(X)

ⁱ⁼¹

effettuiamo il prodotto al nemeratore e sviluppiamo il quadrato del binomio al denominatore

_n _ _ __

S (x_iy_i-x_iy-xy_i+xy)

=ⁱ⁼¹scindiamo la sommatoria

_n _ _

S (x_i²+x²-2x_ix)

ⁱ⁼¹

_n __n __n __

Sx_iy_i- ySx_i-xSy_i+Nxy

= ^{i=1 i=1 i=1}

_n _ __n

Sx_i²+Nx²-2xSx_i

^{i=1 i=1}

_ _ __

Sx_iy_i-NySx_i/N-NxSy_i/N+Nxy

= _ _

Sx_i²+Nx²-2NxSx_i/N

__ __ __ __

Sx_iy_i-Nxy-Nxy+Nxy Sx_iy_i-Nxy

= _ _ = _

Sx_i²+Nx²-2Nx² Sx_i²-N(x)²

CALCOLO DEI PARAMETRI DI REGRESSIONE NEL CASO DI TABELLA A DOPPIA ENTRATA

_{k h} _ _

S S (x_i-x)(y_j-y)n_ij Cod.(XY)

b= ^i=1j=1=

_k _

S (x_i-x)²n_i0 Dev.(X)

ⁱ⁼¹

nel caso di formula abbreviata

_ _

S S x_iy_jn_ij - N x y

b= ^{i j}

S x_i²n_i0 - N(x)²

ⁱ

il calcolo del parametro a non cambia :

_ _

a=y-bx

VARIANZA DI REGRESSIONE

Si vuole valutare la significatività della retta di regressione cioè quanto è forte la dispersione dei valori osservati (y_i) rispetto ai valori teorici cioè sulla retta (y_i^*).

A tal fine si analizzano tre tipi di devianze:

1)DEVIANZA TOTALE T è la somma dei quadrati degli scarti tra valori osservati (y_i) e la loro media ( ), cioè

Dev(Y)= (y_i-

ⁱ⁼¹

che è una misura della dispersione (N.B.è il numeratore della varianza di Y) già presente nel fenomeno Y.

Graficamente: le ordinate dei punti dello scatter diagram rappresentano gli y_i osservati, la media può essre rappresentata mediante una retta orizzontale.

. .

. . . y_i-

. .

le differenze y_i- sono le distanze verticali dei punti dalla retta.

2) DEVIANZA DI REGRESSIONE T è la somma dei quadrati degli scarti dei valori teorici (y_i*) dal valore medio ( ), cioè

Dev ( R )= S (y_i*-

ⁱ⁼¹

e ci indica la dispersione dei valori teorici sulla retta (y_i*) rispetto alla media.

Graficamente: i valori teorici (y_i*) sono rappresentati dalla retta di regressione, la media ( ) è rappresentata dalla retta orizzontale

y y_i*

y_i*-

le differenze y_i*- sono le distanze verticali tra la retta di regressione e la retta orizzontale della media.

3) DEVIANZA RESIDUA O DELL'ERRORE T è la somma dei quadrati degli scarti tra valori osservati (y_i) e valori teorici (y_i*), cioè è quella funzione che con il metodo dei minimi quadrati abbiamo minimizzato (N.B. non annullato!), cioè

Dev( E )= S (y_i-y_i*)²

ⁱ⁼¹

Graficamente: i valori osservati sono le ordinate dei punti dello scatter, i valori teorici sono i punti sulla retta di regressione

y_i

. y_i*

. . .

. . y_i-y_i*

. .

x_i

le differenze sono rappresentate dalle distanze tra i punti dello scatter e la retta di regressione.

Si dimostra che :

Dev(Y) = Dev(R) + Dev(E)

Dimostrazione T partiamo dall'espressione generale della devianza totale

Dev(Y) = S (y_i-

ⁱ⁼¹

aggiungiamo e sottraiamo y_i*

S (y_i-y_i*+y_i*- )² sviluppiamo il quadrato del binomio e

^{a b} scindiamo la sommatoria

S (y_i-y_i*)² + S (y_i*- S (y_i-y_i*)(y_i*-

è 0 o comunque piccolissimo

S(y_i-y_i*)²+S(y_i*-

Dev(E) + Dev(R) C.V.D.

da cui si deduce che Dev(R)=Dev(Y)-Dev(E)

Per quantificare quanta parte della devianza totale è determinata dalla retta di regressione o anche il grado di accostamento della retta allo scatter, si utilizza l'INDICE DI DETERMINAZIONE LINEARE dato da:

Dev(R) Dev(Y)-Dev(E) Dev(E)

r² = = = 1 -

Dev(Y) Dev(Y) Dev(Y)

Esso assume sempre un valore compreso tra 0 e 1

r²

r²=0T se Dev(R)=S(y_i*- )²=0 cioè tutti i valori teorici y_i* coincidono con , pertanto la retta di regressione coincide con la retta orizzontale, questo significa che b=coefficiente di regressione è =0 e quindi Y è indipendente in media da X.

r²=1 T se Dev(E)= S(y_i-y_i*)² =0 cioè quando tutti i valori osservati sono allineati lungo la retta di regressione, il grado di accostamento è massimo e quindi y_i=y_i*, in tal caso diremo che esiste perfetta dipendenza in media tra X ed Y.

In definitiva l'indice r² serve a completare l'analisi di regressione perché quantifica la relazione di dipendenza, cioè più il suo valore è vicino a 1 più forte è la dipendenza e quindi il grado di accostamento, più il suo valore è vicino a 0 più debole è la relazione lineare tra X ed Y.

Per il calcolo di r² si utilizza la relazione:

__{__ _ ___}

Cod(X,Y) S(x_i-X)(y_i- (Sx_iy_i-NX

r²= = =

_ _

Dev(X) Dev(Y) S(x_i-X)²S(y_i- )² (Sx_i²-NX²)(Sy_i²-N

INTERDIPENDENZA E CORRELAZIONE

Definiamo il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON il seguente rapporto :

Cod(X,Y)

Dev(X)Dev(Y)

Dividiamo numeratore e denominatore per N

Cod(X,Y)/N Cov(X,Y) σ_xy

r= = =

Dev(X)/N.Dev(Y)/N Var(X).Var(Y) σ_x²σ_y²

σ_xy

σ_xσ_y

Formula abbreviata :

_{_}

Σx_iy_i - N X

(Sx_i²-NX²)(Sy_i²-N

esso può assumere valori tra -1 e 1

*per r=-1T diremo che tra X e Y c'è perfetta discordanza o correlazione negativa cioè a valori più piccolo dell'uno corrispondono valori più grandi dell'altro di segno opposto e viceversa.

*per r=1T diremo che tra X e Y c'è perfetta concordanza o correlazione positiva cioè a valori più piccoli dell'uno corrispondono valori piccoli dell'altro, o anche a valori grandi dell'uno valori grandi dell'altro con lo stesso segno.

*per r=0T si dirà che tra X e Y c'è in correlazione e dunque indipendenza lineare.

In generale se

r> T concordanza

r< Tdiscordanza

Il concetto di correlazione è strettamente collegato a quello di dipendenza lineare, possiamo infatti considerare vari esempi in cui associamo diversi valori di r alla forma dello scatter:

y_i

r=-1 i punti sono perfettamente allineati lungo

la retta di regressione decrescente, perfetta

correlazione negativa e anche perfetta dipendenza

lineare inversa

x_i

y_i r=-0,96 i punti dello scatter sono molto vicini

. alla retta di regressione decrescente, correlazione

. . . negativa e dipendenza lineare inversa molto forte

. .

x_i

y_i .

. . r=-0.58

. .

x_i

y_i

r=0 incorrelazione, lo scatter assume forma

_{. . . quasi circolare} per cui si ha indipendenza lineare

_{. ..}

_{. . .}

. . . .

x_i

y_ir=0,80

_{. .}

. .

x_i

y_i r=0.98 i punti dello scatter sono molto vicini

alla retta crescente, correlazione positiva e

dipendenza lineare diretta molto forte

. .

. . . .

. .

x_i

y_ir=1 i punti dello scatter sono perfettamente allineati

perfetta correlazione positiva e anche

perfetta dipendenza lineare diretta

x_i

Occorre fare alcune considerazioni importanti:

A)il coefficiente di correlazione studia l'interdipendenza tra X ed Y e non semplicemente la loro dipendenza in media, se r=0 non bisogna concludere che tra X e Y c'è indipendenza ma con maggiore precisione occorre che si dica che c'è indifferenza cioè mancanza di concordanza o discordanza, in altre parole indipendenza lineare. Invece se tra X ed Y c'è indipendenza in media allora certamente r=0.

B) Esiste una precisa relazione tra l'indice di determinazione (r²) e il coefficiente di correlazione (r), infatti riprendiamo la formula che esprime r:

Codev.(X,Y) eleviamo al quadrato

Dev(X)Dev(Y)

Codev(X,Y)

r²=

Dev(X)Dev(Y)

Quindi l'indice di determinazione è il quadrato del coefficiente di correlazione e viceversa il coefficiente di correlazione è la radice quadrata dell'indice di determinazione.

C)Il coefficiente r non ci informa su quale delle due variabili X ed Y è antecedente e quale è conseguente.

Supponiamo di aver calcolato i coefficienti di regressione sia di X in Y che di Y in X, cioè:

Codev(X,Y)

b_Y/X=

Dev(X)

Codev(X,Y)

b_X/Y=

Dev(Y)

Si dimostra che r= b_Y/X . b_X/Y proviamolo:

b_Y/X.b_X/Y = Codev(X,Y) . Codev(X,Y) = Codev(X,Y)

Dev(X) Dev(Y) Dev(X)Dev(Y)

Codev(X,Y) = r C.V.D.

Dev(X)Dev(Y)

Appunti su: appuntimania, devianza residua diviso devianza totale della retta di regressione, variabile statistica doppia,

Appunti superiori
Università
all'Informatica

Appunti computer
Gestione dei dispositivi Modello a Scambio di Messaggi: Interazioni tra processi Deadlock
Tesine Portoghese
AnÁlisis de textos Planteamiento del problema de investigaciÓn
Lezioni Spagnolo
Bobina de tesla Spagnolo: ripasso generale Chiara lubich y el movimiento de los focolares