AppuntiMania.com » Scientifiche » Appunti di Statistica » La variabilita'

La variabilita'

Gradito:

[ Medio appunti ]

La statistica

LA STATISTICA DEFINIZIONE La statistica consiste nell'analisi quantitativa

L'elaborazione dei dati: i rapporti statistici

L'elaborazione dei dati: i rapporti statistici Una terza fase dell'indagine

Introduzione alla statistica

Introduzione alla statistica Definizione di statistica e sue applicazioni E'

LA VARIABILITA'

Per variabilità si intende l'attitudine dei fenomeni ad assumere modalità diverse.

In generale si parla di variabilità in senso stretto per i fenomeni quantitativi, mentre per i fenomeni qualitativi si parla più propriamente di mutabilità o eterogeneità.

Si distinguono due aspetti della variabilità:

A) LA DISPERSIONE che studia di quanto, in media, le modalità osservate sono diverse da un valore rappresentativo (una media);

B) LA DISUGUAGLIANZA che studia di quanto, in media, le diverse modalità differiscono tra loro.

Per ognuno dei due aspetti si utilizzeranno degli indici appropriati, ma in primo luogo occorre analizzare alcuni indici semplici e generici che sono:

CAMPO DI VARIAZIONE

W= x_(N) - x₍₁₎

cioè la differenza tra il più piccolo e il più grande valore osservato.Questo indice presenta l'inconveniente di essere eccessivamente sensibile ai valori estremi.

DIFFERENZA INTERQUARTILICA

D_q = Q₃ - Q₁

Cioè la differenza tra terzo e primo quartine che eliminando i valori estremi è meno sensibile ai casi anomali.

INDICI DI DISPERSIONE

A) VARIANZA

*data la serie di valori x₁,x₂,..,x_k detta μ la loro media aritmetica la varianza è data da:

Σ ( x_i - μ )²

Var(X)=σ²= ^{i=1 cioè è la media della
somma degli scarti al}

K ^{quadrato da μ}

*data la distribuzione di frequenze

x₁, x₂,...x_k

n₁, n₂,...n_k

con media aritmetica μ si ha

Σ (x_i - μ)²n_i _{cioè la somma dei quadrati degli scarti
ponderati}

Var(X)=σ²= ⁱ⁼¹

N ^{con le rispettive frequenze}

E' ovvio che se la distribuzione di frequenze è in classi si utilizzano i valori centrali delle classi invece delle x_i.

B)SCARTO QUADRATICO MEDIO

È la radice quadrata della varianza cioè

*per la serie di valori (x₁,x₂,..x_k) esso è dato da

Σ(x_i - μ)²

*per una distribuzione di frequenze

(x_i - )²n_i

*per una distribuzione in classi ovviamente si utilizzano i valori centrali c_i

(c_i - )²n_i

C)SCARTO SEMPLICE MEDIO

È la media aritmetica degli scarti in valore assoluto

*per la serie di valori x₁,x₂,.x_k

δ = Σ|x_i -

*per la distribuzione di frequenze

| x_i - | n_i

In generale per tutti questi indici possiamo dire che : quanto minore è il loro valore (sempre positivo), tanto minore è la dispersione del fenomeno intorno alla sua media, cioè la media aritmetica è tanto più rappresentativa.

Gli stessi risultati possono ottenersi anche calcolando gli indici di variabilità rispetto alla Mediana (scarto quadratico medio rispetto ad M_e, scarto semplice medio rispetto ad M_e e così via.

VARIANZA, DEVIANZA E FORMULA ABBREVIATA PER IL CALCOLO DI σ²

Il numeratore della varianza si definisce DEVIANZA ed è quindi dato dalla somma degli scarti al quadrato, per evitare difficoltà di calcolo dovute alla presenza di numeri decimali si dimostra che:

σ² = M_q - (μ)² cioè è data dalla differenza tra la MEDIA QUADRATICA

M_q = Σ x_i²n_i

e il quadrato della MEDIA ARITMETICA

Σ x_in_i

Dimostrazione:

(x_i- )²n_i

σ² = ^{i=1 sviluppiamo il quadrato
del binomio}

(x_i²+ -2x_i )n_i

= ^{i=1 moltiplichiamo, scindiamo la Σ e ne portiamo fuori le}

N ^costanti

Σ x_i²n_i μ² Σn_i 2 x_in_i

= ⁱ + ⁱ -

N N N

= M_q + μ²N - 2 μ μ = M_q+ μ²- 2 μ²

= M_q - μ² C.V.D.

INDICI DI DISUGUAGLIANZA

Per valutare la disuguaglianza si calcola la DIFFERENZA SEMPLICE MEDIA DI GINI

*data la serie di valori (x₁,x₂,.x_k) essa è data da:

_{k k}

Σ Σ | x_i - x_j |

Δ = ^i=1J=1

n(n-1)

esempio: consideriamo la serie di valori ( 400,450,380)

3 ( 3 - 1 )

= |50|+|20|+|70|+|50|+|20|+|70| = 280 = 46,6

data la distribuzione di frequenze

_{k k}

Σ Σ |x_i-x_j|n_in_j

Δ = ^{i=1 j=1}

N(N-1)

Esempio: data la seguente distribuzione

x_i n_i

10 5

30 3

totale 14

14 ( 14 - 1 )

= 2|10-20|5.6 + 2|10-30|5.3 + 2|20-30|3.6 = 8,57

quando N è molto grande oppure quando le modalità sono molte il calcolo di Δ è molto laborioso, per tale motivo può utilizzarsi una formulazione alternativa:

FORMULA DI DE FINETTI PACIELLO

*nel caso di serie di valori

_N-1

Δ= 2 Σ i ( n-i) (x_i+1-x_i)

n(n-1) ⁱ⁼¹

*nel caso di distribuzione di frequenze

_N-1

= 2 N_i (N-N_i) (x_i+1 - x_i)

N(N-1) ⁱ⁼¹

Esempio 1: consideriamo la seguente serie

Stature medie regionali degli iscritti

alla facoltà di scienze politiche

Piemonte 173,85 Marche 172,89

Valle d'Aosta 173,46 Lazio 173,17

Lombardia 173,60 Abruzzo 171,00

Liguria 174,03 Molise 169,80

Trentino A.A 174,61 Campania 169,97

Veneto 173,96 Puglia 170,40

Friuli 175,52 Basilicata 168,41

Emilia R. 173,97 Calabria 168,85

Toscana 174,61 Sicilia 169,59

Umbria 173,16 Sardegna 168,38

Si procede ordinando dal più piccolo al più grande indicando con i il posto in graduatoria

i x_i x_i+1-x_i i(N-i) prodotti

(valori) (ogni valore - i(N-i)(x_i+1-x_i)

il precedente)

1 168,38 168,41-168,38=0,03 1.(20-1)=19 0,03.19=0,57

2 168,41 168,85-168,41=0,44 2.(20-2)=36 0,44.36=15,84

3 168,85 0,74 51 37,74

4 169,59 0,21 64 13,44

5 169,80 0,17 75 12,75

6 169,97 0,43 84 36,12

7 170,40 0,60 91 54,60

8 171,00 1,89 96 181,44

9 172,89 0,27 99 26,73

10 173,16 0,01 100 1

11 173,17 0,29 99 28,71

12 173,46 0,14 96 13,44

13 173,60 0,25 91 22,75

14 173,85 0,11 84 9,24

15 173,96 0,01 75 0,75

16 173,97 0,06 64 3,84

17 174,03 0,58 51 29,58

18 174,61 0 36 0

19 174,61 0,91 19 17,29

20 175,52 / / /

505,83

2 .505,83 = 2,66

20(19)

esempio 2 consideriamo la seguente tabella di frequenze

x_i n_i

5 410

65 6

totale 607=N

si procede in questo modo:

x_i+1 - x_i N_i N - N_i prodotti

15-5=10 410 607-410=197 10.410.197=10.80770

25-15=10 484 607-484=123 10.484.123=10.59532

10 525 82 10.525.82=10.43050

10 552 55 10.30360

10 568 39 10.22152

10 579 28 10.16212

10 585 22 10.12870

10 592 15 10.8880

10 596 11 10.6556

/ 607 0 0

10.280382

Δ = 2 . 10. 280382 = 15,2

607.606

nel caso in cui si considerano le differenze anche tra ogni termine e se stesso si ha la DIFFERENZA SEMPLICE MEDIA CON RIPETIZIONE data da

Δ_R= N - 1 . Δ

Tutti gli indici di variabilità fino ad ora analizzati si definiscono INDICI DI VARIABILITA' ASSOLUTA e ciò indica che il risultato è espresso nella stessa unità di misura dei termini della distribuzione.

Per confrontare la variabilità di distribuzioni diverse si usano gli INDICI DI VARIABILITà RELATIVA: indicando con V_a l'indice di variabilità assoluta, quello relativo corrispondente si può ricavare alternativamente in due modi

*o dividendo per il valore medio V_r= V_a/μ

*o dividendo per la misura della massima variabilità anche chiamata distribuzione massimante

V_r = V_a

Max.V_a

Tipico indice di questo tipo è il COEFFICIENTE DI VARIAZIONE dato da

CV = σ / μ . 100

Come si determina la distribuzione massimante?

In primo luogo incominciamo col dire che si ha variabilità minima quando tutti i termini di una distribuzione sono uguali tra loro e dunque uguali alla loro media, cioè

x₁=x₂=...=x_n=μ

per cui

=σ²= δ= Δ=.=0 cioè ogni misura di variabilità è =0

il caso opposto si ha quando la variabilità è massima cioè quando tutto N si distribuisce solo tra i valori estremi x₁ e x_N.

Indichiamo con p=la frequenza assoluta di x₁, la parte restante data da N-p=q sarà la frequenza assoluta di x_N, la media aritmetica ponderata in tale situazione estrema è:

μ = x₁p + x_N(N-p)

Risolviamo per calcolare il valore incognito p:

Nμ=x₁p+x_N(N-p)

Nμ= x₁p+x_NN-x_Np

portiamo a sinistra i termini con p

x_Np-x₁p=x_NN-Nμ

mettiamo in evidenza p al primo membro e N al secondo

p(x_N-x₁)=N(x_N-

dividiamo ambo i termini per x_N-x₁

p= N ( x_N - μ )

x_N - x₁

calcoliamo q=N-p cioè sostituendo

q=N - N(x_N- ) = N(x_N-x₁) - N(x_N-μ)

x_N-x₁ x_N-x₁

mettiamo N in evidenza al numeratore

q= N[ x_N-x₁-x_N+ ] = N( μ-x₁)

x_N-x₁ x_N-x₁

trovati i valori di p e di q possiamo calcolare la distribuzione massimante di tutti gli indici di variabilità

a)distribuzione massimante di σ:

_max= (x₁- )²p+(x_N-μ)²q

Sostituendo i valori trovati di p e q dopo qualche passaggio algebrico si ottiene

Maxσ= (μ-x₁)(x_N-μ)

b) distribuzione massimante di δ

δ_max= |x₁-μ|p+|x_N-μ|q

Sostituendo i valori di p e q dopo semplici passaggi si ha

Maxδ= 2(μ-x₁)(x_N-μ)

x_N-x₁

c)distribuzione massimante di Δ

Δ_max= 2 . (x_N-x₁)p.q

N(N-1)

Sostituendo p e q

MaxΔ= 2N(μ-x₁)(x_N-μ)

(N-1)(x_N-x₁)

LA CONCENTRAZIONE

E' lo studio della variabilità dei fenomeni trasferibili (come il reddito) cioè fenomeni la cui intensità può spostarsi da una unità statistica all'altra, oppure può essere posseduta tutta o in parte da pochi elementi.

Con lo studio della concentrazione si evidenzia la sperequazione tra le intensità del carattere.

Indichiamo con:

p_i► la frazione del collettivo (popolazione) costituita da i unità statistiche;

q_i► la frazione del fenomeno posseduta da i unità statistiche.

Se il fenomeno fosse equidistribuito si dovrebbe verificare la condizione

p_i = q_i

cioè ad ogni frazione di popolazione dovrebbe spettare una frazione equivalente del fenomeno.

Nella generalità dei casi il fenomeno non è equidistribuito per cui

p_i>q_i e quindi p_i - q_i > 0 e più alte sono tali differenze maggiore è la concentrazione del carattere nelle mani di poche unità statistiche.

Analizziamo graficamente il fenomeno:

asse ascisse→p_i

asse ordinate→q_i

la situazione di equidistribuzione può così essere rappresentata

q_i

q_i

q₂

q₁

p₁ p₂ ...p_i p_i

se p₁=q₁, p₂=q₂,..p_i=q_i per ogni i si costruiscono tanti quadrati sempre più grandi, unendo i vertici si ottiene la retta bisettrice del primo quadrante caratterizzata da tutti punti che hanno ascissa=ordinata e che è chiamata RETTA DI EQUIDISTRIBUZIONE.

Nei casi generali però si è detto che p_i-q_i>0 cioè per ogni ascissa p_i vi sarà una ordinata q_i più piccola per cui si individueranno punti al di sotto della retta di equidistribuzione unendo i quali si ottiene una spezzata chiamata CURVA DI LORENZ o CURVA DI CONCENTRAZIONE.

q_i

p_i-q_i

p_i

le differenze p_i-q_i sono rappresentate dalle distanze verticali tra i punti della spezzata e i corrispondenti punti sulla retta di equidistribuzione.

Per misurare il grado di concentrazione si utilizza il RAPPORTO DI CONCENTRAZIONE DI GINI dato da:

area di concentrazione

area max.concentrazione

il calcolo cambia a seconda che si tratti di serie di valori o di distribuzione di frequenze.

CASO DI SERIE DI VALORI

Consideriamo la variabile statistica con frequenze unitarie

x₁, x₂,....x_i-1, x_i, x_i+1,....x_n

si ordinano i valori in modo crescente attribuendo il numero di posto in graduatoria

i x_i

x₁

x₂

x₃

. .

i-1 x_i-1

i x_i

i+1 x_i+1

. .

n x_n

si calcolano le p_i=i/n :

p₁=1/n, p₂=2/n,...p_i=i/n,....p_n=n/n=1

si calcolano le q_i=A_i/A_n:

dove A₁=x₁, A₂=x₁+x₂, A₃=x₁+x₂+x₃,......

A_i=x₁+x₂+..+x_i,. A_n=x₁+x₂+...+x_n

Da cui

q₁=A₁/A_n, q₂=A₂/A_n, . , q_i=A_i/A_n, ., q_n=A_n/A_n=1

l'area di concentrazione si calcola con il METODO DELLO SCALOIDE, cioè la figura formata da tutti i rettangoli di base p_i e altezza q_i, poiché le basi sono tutte uguali e pari a 1/n e le altezze sono date dalle differenze p_i-q_i, sommando tutte le aree si ha:

H= 1 (p₁-q₁)+ 1 (p₂-q₂)+.+ 1 (p_i-q_i)+.+ 1 (p_n-q_n) =

n n n n

_n-1

= 1 Σ (p_i-q_i)

n ⁱ⁼¹

P_i

q_i

la max. concentrazione si ha quando le q_i sono tutte =0, per cui l'area dello scaloide è data da

Σ 1 p_i

ⁱ⁼¹n

Il rapporto di concentrazione è dunque dato da:

R= Σ 1 (p_i-q_i) / Σ 1 p_i

ⁱ n ⁱ n

R=Σ(p_i-q_i)

Σp_i

CASO DI DISTRIBUZIONE DI FREQUENZE

Data una distribuzione di frequenze, si calcolano le frequenze cumulate

x_i n_i F_i

x₁ n₁ F₁=n₁

x₂ n₂ F₂=n₁+n₂

. . .

x_i n_i F_i=n₁+n₂+.+n_i

. . .

x_n n_n F_n=n₁+n₂+..+n_n=N

Si calcolano le p_i= F_icioè:

P₁=F₁ , p₂=F₂ ,., p_i=F_i ,., p_n=N =1

N N N N

Si calcolano le q_i=A_i dove le A_i sono date da

A_n

A₁=x₁, A₂=x₁+x₂,., A_i=x₁+x₂+.+x_i,., A_n=x₁+x₂+....+x_n

Da cui

q₁=A₁, q₂=A₂ ,., q_i=A_i , ., q_n=A_n =1

A_n A_n A_n A_n

L'area di max concentrazione è data dall'area del triangolo OAB

B con OA=p_n=1

AB=q_n=1

Per cui AREA=OA.AB/2=1/2

O A

Per calcolare l'area di concentrazione H si usa la REGOLA DEI TRAPEZI che consiste nel sottrarre dall'area di max.concentrazione (1/2) la somma delle aree dei trapezi che si formano al di sotto della spezzata di Lorenz.

q_i+1

q_i

p_i p_i+1

ricordando che l'area del trapezio è data da

(base maggiore + base minore) . altezza

per l'i-esimo trapezio si ha

(q_i+q_i+1) . (p_i+1-p_i)

sommando per i=1,2,3.i,.n si ottiene l'area del trapezoide al di sotto della spezzata

Σ (q_i+q_i+1)(p_i+1-p_i)

ⁱ⁼¹

l'area di concentrazione sarà

H= 1 - Σ(q_i+q_i+1)(p_i+1-p_i)

Il RAPPORTO DI GINI è dato da:

R= H e quindi dividendo tutti i termini per ½

R= 1 - Σ (q_i+q_i+1)(p_i+1-p_i)

In entrambe i casi il valore di R è sempre compreso tra 0 e 1 cioè

0≤R≤1

R=0 in caso di equidistribuzione

R=1 in caso di max.concentrazione

Appunti su: https:wwwappuntimaniacomscientifichestatisticala-variabilita64php, appuntimania, distribuzione massimante variabilitC3A0,

Appunti superiori
Università
all'Informatica

Appunti computer
Elea 9003 Il dispositivo nodo 'data flow': ARTMNODE Gestione dei dispositivi
Tesine Contabilita
Immobilizzazioni immateriali: definizione e valutazione Architetture client/server Il sistema informativo contabile
Lezioni Francese
Paris Vie de Maupassant Le petit prince, Antonie de Saint-Exupéry