|
Appunti scientifiche |
|
Visite: 3790 | Gradito: | [ Medio appunti ] |
Leggi anche appunti:La statisticaLA STATISTICA DEFINIZIONE La statistica consiste nell'analisi quantitativa L'elaborazione dei dati: i rapporti statisticiL'elaborazione dei dati: i rapporti statistici Una terza fase dell'indagine Introduzione alla statisticaIntroduzione alla statistica Definizione di statistica e sue applicazioni E' |
Per variabilità si intende l'attitudine dei fenomeni ad assumere modalità diverse.
In generale si parla di variabilità in senso stretto per i fenomeni quantitativi, mentre per i fenomeni qualitativi si parla più propriamente di mutabilità o eterogeneità.
Si distinguono due aspetti della variabilità:
A) LA DISPERSIONE che studia di quanto, in media, le modalità osservate sono diverse da un valore rappresentativo (una media);
B) LA DISUGUAGLIANZA che studia di quanto, in media, le diverse modalità differiscono tra loro.
Per ognuno dei due aspetti si utilizzeranno degli indici appropriati, ma in primo luogo occorre analizzare alcuni indici semplici e generici che sono:
W= x(N) - x(1)
cioè la differenza tra il più piccolo e il più grande valore osservato.Questo indice presenta l'inconveniente di essere eccessivamente sensibile ai valori estremi.
Dq = Q3 - Q1
Cioè la differenza tra terzo e primo quartine che eliminando i valori estremi è meno sensibile ai casi anomali.
INDICI DI DISPERSIONE
A) VARIANZA
*data la serie di valori x1,x2,..,xk detta μ la loro media aritmetica la varianza è data da:
k
Σ ( xi - μ )2
Var(X)=σ2= i=1 cioè è la media della somma degli scarti al
K quadrato da μ
*data la distribuzione di frequenze
x1, x2,...xk
n1, n2,...nk
con media aritmetica μ si ha
k
Σ (xi - μ)2ni cioè la somma dei quadrati degli scarti ponderati
Var(X)=σ2= i=1
N con le rispettive frequenze
E' ovvio che se la distribuzione di frequenze è in classi si utilizzano i valori centrali delle classi invece delle xi.
B)SCARTO QUADRATICO MEDIO
È la radice quadrata della varianza cioè
*per la serie di valori (x1,x2,..xk) esso è dato da
Σ(xi - μ)2
N
*per una distribuzione di frequenze
(xi - )2ni
N
*per una distribuzione in classi ovviamente si utilizzano i valori centrali ci
(ci - )2ni
N
È la media aritmetica degli scarti in valore assoluto
*per la serie di valori x1,x2,.xk
δ = Σ|xi -
N
*per la distribuzione di frequenze
| xi - | ni
N
In generale per tutti questi indici possiamo dire che : quanto minore è il loro valore (sempre positivo), tanto minore è la dispersione del fenomeno intorno alla sua media, cioè la media aritmetica è tanto più rappresentativa.
Gli stessi risultati possono ottenersi anche calcolando gli indici di variabilità rispetto alla Mediana (scarto quadratico medio rispetto ad Me, scarto semplice medio rispetto ad Me e così via.
VARIANZA, DEVIANZA E FORMULA ABBREVIATA PER IL CALCOLO DI σ2
Il numeratore della varianza si definisce DEVIANZA ed è quindi dato dalla somma degli scarti al quadrato, per evitare difficoltà di calcolo dovute alla presenza di numeri decimali si dimostra che:
σ2 = Mq - (μ)2 cioè è data dalla differenza tra la MEDIA QUADRATICA
Mq = Σ xi2ni
N
e il quadrato della MEDIA ARITMETICA
2
Σ xini
N
Dimostrazione:
k
(xi- )2ni
σ2 = i=1 sviluppiamo il quadrato del binomio
N
k
(xi2+ -2xi )ni
= i=1 moltiplichiamo, scindiamo la Σ e ne portiamo fuori le
N costanti
Σ xi2ni μ2 Σni 2 xini
= i + i -
N N N
= Mq + μ2N - 2 μ μ = Mq + μ2 - 2 μ2
N
= Mq - μ2 C.V.D.
INDICI DI DISUGUAGLIANZA
Per valutare la disuguaglianza si calcola la DIFFERENZA SEMPLICE MEDIA DI GINI
*data la serie di valori (x1,x2,.xk) essa è data da:
k k
Σ Σ | xi - xj |
Δ = i=1J=1
n(n-1)
esempio: consideriamo la serie di valori ( 400,450,380)
3 ( 3 - 1 )
= |50|+|20|+|70|+|50|+|20|+|70| = 280 = 46,6
k k
Σ Σ |xi-xj|ninj
Δ = i=1 j=1
N(N-1)
Esempio: data la seguente distribuzione
xi ni
10 5
30 3
totale 14
14 ( 14 - 1 )
= 2|10-20|5.6 + 2|10-30|5.3 + 2|20-30|3.6 = 8,57
quando N è molto grande oppure quando le modalità sono molte il calcolo di Δ è molto laborioso, per tale motivo può utilizzarsi una formulazione alternativa:
FORMULA DI DE FINETTI PACIELLO
*nel caso di serie di valori
N-1
Δ= 2 Σ i ( n-i) (xi+1-xi)
n(n-1) i=1
N-1
= 2 Ni (N-Ni) (xi+1 - xi)
N(N-1) i=1
10.280382
Δ = 2 . 10. 280382 = 15,2
607.606
nel caso in cui si considerano le differenze anche tra ogni termine e se stesso si ha la DIFFERENZA SEMPLICE MEDIA CON RIPETIZIONE data da
ΔR= N - 1 . Δ
N
Tutti gli indici di variabilità fino ad ora analizzati si definiscono INDICI DI VARIABILITA' ASSOLUTA e ciò indica che il risultato è espresso nella stessa unità di misura dei termini della distribuzione.
Per confrontare la variabilità di distribuzioni diverse si usano gli INDICI DI VARIABILITà RELATIVA: indicando con Va l'indice di variabilità assoluta, quello relativo corrispondente si può ricavare alternativamente in due modi
*o dividendo per il valore medio Vr= Va/μ
*o dividendo per la misura della massima variabilità anche chiamata distribuzione massimante
Vr = Va
Max.Va
Tipico indice di questo tipo è il COEFFICIENTE DI VARIAZIONE dato da
CV = σ / μ . 100
Come si determina la distribuzione massimante?
In primo luogo incominciamo col dire che si ha variabilità minima quando tutti i termini di una distribuzione sono uguali tra loro e dunque uguali alla loro media, cioè
x1=x2=...=xn=μ
per cui
=σ2= δ= Δ=.=0 cioè ogni misura di variabilità è =0
il caso opposto si ha quando la variabilità è massima cioè quando tutto N si distribuisce solo tra i valori estremi x1 e xN.
Indichiamo con p=la frequenza assoluta di x1, la parte restante data da N-p=q sarà la frequenza assoluta di xN, la media aritmetica ponderata in tale situazione estrema è:
μ = x1p + xN(N-p)
N
Risolviamo per calcolare il valore incognito p:
Nμ=x1p+xN(N-p)
Nμ= x1p+xNN-xNp
portiamo a sinistra i termini con p
xNp-x1p=xNN-Nμ
mettiamo in evidenza p al primo membro e N al secondo
p(xN-x1)=N(xN-
dividiamo ambo i termini per xN-x1
p= N ( xN - μ )
xN - x1
calcoliamo q=N-p cioè sostituendo
q=N - N(xN- ) = N(xN-x1) - N(xN-μ)
xN-x1 xN-x1
mettiamo N in evidenza al numeratore
q= N[ xN-x1-xN+ ] = N( μ-x1)
xN-x1 xN-x1
trovati i valori di p e di q possiamo calcolare la distribuzione massimante di tutti gli indici di variabilità
a)distribuzione massimante di σ:
max= (x1- )2p+(xN-μ)2q
N
Sostituendo i valori trovati di p e q dopo qualche passaggio algebrico si ottiene
Maxσ= (μ-x1)(xN-μ)
b) distribuzione massimante di δ
δmax= |x1-μ|p+|xN-μ|q
N
Sostituendo i valori di p e q dopo semplici passaggi si ha
Maxδ= 2(μ-x1)(xN-μ)
xN-x1
c)distribuzione massimante di Δ
Δmax= 2 . (xN-x1)p.q
N(N-1)
Sostituendo p e q
MaxΔ= 2N(μ-x1)(xN-μ)
(N-1)(xN-x1)
LA CONCENTRAZIONE
E' lo studio della variabilità dei fenomeni trasferibili (come il reddito) cioè fenomeni la cui intensità può spostarsi da una unità statistica all'altra, oppure può essere posseduta tutta o in parte da pochi elementi.
Con lo studio della concentrazione si evidenzia la sperequazione tra le intensità del carattere.
Indichiamo con:
pi► la frazione del collettivo (popolazione) costituita da i unità statistiche;
qi► la frazione del fenomeno posseduta da i unità statistiche.
Se il fenomeno fosse equidistribuito si dovrebbe verificare la condizione
pi = qi
cioè ad ogni frazione di popolazione dovrebbe spettare una frazione equivalente del fenomeno.
Nella generalità dei casi il fenomeno non è equidistribuito per cui
pi>qi e quindi pi - qi > 0 e più alte sono tali differenze maggiore è la concentrazione del carattere nelle mani di poche unità statistiche.
Analizziamo graficamente il fenomeno:
asse ascisse→pi
asse ordinate→qi
la situazione di equidistribuzione può così essere rappresentata
qi
qi
q2
q1
p1 p2 ...pi pi
se p1=q1, p2=q2,..pi=qi per ogni i si costruiscono tanti quadrati sempre più grandi, unendo i vertici si ottiene la retta bisettrice del primo quadrante caratterizzata da tutti punti che hanno ascissa=ordinata e che è chiamata RETTA DI EQUIDISTRIBUZIONE.
Nei casi generali però si è detto che pi-qi>0 cioè per ogni ascissa pi vi sarà una ordinata qi più piccola per cui si individueranno punti al di sotto della retta di equidistribuzione unendo i quali si ottiene una spezzata chiamata CURVA DI LORENZ o CURVA DI CONCENTRAZIONE.
qi
pi-qi
pi
le differenze pi-qi sono rappresentate dalle distanze verticali tra i punti della spezzata e i corrispondenti punti sulla retta di equidistribuzione.
Per misurare il grado di concentrazione si utilizza il RAPPORTO DI CONCENTRAZIONE DI GINI dato da:
area di concentrazione
area max.concentrazione
il calcolo cambia a seconda che si tratti di serie di valori o di distribuzione di frequenze.
CASO DI SERIE DI VALORI
Consideriamo la variabile statistica con frequenze unitarie
x1, x2,....xi-1, xi, xi+1,....xn
si ordinano i valori in modo crescente attribuendo il numero di posto in graduatoria
i xi
x1
x2
x3
. .
. .
i-1 xi-1
i xi
i+1 xi+1
. .
. .
n xn
si calcolano le pi=i/n :
p1=1/n, p2=2/n,...pi=i/n,....pn=n/n=1
si calcolano le qi=Ai/An:
dove A1=x1, A2=x1+x2, A3=x1+x2+x3,......
Ai=x1+x2+..+xi,. An=x1+x2+...+xn
Da cui
q1=A1/An, q2=A2/An, . , qi=Ai/An, ., qn=An/An=1
l'area di concentrazione si calcola con il METODO DELLO SCALOIDE, cioè la figura formata da tutti i rettangoli di base pi e altezza qi, poiché le basi sono tutte uguali e pari a 1/n e le altezze sono date dalle differenze pi-qi, sommando tutte le aree si ha:
H= 1 (p1-q1)+ 1 (p2-q2)+.+ 1 (pi-qi)+.+ 1 (pn-qn) =
n n n n
n-1
= 1 Σ (pi-qi)
n i=1
Pi
qi
la max. concentrazione si ha quando le qi sono tutte =0, per cui l'area dello scaloide è data da
n
Σ 1 pi
i=1 n
Il rapporto di concentrazione è dunque dato da:
R= Σ 1 (pi-qi) / Σ 1 pi
i n i n
R=Σ(pi-qi)
Σpi
CASO DI DISTRIBUZIONE DI FREQUENZE
Data una distribuzione di frequenze, si calcolano le frequenze cumulate
xi ni Fi
x1 n1 F1=n1
x2 n2 F2=n1+n2
. . .
. . .
xi ni Fi=n1+n2+.+ni
. . .
. . .
xn nn Fn=n1+n2+..+nn=N
Si calcolano le pi= Fi cioè:
N
P1=F1 , p2=F2 ,., pi=Fi ,., pn=N =1
N N N N
Si calcolano le qi=Ai dove le Ai sono date da
An
A1=x1, A2=x1+x2,., Ai=x1+x2+.+xi,., An=x1+x2+....+xn
Da cui
q1=A1, q2=A2 ,., qi=Ai , ., qn=An =1
An An An An
L'area di max concentrazione è data dall'area del triangolo OAB
B con OA=pn=1
AB=qn=1
Per cui AREA=OA.AB/2=1/2
O A
Per calcolare l'area di concentrazione H si usa la REGOLA DEI TRAPEZI che consiste nel sottrarre dall'area di max.concentrazione (1/2) la somma delle aree dei trapezi che si formano al di sotto della spezzata di Lorenz.
qi+1
qi
pi pi+1
(base maggiore + base minore) . altezza
(qi+qi+1) . (pi+1-pi)
sommando per i=1,2,3.i,.n si ottiene l'area del trapezoide al di sotto della spezzata
Σ (qi+qi+1)(pi+1-pi)
l'area di concentrazione sarà
H= 1 - Σ(qi+qi+1)(pi+1-pi)
Il RAPPORTO DI GINI è dato da:
R= H e quindi dividendo tutti i termini per ½
½
R= 1 - Σ (qi+qi+1)(pi+1-pi)
In entrambe i casi il valore di R è sempre compreso tra 0 e 1 cioè
0≤R≤1
R=0 in caso di equidistribuzione
R=1 in caso di max.concentrazione
Appunti su: https:wwwappuntimaniacomscientifichestatisticala-variabilita64php, distribuzione massimante variabilitC3A0, |
|
Appunti computer | |
Tesine Contabilita | |
Lezioni Francese | |