AppuntiMania.com » Informatica » Appunti di computer » La rilevazione dei dati

La rilevazione dei dati

Gradito:

[ Medio appunti ]

Il linguaggio Pascal

Il linguaggio Pascal 1. Ambiente Turbo Pascal Il compilatore

La tecnologia DVD

La tecnologia DVD Il DVD si presenta come un comune compact disc da 12 cm di

APPUNTI DI INFORMATICA TEORICA - Complessità computazionale, funzioni ricorsive, liste, alberi

UNIVERSITA' DEGLI STUDI DI PISA CORSO DI INGEGNERIA INFORMATICA (NUOVO ORDINAMENTO) APPUNTI

La rilevazione dei dati

Definizione, fasi, rilevazione diretta ed indiretta

Abbiamo già detto che la rilevazione dei dati consiste nella raccolta e classificazione dei dati relativi alle unità statistiche.

Prima della raccolta è necessario però predisporre un piano della rilevazione attraverso il quale si stabiliscono:

l'unità statistica
l'unità di rilevazione che può non coincidere con l'unità statistica (es.: nel caso del censimento della popolazione italiana l'unità di rilevazione è la famiglia, mentre l'unità statistica che costituisce il collettivo è il singolo individuo)
i caratteri da considerare
i mezzi tecnici (questionario, schede, ecc.) per raccogliere le informazioni
l'estensione territoriale, temporale
l'ampiezza della rilevazione.

Dopo aver realizzato il piano di rilevazione si procede alla raccolta materiale dei dati.

A questo proposito la rilevazione dei dati può essere diretta o indiretta

diretta quando la rilevazione avviene sul posto dove si manifesta il fenomeno, dando senza dubbio risultati più attendibili.

indiretta quando per vari motivi non è possibile fare_. quella diretta, per cui si ricorre a fenomeni indiretti collegati però con il fenomeno da studiare.

Es.: la produzione industriale di un certo settore viene stimata osservando il suo consumo di energia elettrica.

La rilevazione diretta si distingue in relazione al tempo in:

a) Continua, se avviene senza interruzioni. Es.: la rilevazione delle nascite e delle morti effettuata dall'anagrafe.

b) Periodica, se avviene ad intervalli di tempo determinati. Es.: il censimento.

c) Occasionale, se avviene ad intervalli di tempo irregolari. Es.: statistica sulla disoccupazione.

In relazione alla natura dei fenomeni si distingue in:

a) Statica, se ha lo scopo di studiare un fenomeno ad un dato istante. Es.: censimento.

b) Dinamica, se ha lo scopo di studiare l'andamento nel tempo di un fenomeno. Es.: statistica della nascita nei vari anni.

Dopo aver raccolto i dati si procede allo spoglio o alla classificazione dei dati.

Questa fase consiste nella enumerazione delle unità statistiche e nella loro classificazione in categorie omogenee a seconda delle modalità di uno o più caratteri.

Tornando un po' indietro abbiamo visto che prima di procedere alla raccolta materiale dei dati e alla loro classificazione, si predispone un piano della rilevazione dove vengono stabiliti, oltre ad altri elementi, l'estensione territoriale (limiti di spazio), la durata (limiti di tempo) e l'ampiezza della rilevazione.

A questo proposito è opportuno fare un approfondimento.

Per quanto riguarda l'estensione territoriale, in pratica occorre precisare il territorio dove devono trovarsi le unità statistiche; mentre per quanto riguarda la durata, va specificata l'unità di tempo entro la quale vanno riferiti i dati raccolti.

Riguardo all'ampiezza si intende la numerosità del collettivo statistico.

Le rilevazioni che comprendono tutte le unità rilevabili si dicono totali, mentre quelle che ne comprendono solo una parte si dicono parziali o campionarie

Si indica con N la numerosità dell'intero collettivo o popolazione e con n la numerosità del campione.

Rilevazioni parziali o campionarie

Si fa sempre più uso delle rilevazioni campionarie in sostituzione di quelle totali, in quanto l'uso di un campione consente di ridurre i tempi e i costi di un'indagine statistica.

É anche vero comunque che a volte la rilevazione campionaria è una scelta obbligata.

Basti pensare ad un'indagine statistica sulla durata delle lampadine o sulla durata delle pile.

In pratica le rilevazioni parziali o campionarie rappresentano il fenomeno collettivo in scala ridotta.

La formazione del campione pone problemi di carattere quantitativo e qualitativo

Per quanto riguardo l'aspetto quantitativo si tratta di decidere di quanti elementi deve essere formato il campione.

Spesso si fissa una percentuale , per es. il 10% dell'intero universo statistico; la percentuale o, comunque , la grandezza del campione dipende, come detto, anche da questioni di costo, ma se se il campione è molto limitato i risultati saranno ovviamente meno significativi.

Per quanto riguarda l'aspetto qualitativo il problema è come scegliere le unità che formano il campione?

I modi di formazione del campione sono innanzitutto due:

attraverso una scelta casuale delle unità statistiche;

attraverso una scelta ragionata delle unità statistiche.

Se si ricorre al primo modo occorre che le unità statistiche che compongono il collettivo abbiano tutte la stessa probabilità di essere scelte.

La formazione delle unità statistiche nell'ipotesi di scelta casuale può avvenire tramite:

estrazione (come nel gioco della tombola), cioè facendo corrispondere ad ogni unità statistica un numero;

la tavola dei numeri casuali o aleatori. Questa é costituita da una serie di numeri ottenuti a caso (es.: le estrazioni del lotto).

A ciascun numero si fa poi corrispondere un'unità statistica, dopodiché si procede all'estrazione secondo vari criteri.

Due sono le doti principali che un campione casuale deve avere per ottenere dei risultati attendibili:

una dimensione ottimale, cioè il numero delle unità rilevate non deve essere troppo basso;

una eterogeneità, cioè le unità considerate devono essere rappresentative del collettivo.

Per cercare di venire incontro a queste due esigenze generalmente si ricorre ai campioni stratificati. In altre parole si suddivide il collettivo in x classi o strati ciascuna con elementi il più possibile omogenei, dopodiché si estraggono unità da ciascuna classe o strato.

Questo tipo di campioni costituisce sempre un esempio di campione ottenuto con scelta casuale in quanto è vero che la suddivisione in classi o strati rappresenta un procedimento ragionato, tuttavia la scelta delle singole unità da ciascuna delle x classi o strati è comunque casuale.

Questo stratagemma è molto utile quando si vuol tener conto delle caratteristiche minime e massime di un fenomeno. Es.: se si vuole fare un'indagine statistica sulle cause di mortalità possiamo dividere i vari individui in classi di età ed estrarre le unità ad ogni classe.

Se si ricorre al metodo della scelta ragionata (vedi punto 2) le unità che dovranno comporre il campione vengono scelte secondo criteri ben precisi.

Es.: si sceglie di effettuare l'indagine su uno specifico gruppo di aziende che si ritiene rappresentativo di un intero settore.

Naturalmente un simile approccio può nascondere dei pericoli in quanto non è sempre facile selezionare le unità statiche anche se vengono stabiliti dei criteri.

Tabelle statistiche

Una volta che i dati sono stati classificati si cerca di esporli nella forma più chiara possibile in tabelle o tavole statistiche

Queste sono composte da più colonne.

La prima a sinistra è detta colonna madre ed in genere contiene le modalità qualitative e quantitative del fenomeno rilevato; nelle altre vengono riportate le relative frequenze.

La parte superiore delle colonne si dice invece testata e contiene la descrizione del contenuto delle colonne sottostanti.

É importante per ogni tabella indicare il titolo, che deve informare in maniera immediata sul contenuto della tabella, e la fonte dei dati presentati.

Esistono vari tipi di tabelle:

semplici

complesse

a doppia entrata

Le tabelle semplici sono quelle che evidenziano la frequenza di un solo carattere rilevato; sono perciò composte da due colonne.

Esempio:

Forze di lavoro occupate per settore di attività economica. Italia, media anno 1978

Settore di attività economica

Occupati (migliaia)

Agricoltura

Industria

Altre attività

Totale

20.159

Fonte: ISTAT, Bollettino mensile di statistica, marzo 1979, pag. 143

Le tabelle complesse sono quelle composte da più tabelle semplici, per cui evidenziano le frequenze di due o più caratteri.

Le tabelle a doppia entrata sono quelle i cui dati sono invece riferiti alle modalità di due caratteri.

Serie e seriazioni

É opportuno a questo punto fare un'ulteriore classificazione delle tabelle statistiche.

Abbiamo già visto che i caratteri di un fenomeno possono presentare sia modalità quantitative che modalità qualitative.

Se la successione dei dati statistici si riferisce a modalità qualitative essa prende il nome di serie, se invece si riferisce a modalità quantitative la successione prende il nome di seriazione

Le seriazioni a loro volta si distinguono in:

a) Continue, quando la differenza fra due modalità della successione si può rendere piccola a piacere.

Nella tabella che segue ad esempio le classi hanno un'ampiezza variabile.

Cliniche private di medicina generale secondo il numero dei posti letto in Italia nel 1977.

Classi di ampiezza

(posti letto)

Cliniche

fino a 25

Totale

Fonte: ISTAT, Dati sommari sulle statistiche sanitarie, Supplemento al Bollettino mensile di statistica, anno 1978, n. 17, pag. 13.

b) Discontinue quando la differenza fra le due modalità non si può ridurre a piacimento.

La tabella che segue è un esempio di tale seriazione in quanto il numero dei componenti può assumere significatamente solo un valore intero.

FAMIGLIE RESIDENTI PER NUMERO DI COMPONENTI (Censimento 1971)

Ampiezza della famiglia

Numero delle

famiglie

1componente

2componenti

9 e più componenti

TOTALE

Per quanto riguarda la serie si può dire che, se le modalità qualitative si riferiscono ad una ripartizione territoriale, prendono il nome di serie territoriale o geografica

In questo caso le modalità rappresentano: nazioni, regioni, province, ripartizioni geografiche ecc.

ABBONATI ALLA TELEVISIONE IN TOTALE E A QUELLA A COLORI NEL 1979, PER REGIONE

REGIONE

Numero abbonati alla televisione

Totale

di cui a colori

Piemonte

Valle d'Aosta

Lombardia

Trentino-Alto Adige

Bolzano-Bozen

Trento

Veneto

Friuli-Venezia Giulia

Liguria

Emilia Romagna

Toscana

Umbria

Marche

Lazio

Abruzzi

Molise

Campania

Puglia

Basilicata

Calabria

Sicilia

Sardegna

ITALIA

178.0S6

Se invece il carattere è il tempo allora la serie è detta storica o anche serie temporale.

La tabella che segue ne è unesempio.

Popolazione residente in Italia alla fine degli anni indicati

Fonte: ISTAT - Annuario statistico italiano 1978 e Bollettino mensile di statistica Aprile 1979

Anni	Popolazione residente (migliaia di abitanti)
i v

Variabile e mutabile statistica

A questo punto é opportuno trasferire, quanto fin qui detto, in termini statistici.

Supponiamo di avere un collettivo statistico.

Ordiniamone le modalità quantitative x (x₁, x₂, x₃ x_s.)così che ad ognuna di esse sarà associata una frequenza n (n₁, n₂, n₃ n_s) ottenendo il seguente schema:

Modalità del carattere

x_i

Modalità delle frequenze

n_i

x₁

x₂

x₃

x_s

n₁

n₂

n₃

n_s

Totale

Le frequenze n₁ si dicono frequenze assolute e vale:

n_i= N

cioè la sommatoria delle n frequenze, con i che assume valore da 1 a s, è uguale a N.

Le frequenze relative si indicano invece con y_i e si ottengono facendo:

n_i

y_i = --- con i = 1, 2, 3 ...... s

Infine abbiamo le frequenze percentuali che si ottengono facendo:

n_i

p_i = --- x con i = 1, 2, 3 ...... s

e la cui somma é uguale a 100.

L'insieme delle modalità quantitative e delle relative frequenze prende il nome di distribuzione statistica e in termini matematici di variabile statistica (in sigla v.s.) .

I valori della v.s. possono essere indicati sinteticamente così:

x _l,x_{2, ....}x_s

n_l, n₂.. n_s

Le modalità x possono essere rappresentate anche da intervalli, in questo caso avremo una v.s. divisa in intervalli.

Supponiamo ora di avere un altro collettivo statistico.

Ordiniamone le modalità qualitative a (a _l,a_2,
....a_s ) così che ad ognuna di esse sarà associata una frequenza n (n₁, n₂ n_s) ottenendo il seguente schema:

Modalità del carattere

a_i

Frequenze assolute

n_i

a₁

a₂

a₃

a_s

n₁

n₂

n₃

n_s

Totale

L'insieme delle modalità qualitative e delle relative frequenze prende il nome di mutabile statistica (in sigla m. s. ) .

Anche per queste si potrà parlare di frequenze assolute, relative e percentuali.

Le mutabili statistiche si distinguono in:

a) Rettilinee, quando le modalità a_i seguono un ordine naturale di successione. Esempio: il grado di istruzione scolastica.

b) Cicliche, quando le modalitàa_i seguono un ordine stabilito da una convenzione. Esempio: giorni della settimana, mesi dell'anno.

c) Sconnessa, quando le modalità a_i seguono un ordine di successione. Esempio: nazionalità, religioni, ecc.

Errori di rilevazione e correzione dei dati

Una trattazione a parte è necessaria per affrontare il problema degli errori in statistica.

Esistono errori accidentali; dovuti al caso e quindi difficilmente eliminabili ed errori sistematici, dovuti a cause oggettive (errori di calcolo, di misurazione, ecc.) più facilmente eliminabili.

La statistica si occupa quindi anche di eliminare gli errori cercando di escogitare quei procedimenti che hanno lo scopo di prevenirli o comunque di correggerli.

Prima di tutto si cerca di eliminare gli errori nell'assunzione dei dati, dovuti ad imperfezione dei questionari, disattenzioni dell'individuo che li compila, ecc. e nello spoglio dei dati, dovuti ad errori di trascrizione, di calcolo ecc.

Si tratta in questo caso di accortezze di carattere generale da tenere in considerazione a priori, prima che l'errore si verifichi.

Tuttavia esistono anche metodi di correzione a posteriori.

Naturalmente i procedimenti da adottare sono diversi a seconda della natura degli errori e della loro entità.

Esiste un metodo diretto a cui si ricorre quando gli errori sono facilmente individuali, per cui si sostituiscono i dati errati con quelli esatti.

Se invece si è verificata una sbagliata collocazione di unità statistiche in una classe invece che in un'altra si procede all'ingrandimento delle classi che consiste nel riunire più dati in un'unica classe in maniera tale da ottenere una possibile compensazione.

Per errori più complessi esistono infine metodi matematici, quali:

la perequazione

l'interpolazione dei dati.

La perequazione consiste nel sostituire in serie o seriazioni alcuni o anche tutti i dati che si ritengono errati con altri ritenuti più esatti a rappresentare il fenomeno considerato.

Per avere una visione più chiara e semplice si può ricorrere ad un esempio di perequazione grafica. In pratica si tratta di sostituire la linea spezzata che si ottiene rappresentando graficamente i dati rilevati, con una curva che abbia un andamento più regolare.

L'interpolazione si usa invece quando mancano dei dati. Esempio: in una serie storica dei prezzi del pane manca quello relativo ad una certa data.

In tale caso utilizzando una funzione y = f(x) è possibile, conoscendo alcuni dei valori che assume la funzione, conoscerne altri ai quali corrispondono i dati mancanti.

Per concludere questa breve illustrazione, in merito agli errori casuali si può dire che è stato dimostrato che tali errori, per difetto e per eccesso, si compensano tra di loro, alla condizione che il numero delle osservazioni sia sufficientemente grande.

Questo per la legge dei grandi numeri secondo la quale:

in una serie di prove, condotte sempre nelle stesse condizioni, un evento aleatorio avente una determinata probabilità matematica costante di verificarsi in ogni prova, si manifesta con una frequenza che tende ad avvicinarsi alla sua probabilità matematica, con una approssimazione che cresce al crescere del numero delle prove eseguite

Appunti su: appuntimania,

Appunti superiori
Università
all'Informatica