|
Appunti informatica |
|
Visite: 1320 | Gradito: | [ Medio appunti ] |
Leggi anche appunti:Il linguaggio PascalIl linguaggio Pascal 1. Ambiente Turbo Pascal Il compilatore La tecnologia DVDLa tecnologia DVD Il DVD si presenta come un comune compact disc da 12 cm di APPUNTI DI INFORMATICA TEORICA - Complessità computazionale, funzioni ricorsive, liste, alberiUNIVERSITA' DEGLI STUDI DI PISA CORSO DI INGEGNERIA INFORMATICA (NUOVO ORDINAMENTO) APPUNTI |
Abbiamo già detto che la rilevazione dei dati consiste nella raccolta e classificazione dei dati relativi alle unità statistiche.
Prima della raccolta è necessario però predisporre un piano della rilevazione attraverso il quale si stabiliscono:
Dopo aver realizzato il piano di rilevazione si procede alla raccolta materiale dei dati.
A questo proposito la rilevazione dei dati può essere diretta o indiretta
diretta quando la rilevazione avviene sul posto dove si manifesta il fenomeno, dando senza dubbio risultati più attendibili.
indiretta quando per vari motivi non è possibile fare. quella diretta, per cui si ricorre a fenomeni indiretti collegati però con il fenomeno da studiare.
Es.: la produzione industriale di un certo settore viene stimata osservando il suo consumo di energia elettrica.
La rilevazione diretta si distingue in relazione al tempo in:
a) Continua, se avviene senza interruzioni. Es.: la rilevazione delle nascite e delle morti effettuata dall'anagrafe.
b) Periodica, se avviene ad intervalli di tempo determinati. Es.: il censimento.
c) Occasionale, se avviene ad intervalli di tempo irregolari. Es.: statistica sulla disoccupazione.
In relazione alla natura dei fenomeni si distingue in:
a) Statica, se ha lo scopo di studiare un fenomeno ad un dato istante. Es.: censimento.
b) Dinamica, se ha lo scopo di studiare l'andamento nel tempo di un fenomeno. Es.: statistica della nascita nei vari anni.
Dopo aver raccolto i dati si procede allo spoglio o alla classificazione dei dati.
Questa fase consiste nella enumerazione delle unità statistiche e nella loro classificazione in categorie omogenee a seconda delle modalità di uno o più caratteri.
Tornando un po' indietro abbiamo visto che prima di procedere alla raccolta materiale dei dati e alla loro classificazione, si predispone un piano della rilevazione dove vengono stabiliti, oltre ad altri elementi, l'estensione territoriale (limiti di spazio), la durata (limiti di tempo) e l'ampiezza della rilevazione.
A questo proposito è opportuno fare un approfondimento.
Per quanto riguarda l'estensione territoriale, in pratica occorre precisare il territorio dove devono trovarsi le unità statistiche; mentre per quanto riguarda la durata, va specificata l'unità di tempo entro la quale vanno riferiti i dati raccolti.
Riguardo all'ampiezza si intende la numerosità del collettivo statistico.
Le rilevazioni che comprendono tutte le unità rilevabili si dicono totali, mentre quelle che ne comprendono solo una parte si dicono parziali o campionarie
Si indica con N la numerosità dell'intero collettivo o popolazione e con n la numerosità del campione.
Si fa sempre più uso delle rilevazioni campionarie in sostituzione di quelle totali, in quanto l'uso di un campione consente di ridurre i tempi e i costi di un'indagine statistica.
É anche vero comunque che a volte la rilevazione campionaria è una scelta obbligata.
Basti pensare ad un'indagine statistica sulla durata delle lampadine o sulla durata delle pile.
In pratica le rilevazioni parziali o campionarie rappresentano il fenomeno collettivo in scala ridotta.
La formazione del campione pone problemi di carattere quantitativo e qualitativo
Per quanto riguardo l'aspetto quantitativo si tratta di decidere di quanti elementi deve essere formato il campione.
Spesso si fissa una percentuale , per es. il 10% dell'intero universo statistico; la percentuale o, comunque , la grandezza del campione dipende, come detto, anche da questioni di costo, ma se se il campione è molto limitato i risultati saranno ovviamente meno significativi.
Per quanto riguarda l'aspetto qualitativo il problema è come scegliere le unità che formano il campione?
I modi di formazione del campione sono innanzitutto due:
attraverso una scelta casuale delle unità statistiche;
attraverso una scelta ragionata delle unità statistiche.
Se si ricorre al primo modo occorre che le unità statistiche che compongono il collettivo abbiano tutte la stessa probabilità di essere scelte.
La formazione delle unità statistiche nell'ipotesi di scelta casuale può avvenire tramite:
estrazione (come nel gioco della tombola), cioè facendo corrispondere ad ogni unità statistica un numero;
la tavola dei numeri casuali o aleatori. Questa é costituita da una serie di numeri ottenuti a caso (es.: le estrazioni del lotto).
A ciascun numero si fa poi corrispondere un'unità statistica, dopodiché si procede all'estrazione secondo vari criteri.
Due sono le doti principali che un campione casuale deve avere per ottenere dei risultati attendibili:
una dimensione ottimale, cioè il numero delle unità rilevate non deve essere troppo basso;
una eterogeneità, cioè le unità considerate devono essere rappresentative del collettivo.
Per cercare di venire incontro a queste due esigenze generalmente si ricorre ai campioni stratificati. In altre parole si suddivide il collettivo in x classi o strati ciascuna con elementi il più possibile omogenei, dopodiché si estraggono unità da ciascuna classe o strato.
Questo tipo di campioni costituisce sempre un esempio di campione ottenuto con scelta casuale in quanto è vero che la suddivisione in classi o strati rappresenta un procedimento ragionato, tuttavia la scelta delle singole unità da ciascuna delle x classi o strati è comunque casuale.
Questo stratagemma è molto utile quando si vuol tener conto delle caratteristiche minime e massime di un fenomeno. Es.: se si vuole fare un'indagine statistica sulle cause di mortalità possiamo dividere i vari individui in classi di età ed estrarre le unità ad ogni classe.
Se si ricorre al metodo della scelta ragionata (vedi punto 2) le unità che dovranno comporre il campione vengono scelte secondo criteri ben precisi.
Es.: si sceglie di effettuare l'indagine su uno specifico gruppo di aziende che si ritiene rappresentativo di un intero settore.
Naturalmente un simile approccio può nascondere dei pericoli in quanto non è sempre facile selezionare le unità statiche anche se vengono stabiliti dei criteri.
Una volta che i dati sono stati classificati si cerca di esporli nella forma più chiara possibile in tabelle o tavole statistiche
Queste sono composte da più colonne.
La prima a sinistra è detta colonna madre ed in genere contiene le modalità qualitative e quantitative del fenomeno rilevato; nelle altre vengono riportate le relative frequenze.
La parte superiore delle colonne si dice invece testata e contiene la descrizione del contenuto delle colonne sottostanti.
É importante per ogni tabella indicare il titolo, che deve informare in maniera immediata sul contenuto della tabella, e la fonte dei dati presentati.
Esistono vari tipi di tabelle:
semplici
complesse
a doppia entrata
Le tabelle semplici sono quelle che evidenziano la frequenza di un solo carattere rilevato; sono perciò composte da due colonne.
Esempio:
Forze di lavoro occupate per settore di attività economica. Italia, media anno 1978
Settore di attività economica |
Occupati (migliaia) |
Agricoltura Industria Altre attività Totale |
|
20.159 |
Fonte: ISTAT, Bollettino mensile di statistica, marzo 1979, pag. 143
Le tabelle complesse sono quelle composte da più tabelle semplici, per cui evidenziano le frequenze di due o più caratteri.
Le tabelle a doppia entrata sono quelle i cui dati sono invece riferiti alle modalità di due caratteri.
É opportuno a questo punto fare un'ulteriore classificazione delle tabelle statistiche.
Abbiamo già visto che i caratteri di un fenomeno possono presentare sia modalità quantitative che modalità qualitative.
Se la successione dei dati statistici si riferisce a modalità qualitative essa prende il nome di serie, se invece si riferisce a modalità quantitative la successione prende il nome di seriazione
Le seriazioni a loro volta si distinguono in:
a) Continue, quando la differenza fra due modalità della successione si può rendere piccola a piacere.
Nella tabella che segue ad esempio le classi hanno un'ampiezza variabile.
Cliniche private di medicina generale secondo il numero dei posti letto in Italia nel 1977.
Classi di ampiezza (posti letto) |
Cliniche |
fino a 25 Totale |
|
|
Fonte: ISTAT, Dati sommari sulle statistiche sanitarie, Supplemento al Bollettino mensile di statistica, anno 1978, n. 17, pag. 13.
b) Discontinue quando la differenza fra le due modalità non si può ridurre a piacimento.
La tabella che segue è un esempio di tale seriazione in quanto il numero dei componenti può assumere significatamente solo un valore intero.
FAMIGLIE RESIDENTI PER NUMERO DI COMPONENTI (Censimento 1971)
Ampiezza della famiglia |
Numero delle famiglie |
1componente 2componenti ' ' ' ' ' ' 9 e più componenti TOTALE |
|
|
Per quanto riguarda la serie si può dire che, se le modalità qualitative si riferiscono ad una ripartizione territoriale, prendono il nome di serie territoriale o geografica
In questo caso le modalità rappresentano: nazioni, regioni, province, ripartizioni geografiche ecc.
ABBONATI ALLA TELEVISIONE IN TOTALE E A QUELLA A COLORI NEL 1979, PER REGIONE
REGIONE |
Numero abbonati alla televisione |
|
Totale |
di cui a colori |
|
Piemonte Valle d'Aosta Lombardia Trentino-Alto Adige Bolzano-Bozen Trento Veneto Friuli-Venezia Giulia Liguria Emilia Romagna Toscana Umbria Marche Lazio Abruzzi Molise Campania Puglia Basilicata Calabria Sicilia Sardegna ITALIA |
|
178.0S6 |
Se invece il carattere è il tempo allora la serie è detta storica o anche serie temporale.
La tabella che segue ne è un esempio.
Popolazione residente in Italia alla fine degli anni indicati
Fonte: ISTAT - Annuario statistico italiano 1978 e Bollettino mensile di statistica Aprile 1979
Anni |
Popolazione residente (migliaia di abitanti) |
i v |
|
|
|
|
|
|
|
|
|
|
|
A questo punto é opportuno trasferire, quanto fin qui detto, in termini statistici.
Supponiamo di avere un collettivo statistico.
Ordiniamone le modalità quantitative x (x1, x2, x3 xs.) così che ad ognuna di esse sarà associata una frequenza n (n1, n2, n3 ns) ottenendo il seguente schema:
Modalità del carattere xi |
Modalità delle frequenze ni |
x1 x2 x3 xs |
n1 n2 n3 ns |
Totale |
N |
Le frequenze n1 si dicono frequenze assolute e vale:
ni = N
cioè la sommatoria delle n frequenze, con i che assume valore da 1 a s, è uguale a N.
Le frequenze relative si indicano invece con yi e si ottengono facendo:
ni
yi = --- con i = 1, 2, 3 ...... s
N
Infine abbiamo le frequenze percentuali che si ottengono facendo:
ni
pi = --- x con i = 1, 2, 3 ...... s
N
e la cui somma é uguale a 100.
L'insieme delle modalità quantitative e delle relative frequenze prende il nome di distribuzione statistica e in termini matematici di variabile statistica (in sigla v.s.) .
I valori della v.s. possono essere indicati sinteticamente così:
x l, x2, .... xs
nl, n2.. ns
Le modalità x possono essere rappresentate anche da intervalli, in questo caso avremo una v.s. divisa in intervalli.
Supponiamo ora di avere un altro collettivo statistico.
Ordiniamone le modalità qualitative a (a l, a2, .... as ) così che ad ognuna di esse sarà associata una frequenza n (n1, n2 ns) ottenendo il seguente schema:
Modalità del carattere ai |
Frequenze assolute ni |
a1 a2 a3 as |
n1 n2 n3 ns |
Totale |
N |
L'insieme delle modalità qualitative e delle relative frequenze prende il nome di mutabile statistica (in sigla m. s. ) .
Anche per queste si potrà parlare di frequenze assolute, relative e percentuali.
Le mutabili statistiche si distinguono in:
a) Rettilinee, quando le modalità ai seguono un ordine naturale di successione. Esempio: il grado di istruzione scolastica.
b) Cicliche, quando le modalità ai seguono un ordine stabilito da una convenzione. Esempio: giorni della settimana, mesi dell'anno.
c) Sconnessa, quando le modalità ai seguono un ordine di successione. Esempio: nazionalità, religioni, ecc.
Una trattazione a parte è necessaria per affrontare il problema degli errori in statistica.
Esistono errori accidentali; dovuti al caso e quindi difficilmente eliminabili ed errori sistematici, dovuti a cause oggettive (errori di calcolo, di misurazione, ecc.) più facilmente eliminabili.
La statistica si occupa quindi anche di eliminare gli errori cercando di escogitare quei procedimenti che hanno lo scopo di prevenirli o comunque di correggerli.
Prima di tutto si cerca di eliminare gli errori nell'assunzione dei dati, dovuti ad imperfezione dei questionari, disattenzioni dell'individuo che li compila, ecc. e nello spoglio dei dati, dovuti ad errori di trascrizione, di calcolo ecc.
Si tratta in questo caso di accortezze di carattere generale da tenere in considerazione a priori, prima che l'errore si verifichi.
Tuttavia esistono anche metodi di correzione a posteriori.
Naturalmente i procedimenti da adottare sono diversi a seconda della natura degli errori e della loro entità.
Esiste un metodo diretto a cui si ricorre quando gli errori sono facilmente individuali, per cui si sostituiscono i dati errati con quelli esatti.
Se invece si è verificata una sbagliata collocazione di unità statistiche in una classe invece che in un'altra si procede all'ingrandimento delle classi che consiste nel riunire più dati in un'unica classe in maniera tale da ottenere una possibile compensazione.
Per errori più complessi esistono infine metodi matematici, quali:
la perequazione
l'interpolazione dei dati.
La perequazione consiste nel sostituire in serie o seriazioni alcuni o anche tutti i dati che si ritengono errati con altri ritenuti più esatti a rappresentare il fenomeno considerato.
Per avere una visione più chiara e semplice si può ricorrere ad un esempio di perequazione grafica. In pratica si tratta di sostituire la linea spezzata che si ottiene rappresentando graficamente i dati rilevati, con una curva che abbia un andamento più regolare.
L'interpolazione si usa invece quando mancano dei dati. Esempio: in una serie storica dei prezzi del pane manca quello relativo ad una certa data.
In tale caso utilizzando una funzione y = f(x) è possibile, conoscendo alcuni dei valori che assume la funzione, conoscerne altri ai quali corrispondono i dati mancanti.
Per concludere questa breve illustrazione, in merito agli errori casuali si può dire che è stato dimostrato che tali errori, per difetto e per eccesso, si compensano tra di loro, alla condizione che il numero delle osservazioni sia sufficientemente grande.
Questo per la legge dei grandi numeri secondo la quale:
in una serie di prove, condotte sempre nelle stesse condizioni, un evento aleatorio avente una determinata probabilità matematica costante di verificarsi in ogni prova, si manifesta con una frequenza che tende ad avvicinarsi alla sua probabilità matematica, con una approssimazione che cresce al crescere del numero delle prove eseguite
Appunti su: |
|