Nellesposizione dei risultati di un sondaggio sociologico, lanalisi univariata (cioè la descrizione delle risposte ad ogni singola domanda) è le più semplice, dimmediata comprensibilità, e quella che in genere meglio soddisfa le esigenze di conoscenza descrittiva.
Con lanalisi bivariata, cioè quella che tende ad accertare la presenza di una relazione tra le variabili prese due a due, si passa dal livello della pura descrizione a quello della spiegazione, e le cose cominciano a complicarsi. Il problema principale di questo livello danalisi è che, nella realtà sociale, tutto è interconnesso; le relazioni tra una variabile e laltra sono di solito rese più incerte e complesse (spurie) dalla presenza di numerose altre variabili intervenienti, variamente legate alle due prese in esame. Gli statistici hanno quindi dovuto sviluppare diverse tecniche per analizzare le reciproche influenze allinterno di gruppi, numerosi a piacere, di variabili. E questo il campo dellanalisi multivariata. In genere lo scopo di queste tecniche è di individuare le variabili più influenti, quelle che irradiano le relazioni più forti; e quindi di semplificare i risultati, depurandoli dal rumore di sfondo, prodotto dalle variabili statisticamente meno importanti.
Lo sforzo computazionale richiesto dalle analisi multivariate è fattorialmente correlato al numero di variabili prese in esame. In genere quindi si cerca di ridurne preliminarmente il numero sulla base di considerazioni teorico- sostantive, cioè in base alle ipotesi della ricerca.
Anche in questa ricerca i dati sono stati sottoposti a diverse procedure danalisi multivariata.
Le configurazioni di dati esposte qui di seguito, apparentemente elementari, sono in realtà lesito di lunghi processi sperimentali, di approssimazioni successive (provando e riprovando) a modelli che soddisfino insieme i requisiti della chiarezza, robustezza e significatività teorica.
3.1 Lanalisi delle corrispondenze multiple
Lanalisi delle corrispondenze multiple (detta anche Homals, o delle omogeneità) è una tecnica statistica molto potente che può essere utilizzata quando si devono analizzare matrici di dati in cui vi siano in prevalenza variabili categoriali (cioè che non si manifestino come serie progressive di numeri, ma come qualità discrete, nettamente separate le une dalle altre).
Interessante è il prodotto grafico dellanalisi delle corrispondenze, che permette di rappresentare - su un numero ridotto di piani - le relazioni intercorrenti tra le modalità delle variabili analizzate; su questa base, in seguito si potranno formulare ipotesi interpretative, che potranno essere verificate con ulteriori analisi statistiche, utilizzando tecniche più potenti sotto laspetto inferenziale (cioè della capacità di prestarsi a generalizzazioni), ma inadatte a gestire grandi matrici di dati.
Dal punto di vista grafico, il fine è quello di creare dei raggruppamenti di categorie delle variabili utilizzate che abbiano, rispetto ad alcune variabili selezionate, il massimo di somiglianza tra loro ed il massimo di diversità tra i gruppi di categorie delle variabili così individuate.
Pur avendo combinato a più riprese tra loro numerose variabili, il grafico più interessante e significativo ottenuto nel nostro caso (fig. 26), ne comprende soltanto otto, che paiono comunque definire egregiamente le particolarità dei singoli insiemi. Queste le variabili:
1. lo status socioeconomico (alto = SesA; medio = SesM; basso = SesB);
2. la scolarità (obbligo, superiore, laurea);
3. letà (18-33; 34-49; 50-65);
4. il sesso (maschio = M; femmina = F);
5. laccordo sul fatto che genitori friulani parlino friulano con i figli (Sì; No);
6. la lingua del cuore (italiano = It cuore; friulano = F cuore; altra lingua = A cuore);
7. il grado di conoscenza del friulano (non capisco e non parlo = Nono; capisco ma non parlo = Capno; capisco e parlo occasionalmente = Capocc; capisco e parlo regolarmente = Capreg);
8. la lingua preferita per effettuare lintervista (italiano = PIt; friulano = PF).
Fig. 26. Grafico dellanalisi delle corrispondenze multiple
Un primo aspetto interessante è levidente formazione di tre «nuvole di punti» ben separate tra loro: una nuvola in prossimità del centro degli assi verso sinistra, una in alto a destra e una in posizione medio-bassa ancora a destra. Nel primo insieme troviamo persone con status socio - economico basso, appartenenti alla fascia detà più alta, con titolo di studio inferiore, che capiscono e parlano regolarmente il friulano, che ritengono giusto che genitori friulani usino tale lingua con i figli e che dichiarano il friulano stesso come la lingua cui si sentono maggiormente legati. Nel secondo insieme si trovano persone laureate, di status socio - economico alto e che non capiscono e non parlano il friulano. Nel terzo gruppo si ritrovano, in posizione abbastanza prossima, coloro che capiscono ma non parlano il friulano e quelli che lo capiscono ma lo parlano solo occasionalmente (del resto, le due categorie spesso non sono percepite in modo ben distinto neppure dagli stessi intervistati), gli appartenenti alla fascia detà più giovane, quelli che hanno frequentato le scuole superiori e quelli che hanno uno status socio economico medio, coloro che preferiscono effettuare lintervista in italiano, che dichiarano di essere particolarmente legati alla lingua italiana e che dissentono sulleventualità che genitori friulani parlino di preferenza tale lingua con i figli. Al di fuori delle nuvole di punti, distanti da altre variabili e in posizioni intermedie tra diversi insiemi, si riscontrano il sesso, gli appartenenti alla fascia detà media e coloro che dichiarano come lingua del cuore una lingua diversa dallitaliano e dal friulano.
Come si vede, questa tecnica danalisi multivariata ha riprodotto, per tuttaltre vie, quanto era emerso abbastanza chiaramente dallanalisi bivariata. Con unimportante differenza, però: il sesso non risulta più essere una variabile discriminante. Inoltre questa tecnica consente di costruire delle tipologie complesse, cioè di suddividere il campione in gruppi di individui accomunati da un certo insieme di caratteristiche.
3.2 La regressione lineare multivariata
Un altro modello di analisi multivariata si basa sulle correlazioni tra variabili, valutate per mezzo di determinati indici come quello di Pearson o quello di Kendall: in una tabella vengono disposte in orizzontale ed in verticale le medesime variabili, e si calcola in seguito la correlazione tra le stesse, ossia si valuta quali variabili possono condizionarne altre. La selezione delle variabili da esaminare viene fatta sia sulla base di ragionamenti teorici ma anche di come sono distribuite le risposte alle domande. Inoltre, vanno eliminate determinate variabili che pur avrebbero potuto sembrare inizialmente particolarmente interessanti: ne è un esempio nella nostra indagine lo status socio-economico che, essendo stato costruito anche in base al titolo di studio, dava risultati distorti proprio perché conteneva in sé anche tale variabile con la quale doveva poi in seguito essere ulteriormente incrociato.
Si è cercato di valutare se - ed eventualmente quanto - la lingua scelta per effettuare lintervista, il grado di conoscenza del friulano, laccordo o meno sul fatto di parlare friulano ai figli, il sesso, letà, la scolarità, il grado di esposizione al friulano da piccoli e da adulti, il numero dei figli, la competenza linguistica, la scolarità dei genitori e la lingua del cuore, possano condizionare le variabili ritenute più rappresentative, ossia la lingua scelta per lintervista, il grado di conoscenza del friulano, laccordo o meno sul fatto di parlare friulano ai figli, il grado di esposizione al friulano da adulti e quella che è stata indicata dai singoli intervistati come la lingua del cuore.
Dalla tabella si ottengono dei valori che indicano il grado di correlazione tra le variabili stesse: lo zero indica mancanza assoluta di correlazione, mentre più ci si allontana da esso sulla scala positiva (max +1) o negativa (max -1) e più forte è la correlazione rispettivamente diretta ed inversa.
I parametri ottenuti dalla tabella di correlazione servono per fornire dati che saranno quindi elaborati attraverso la regressione lineare multivariata: con tali tecniche si cerca di predire la variabilità di una variabile dipendente mediante luso simultaneo di più variabili indipendenti. In tal modo, è possibile accertare, per ognuna delle variabili che entrano nel modello, il suo specifico contributo nel predire la varianza della dipendente.
Per spiegare la varianza della variabile dipendente, si sceglie anzitutto la prima variabile più correlata e quindi sintroducono nel modello, una alla volta, le rimanenti. La prima variabile ad entrare avrà certamente un peso molto forte per quanto riguarda la spiegazione del fenomeno in analisi: ogni altra variabile che entrerà in seguito nel modello modificherà però tale peso, riducendolo ad ogni nuova entrata. Il modello dirà quanto ogni variabile introdotta spieghi della variabilità delle risposte fornite alla domanda di volta in volta in esame ed eventualmente escluderà quelle che risulteranno scarsamente influenti: mano a mano che entreranno nuove variabili nel modello, aumenterà infatti la varianza spiegata.
Per quanto riguarda la variabile dipendente lingua del cuore=friulano, la sua varianza è spiegata soprattutto (43%) dal grado di esposizione al friulano da adulti, mentre il grado di esposizione al friulano da piccoli aggiunge il 7,3% di spiegazione della varianza, la conoscenza del friulano quasi due punti percentuali, il sesso un punto, mentre letà spiega solo lo 0,7%.
A determinare la scelta di definire come lingua del cuore il friulano è quindi fondamentalmente il fatto di essere inseriti da adulti in un ambiente familiare in cui si usa il friulano, ma non va trascurato neppure lapporto fornito dallesposizione a tale lingua in famiglia durante linfanzia.
Le variabili escluse dal modello, in quanto forniscono una spiegazione percentualmente irrilevante della varianza, sono la scolarità dellintervistato e quella dei genitori.
Nel complesso, le variabili «indipendenti» prese in esame spiegano il 54,6% della varianza della variabile dipendente «lingua del cuore».
Nel caso della variabile grado di conoscenza del friulano, la sua varianza è spiegata fondamentalmente (50%) dal grado di esposizione al friulano da adulti, quindi dal grado di esposizione al friulano da bambini (che aggiunge il 7,2% di spiegazione della varianza), mentre la scolarità dei genitori aggiunge quasi due punti percentuali, il sesso poco più di un punto, e letà e la scolarità spiegano ognuna lo 0,4%.
Il grado di conoscenza del friulano risulta perciò collegata fortemente soprattutto con il fatto di essere inseriti da adulti in un ambiente familiare in cui si usa il friulano e, in secondo luogo, con lesposizione a tale lingua in famiglia durante linfanzia.
La varianza della variabile dipendente è stata spiegata dalle variabili indipendenti prese in esame per il 61,0%.
La varianza della variabile lingua friulana scelta per effettuare lintervista, è spiegata fondamentalmente (22,7%) dalla dichiarazione del friulano come lingua del cuore, quindi dal grado di conoscenza del friulano (che aggiunge il 3,9% di spiegazione della varianza), e per lo 0,9% dalla scolarità. Le variabili escluse dal modello sono il sesso, letà, il grado di esposizione al friulano da piccolo e da adulto e la scolarità dei genitori.
In questo caso la varianza della variabile è spiegata solo in minima parte (27,5%) dalle variabili indipendenti prese in esame. Una spiegazione di questo dato è che la scelta di svolgere lintervista in friulano sia stata influenzata da una variabile esterna non presa in esame. In questo caso potrebbe essere stato latteggiamento, pur non intenzionale, dei diversi intervistatori, nei momenti preliminari alla somministrazione del questionario.
Per quanto riguarda la variabile accordo con la preferibilità delluso della lingua friulana da parte di genitori friulani nei confronti dei figli, la sua varianza è spiegata fondamentalmente (13,6%) dal grado di esposizione al friulano da adulti e quindi dalla scelta del friulano come lingua del cuore, che aggiunge il 2,3% di spiegazione. Le variabili escluse dal modello sono il grado di conoscenza del friulano, il sesso, letà, il grado di esposizione al friulano da bambini, la scolarità dellintervistato e quella dei genitori. La variabile è spiegata solo in minima parte (15,9%). In questo caso la causa della cattiva prestazione della variabile sarà da imputarsi alla sua natura di domanda di pura opinione su qualcosa che riguarda gli altri, e quindi molto soggetta alla causalità del momento.
Nel caso della variabile grado di esposizione al friulano da adulto, la sua varianza è spiegata fondamentalmente dal grado di conoscenza del friulano (50%) dal grado di esposizione al friulano da bambino (che aggiunge l8,3% della spiegazione della varianza), mentre il friulano indicato come lingua del cuore aggiunge il 3,2%, la scolarità l'1,7%, letà lo 0,8% ed il sesso solo lo 0,3%. Il grado di esposizione al friulano da adulto risulta quindi fortemente condizionato soprattutto dal grado di conoscenza del friulano e dal fatto che sia stata usata tale lingua in famiglia durante linfanzia. Si è visto in precedenza che è però vero anche il contrario, ossia che il grado di conoscenza del friulano è condizionato dal grado di esposizione alla lingua friulana da adulto. E' difficile stabilire quale sia la direzione della causalità, in quanto si assiste a processi circolari di condizionamento reciproco tra le variabili, per cui risulta alquanto difficile stabilire quanto siano vero tali condizionamenti e quale sia la loro entità.
La variabile esclusa dal modello è la scolarità dei genitori. La varianza di questa variabile è stata spiegata per il 64,3% dalle variabili indipendenti considerate.
3.3 Lanalisi dei sentieri causali (o path analysis)
Tale analisi si propone di dirimere la complessità causale esistente nellinsieme delle variabili indipendenti. Così si possono capire i percorsi che segue una variabile indipendente nel produrre mutamenti in quella dipendente: tali percorsi possono avere un carattere diretto poiché causano direttamente la variabile dipendente e/o possono avere carattere indiretto poiché causano tale variabile attraverso variabili intermedie.
Si tratta insomma di un modello causale, nel quale occupano una posizione centrale una variabile dipendente (da spiegare), altre indipendenti rispetto alla prima variabile ma dipendenti da altre in quanto variabili intermedie, ed infine variabili indipendenti da tutte le altre.
Il primo passo per individuare il modello causale è rappresentato dalla scelta delle variabili indipendenti (o esplicative) e dipendenti (o da spiegare) relative al fenomeno in esame. Tali operazioni danno luogo alla costruzione di un modello causale, del quale nelle successive fasi si cercherà di individuare i parametri indicanti la forza della causazione.
Lanalisi causale non indica tanto la validità dellipotesi di nesso causale tra le due variabili, quanto piuttosto se la relazione, nellambito della quale si colloca lanalisi causale, è forte o no.
Nella nostra indagine la lingua del cuore è risultata fortemente condizionata dal grado di esposizione al friulano in ambito familiare da adulti (fig. 27): tale esposizione è però a sua volta condizionata sia dal grado di esposizione al friulano sperimentata da bambini, sia dal grado di conoscenza della lingua stessa.
Il grado di esposizione al friulano durante linfanzia condiziona sia direttamente quella che è stata definita come la lingua del cuore, che indirettamente attraverso il grado di conoscenza della lingua stessa e attraverso lesposizione al friulano da adulto.
Anche il grado di conoscenza del friulano condiziona la lingua del cuore: lo fa sia in modo diretto che, indirettamente, influenzando il grado di esposizione al friulano da adulti, che a sua volta condiziona la lingua del cuore.
Si è comunque già detto che anche la lingua del cuore condiziona il grado di conoscenza del friulano ed è difficile stabilire quale delle due variabili abbia più influenza sullaltra.
Età e sesso infine, condizionano separatamente ed indipendentemente da altre variabili, la lingua del cuore.
Grado di conoscenza del friulano
Esposizione al friulano da adulto
Lingua del cuore
Esposizione al friulano da bambinoù
Età
Sesso
Fig. 27. Rappresentazione grafica dei sentieri causali
N.B.: lo spessore delle frecce mostra la forza della relazione: più è spessa la freccia, più forte è la relazione.
3.4 Lanalisi discriminante
Lanalisi discriminante è un altro modello di analisi multivariata; pur essendo molto simile alla regressione multipla si propone uno scopo diverso: mentre la regressione multipla cerca di spiegare la varianza della variabile dipendente, lanalisi discriminante (utilizzando un set di variabili indipendenti) cerca di predire lappartenenza dei casi alla categoria della variabile di raggruppamento. La sua efficacia si misura col numero di previsioni corrette che si riescono a realizzare. Si potrà insomma, conoscendo le variabili indipendenti, sapere con quanta sicurezza saremo in grado di predire - ad esempio - lappartenenza di un soggetto ad un determinato gruppo.
Le variabili utilizzate nellanalisi discriminante sono le stesse precedentemente adoperate per la regressione multipla.
Per quanto riguarda la variabile dipendente lingua del cuore, le variabili con maggiore capacità discriminante sono risultate - nellordine - il grado di esposizione al friulano da adulto e da bambino, il grado di conoscenza di tale lingua, laccordo sulluso del friulano con i figli ed il livello distruzione dei genitori; leggermente inferiore la capacità discriminante delle variabili età e scolarità, mentre scarsamente discriminante è stato il sesso.
La corretta previsione si è avuta per quasi il 90% dei casi per coloro che hanno dichiarato come tale il friulano, e poco più dell84% di quelli che hanno dichiarato altre lingue. La percentuale dei casi correttamente classificati è stata quindi in totale superiore all87%.
Riguardo al grado di conoscenza del friulano, la variabile con maggiore capacità discriminante è risultata il grado di esposizione al friulano da adulto e da bambino. Decisamente inferiore la capacità discriminante delle variabili età, livello distruzione dei genitori e sesso, nonchè - soprattutto - del livello distruzione.
La corretta previsione si è avuta per poco più del 94% dei casi di coloro che hanno dichiarato di non parlare il friulano, e poco più dell81% di quelli che hanno dichiarato di parlarlo. La percentuale dei casi correttamente classificati è stata in totale poco più dell'84%.
Per quanto riguarda la variabile lingua scelta per effettuare lintervista, le variabili con maggiore capacità discriminante sono risultate - nellordine - la lingua del cuore ed il grado di conoscenza del friulano; inferiore è stata invece la capacità discriminante delle variabili grado di esposizione al friulano da adulto ma soprattutto la scolarità, letà ed il livello di istruzione. Scarsamente discriminanti, infine, il sesso e lesposizione al friulano da piccoli.
La corretta previsione si è avuta per più dell82% dei casi in cui la lingua scelta per effettuare lintervista era il friulano, e per quasi il 69% di quelli in cui la lingua scelta era litaliano. La percentuale dei casi correttamente classificati è stata in totale di poco più del 73%.
In merito alla variabile accordo con preferibilità delluso della lingua friulana di genitori friulani nei confronti dei figli, le variabili con maggiore capacità discriminante sono risultate la lingua del cuore e, in secondo luogo, il grado di esposizione al friulano da adulto; inferiore è stata invece la capacità discriminante della variabile età ma soprattutto del grado di conoscenza del friulano. Scarsamente discriminanti la scolarità, il livello distruzione dei genitori ed il sesso; quasi insignificante infine lesposizione al friulano da piccoli.
La corretta previsione si è avuta per il 77% dei casi in cui gli intervistati si sono detti in disaccordo con tale uso, e per quasi il 66% di quelli in cui gli intervistati si sono invece dichiarati daccordo. La percentuale dei casi correttamente classificati è stata in totale di poco più del 69%.
Per quanto riguarda la variabile grado di esposizione al friulano da adulto, le variabili con maggiore capacità discriminante sono risultate il grado di conoscenza del friulano, lesposizione al friulano da piccoli e la lingua del cuore; inferiore è stata invece la capacità discriminante delle variabili scolarità, sesso ed età; scarsamente discriminanti infine il livello distruzione dei genitori.
La corretta previsione si è avuta per quasi l89% dei casi di coloro che sperimentano da adulti una bassa esposizione al friulano, poco più del 79% dei casi di alta esposizione al friulano, e poco più del 56% dei casi di media esposizione al friulano. La percentuale dei casi correttamente classificati è stata quindi in totale quasi del 73%.
Il dato costantemente rilevato in questanalisi è la pecentuale più elevata di previsioni corrette per il gruppo delle persone maggiormente legate alluso del friulano. Tale gruppo risulterebbe infatti più omogeneo, più facilmente individuabile da variabili discriminanti. Risulta perciò più prevedibile rispetto al gruppo composto da persone che fanno riferimento principalmente allitaliano o ad altre lingue.
| <<pagina precedente |
|