CAP. 3 L’ANALISI MULTIVARIATA

 

Nell’esposizione dei risultati di un sondaggio sociologico, l’analisi “univariata” (cioè la descrizione delle risposte ad ogni singola domanda) è le più semplice, d’immediata comprensibilità, e quella che in genere meglio soddisfa le esigenze di conoscenza descrittiva.

Con l’analisi “bivariata”, cioè quella che tende ad accertare la presenza di una relazione tra le variabili prese due a due, si passa dal livello della pura descrizione a quello della spiegazione, e le cose cominciano a complicarsi. Il problema principale di questo livello d’analisi è che, nella realtà sociale, tutto è interconnesso; le relazioni tra una variabile e l’altra sono di solito rese più incerte e complesse (“spurie”) dalla presenza di numerose altre variabili “intervenienti”, variamente legate alle due prese in esame. Gli statistici hanno quindi dovuto sviluppare diverse tecniche per analizzare le reciproche influenze all’interno di gruppi, numerosi a piacere, di variabili. E’ questo il campo dell’“analisi multivariata”. In genere lo scopo di queste tecniche è di individuare le variabili più influenti, quelle che irradiano le relazioni più forti; e quindi di semplificare i risultati, depurandoli dal “rumore di sfondo”, prodotto dalle variabili statisticamente meno importanti.

Lo sforzo computazionale richiesto dalle analisi multivariate è fattorialmente correlato al numero di variabili prese in esame. In genere quindi si cerca di ridurne preliminarmente il numero sulla base di considerazioni teorico- sostantive, cioè in base alle ipotesi della ricerca.

Anche in questa ricerca i dati sono stati sottoposti a diverse procedure d’analisi multivariata.

Le configurazioni di dati esposte qui di seguito, apparentemente elementari, sono in realtà l’esito di lunghi processi sperimentali, di approssimazioni successive (“provando e riprovando”) a modelli che soddisfino insieme i requisiti della chiarezza, robustezza e significatività teorica.

 

3.1 L’analisi delle corrispondenze multiple

L’analisi delle corrispondenze multiple (detta anche Homals, o delle omogeneità) è una tecnica statistica molto potente che può essere utilizzata quando si devono analizzare matrici di dati in cui vi siano in prevalenza variabili categoriali (cioè che non si manifestino come serie progressive di numeri, ma come qualità “discrete”, nettamente separate le une dalle altre).

Interessante è il prodotto grafico dell’analisi delle corrispondenze, che permette di rappresentare - su un numero ridotto di piani - le relazioni intercorrenti tra le modalità delle variabili analizzate; su questa base, in seguito si potranno formulare ipotesi interpretative, che potranno essere verificate con ulteriori analisi statistiche, utilizzando tecniche più potenti sotto l’aspetto inferenziale (cioè della capacità di prestarsi a generalizzazioni), ma inadatte a gestire grandi matrici di dati.

Dal punto di vista grafico, il fine è quello di creare dei raggruppamenti di categorie delle variabili utilizzate che abbiano, rispetto ad alcune variabili selezionate, il massimo di somiglianza tra loro ed il massimo di diversità tra i gruppi di categorie delle variabili così individuate.

Pur avendo combinato a più riprese tra loro numerose variabili, il grafico più interessante e significativo ottenuto nel nostro caso (fig. 26), ne comprende soltanto otto, che paiono comunque definire egregiamente le particolarità dei singoli insiemi. Queste le variabili:

1. lo status socioeconomico (alto = SesA; medio = SesM; basso = SesB);

2. la scolarità (obbligo, superiore, laurea);

3. l’età (18-33; 34-49; 50-65);

4. il sesso (maschio = M; femmina = F);

5. l’accordo sul fatto che genitori friulani parlino friulano con i figli (Sì; No);

6. la lingua del cuore (italiano = It cuore; friulano = F cuore; altra lingua = A cuore);

7. il grado di conoscenza del friulano (non capisco e non parlo = Nono; capisco ma non parlo = Capno; capisco e parlo occasionalmente = Capocc; capisco e parlo regolarmente = Capreg);

8. la lingua preferita per effettuare l’intervista (italiano = PIt; friulano = PF).

 

 

 

Fig. 26. Grafico dell’analisi delle corrispondenze multiple

Un primo aspetto interessante è l’evidente formazione di tre «nuvole di punti» ben separate tra loro: una nuvola in prossimità del centro degli assi verso sinistra, una in alto a destra e una in posizione medio-bassa ancora a destra. Nel primo insieme troviamo persone con status socio - economico basso, appartenenti alla fascia d’età più alta, con titolo di studio inferiore, che capiscono e parlano regolarmente il friulano, che ritengono giusto che genitori friulani usino tale lingua con i figli e che dichiarano il friulano stesso come la lingua cui si sentono maggiormente legati. Nel secondo insieme si trovano persone laureate, di status socio - economico alto e che non capiscono e non parlano il friulano. Nel terzo gruppo si ritrovano, in posizione abbastanza prossima, coloro che capiscono ma non parlano il friulano e quelli che lo capiscono ma lo parlano solo occasionalmente (del resto, le due categorie spesso non sono percepite in modo ben distinto neppure dagli stessi intervistati), gli appartenenti alla fascia d’età più giovane, quelli che hanno frequentato le scuole superiori e quelli che hanno uno status socio economico medio, coloro che preferiscono effettuare l’intervista in italiano, che dichiarano di essere particolarmente legati alla lingua italiana e che dissentono sull’eventualità che genitori friulani parlino di preferenza tale lingua con i figli. Al di fuori delle nuvole di punti, distanti da altre variabili e in posizioni intermedie tra diversi insiemi, si riscontrano il sesso, gli appartenenti alla fascia d’età media e coloro che dichiarano come lingua del cuore una lingua diversa dall’italiano e dal friulano.

Come si vede, questa tecnica d’analisi multivariata ha riprodotto, per tutt’altre vie, quanto era emerso abbastanza chiaramente dall’analisi bivariata. Con un’importante differenza, però: il sesso non risulta più essere una variabile discriminante. Inoltre questa tecnica consente di costruire delle tipologie complesse, cioè di suddividere il campione in gruppi di individui accomunati da un certo insieme di caratteristiche.

 

3.2 La regressione lineare multivariata

Un altro modello di analisi multivariata si basa sulle correlazioni tra variabili, valutate per mezzo di determinati indici come quello di Pearson o quello di Kendall: in una tabella vengono disposte in orizzontale ed in verticale le medesime variabili, e si calcola in seguito la correlazione tra le stesse, ossia si valuta quali variabili possono condizionarne altre. La selezione delle variabili da esaminare viene fatta sia sulla base di ragionamenti teorici ma anche di come sono distribuite le risposte alle domande. Inoltre, vanno eliminate determinate variabili che pur avrebbero potuto sembrare inizialmente particolarmente interessanti: ne è un esempio nella nostra indagine lo status socio-economico che, essendo stato costruito anche in base al titolo di studio, dava risultati distorti proprio perché conteneva in sé anche tale variabile con la quale doveva poi in seguito essere ulteriormente incrociato.

Si è cercato di valutare se - ed eventualmente quanto - la lingua scelta per effettuare l’intervista, il grado di conoscenza del friulano, l’accordo o meno sul fatto di parlare friulano ai figli, il sesso, l’età, la scolarità, il grado di esposizione al friulano da piccoli e da adulti, il numero dei figli, la competenza linguistica, la scolarità dei genitori e la lingua del cuore, possano condizionare le variabili ritenute più rappresentative, ossia la lingua scelta per l’intervista, il grado di conoscenza del friulano, l’accordo o meno sul fatto di parlare friulano ai figli, il grado di esposizione al friulano da adulti e quella che è stata indicata dai singoli intervistati come la lingua del cuore.

Dalla tabella si ottengono dei valori che indicano il grado di correlazione tra le variabili stesse: lo zero indica mancanza assoluta di correlazione, mentre più ci si allontana da esso sulla scala positiva (max +1) o negativa (max -1) e più forte è la correlazione rispettivamente diretta ed inversa.

I parametri ottenuti dalla tabella di correlazione servono per fornire dati che saranno quindi elaborati attraverso la regressione lineare multivariata: con tali tecniche si cerca di predire la variabilità di una variabile dipendente mediante l’uso simultaneo di più variabili indipendenti. In tal modo, è possibile accertare, per ognuna delle variabili che entrano nel modello, il suo specifico contributo nel predire la varianza della dipendente.

Per spiegare la varianza della variabile dipendente, si sceglie anzitutto la prima variabile più correlata e quindi s’introducono nel modello, una alla volta, le rimanenti. La prima variabile ad entrare avrà certamente un peso molto forte per quanto riguarda la spiegazione del fenomeno in analisi: ogni altra variabile che entrerà in seguito nel modello modificherà però tale peso, riducendolo ad ogni nuova entrata. Il modello dirà quanto ogni variabile introdotta spieghi della variabilità delle risposte fornite alla domanda di volta in volta in esame ed eventualmente escluderà quelle che risulteranno scarsamente influenti: mano a mano che entreranno nuove variabili nel modello, aumenterà infatti la varianza spiegata.

Per quanto riguarda la variabile dipendente “lingua del cuore=friulano”, la sua varianza è spiegata soprattutto (43%) dal grado di esposizione al friulano da adulti, mentre il grado di esposizione al friulano da piccoli aggiunge il 7,3% di spiegazione della varianza, la conoscenza del friulano quasi due punti percentuali, il sesso un punto, mentre l’età spiega solo lo 0,7%.

A determinare la scelta di definire come lingua del cuore il friulano è quindi fondamentalmente il fatto di essere inseriti da adulti in un ambiente familiare in cui si usa il friulano, ma non va trascurato neppure l’apporto fornito dall’esposizione a tale lingua in famiglia durante l’infanzia.

Le variabili escluse dal modello, in quanto forniscono una spiegazione percentualmente irrilevante della varianza, sono la scolarità dell’intervistato e quella dei genitori.

Nel complesso, le variabili «indipendenti» prese in esame spiegano il 54,6% della varianza della variabile dipendente «lingua del cuore».

Nel caso della variabile “grado di conoscenza del friulano”, la sua varianza è spiegata fondamentalmente (50%) dal grado di esposizione al friulano da adulti, quindi dal grado di esposizione al friulano da bambini (che aggiunge il 7,2% di spiegazione della varianza), mentre la scolarità dei genitori aggiunge quasi due punti percentuali, il sesso poco più di un punto, e l’età e la scolarità spiegano ognuna lo 0,4%.

Il grado di conoscenza del friulano risulta perciò collegata fortemente soprattutto con il fatto di essere inseriti da adulti in un ambiente familiare in cui si usa il friulano e, in secondo luogo, con l’esposizione a tale lingua in famiglia durante l’infanzia.

La varianza della variabile dipendente è stata spiegata dalle variabili indipendenti prese in esame per il 61,0%.

La varianza della variabile “lingua friulana scelta per effettuare l’intervista”, è spiegata fondamentalmente (22,7%) dalla dichiarazione del friulano come lingua del cuore, quindi dal grado di conoscenza del friulano (che aggiunge il 3,9% di spiegazione della varianza), e per lo 0,9% dalla scolarità. Le variabili escluse dal modello sono il sesso, l’età, il grado di esposizione al friulano da piccolo e da adulto e la scolarità dei genitori.

In questo caso la varianza della variabile è spiegata solo in minima parte (27,5%) dalle variabili indipendenti prese in esame. Una spiegazione di questo dato è che la scelta di svolgere l’intervista in friulano sia stata influenzata da una variabile esterna non presa in esame. In questo caso potrebbe essere stato l’atteggiamento, pur non intenzionale, dei diversi intervistatori, nei momenti preliminari alla somministrazione del questionario.

Per quanto riguarda la variabile “accordo con la preferibilità dell’uso della lingua friulana da parte di genitori friulani nei confronti dei figli”, la sua varianza è spiegata fondamentalmente (13,6%) dal grado di esposizione al friulano da adulti e quindi dalla scelta del friulano come lingua del cuore, che aggiunge il 2,3% di spiegazione. Le variabili escluse dal modello sono il grado di conoscenza del friulano, il sesso, l’età, il grado di esposizione al friulano da bambini, la scolarità dell’intervistato e quella dei genitori. La variabile è spiegata solo in minima parte (15,9%). In questo caso la causa della “cattiva prestazione” della variabile sarà da imputarsi alla sua natura di domanda di pura opinione su qualcosa che riguarda “gli altri”, e quindi molto soggetta alla causalità del momento.

Nel caso della variabile “grado di esposizione al friulano da adulto”, la sua varianza è spiegata fondamentalmente dal grado di conoscenza del friulano (50%) dal grado di esposizione al friulano da bambino (che aggiunge l8,3% della spiegazione della varianza), mentre il friulano indicato come lingua del cuore aggiunge il 3,2%, la scolarità l'1,7%, l’età lo 0,8% ed il sesso solo lo 0,3%. Il grado di esposizione al friulano da adulto risulta quindi fortemente condizionato soprattutto dal grado di conoscenza del friulano e dal fatto che sia stata usata tale lingua in famiglia durante l’infanzia. Si è visto in precedenza che è però vero anche il contrario, ossia che il grado di conoscenza del friulano è condizionato dal grado di esposizione alla lingua friulana da adulto. E' difficile stabilire quale sia la direzione della causalità, in quanto si assiste a processi circolari di condizionamento reciproco tra le variabili, per cui risulta alquanto difficile stabilire quanto siano vero tali condizionamenti e quale sia la loro entità.

La variabile esclusa dal modello è la scolarità dei genitori. La varianza di questa variabile è stata spiegata per il 64,3% dalle variabili indipendenti considerate.

 

3.3 L’analisi dei sentieri causali (o “path analysis”)

Tale analisi si propone di dirimere la complessità causale esistente nell’insieme delle variabili indipendenti. Così si possono capire i percorsi che segue una variabile indipendente nel produrre mutamenti in quella dipendente: tali percorsi possono avere un carattere diretto poiché causano direttamente la variabile dipendente e/o possono avere carattere indiretto poiché causano tale variabile attraverso variabili intermedie.

Si tratta insomma di un modello causale, nel quale occupano una posizione centrale una variabile dipendente (da spiegare), altre indipendenti rispetto alla prima variabile ma dipendenti da altre in quanto variabili intermedie, ed infine variabili indipendenti da tutte le altre.

Il primo passo per individuare il modello causale è rappresentato dalla scelta delle variabili indipendenti (o esplicative) e dipendenti (o da spiegare) relative al fenomeno in esame. Tali operazioni danno luogo alla costruzione di un modello causale, del quale nelle successive fasi si cercherà di individuare i parametri indicanti la forza della causazione.

L’analisi causale non indica tanto la validità dell’ipotesi di nesso causale tra le due variabili, quanto piuttosto se la relazione, nell’ambito della quale si colloca l’analisi causale, è forte o no.

Nella nostra indagine la lingua del cuore è risultata fortemente condizionata dal grado di esposizione al friulano in ambito familiare da adulti (fig. 27): tale esposizione è però a sua volta condizionata sia dal grado di esposizione al friulano sperimentata da bambini, sia dal grado di conoscenza della lingua stessa.

Il grado di esposizione al friulano durante l’infanzia condiziona sia direttamente quella che è stata definita come la lingua del cuore, che indirettamente attraverso il grado di conoscenza della lingua stessa e attraverso l’esposizione al friulano da adulto.

Anche il grado di conoscenza del friulano condiziona la lingua del cuore: lo fa sia in modo diretto che, indirettamente, influenzando il grado di esposizione al friulano da adulti, che a sua volta condiziona la lingua del cuore.

Si è comunque già detto che anche la lingua del cuore condiziona il grado di conoscenza del friulano ed è difficile stabilire quale delle due variabili abbia più influenza sull’altra.

Età e sesso infine, condizionano separatamente ed indipendentemente da altre variabili, la lingua del cuore.

 

Grado di conoscenza del friulano

Esposizione al friulano da adulto

Lingua del cuore

Esposizione al friulano da bambinoù

Età

Sesso

 

 

Fig. 27. Rappresentazione grafica dei sentieri causali

 

 

 

N.B.: lo spessore delle frecce mostra la forza della relazione: più è spessa la freccia, più forte è la relazione.

 

3.4 L’analisi discriminante

L’analisi discriminante è un altro modello di analisi multivariata; pur essendo molto simile alla regressione multipla si propone uno scopo diverso: mentre la regressione multipla cerca di spiegare la varianza della variabile dipendente, l’analisi discriminante (utilizzando un set di variabili indipendenti) cerca di predire l’appartenenza dei casi alla categoria della variabile di raggruppamento. La sua efficacia si misura col numero di previsioni corrette che si riescono a realizzare. Si potrà insomma, conoscendo le variabili indipendenti, sapere con quanta sicurezza saremo in grado di predire - ad esempio - l’appartenenza di un soggetto ad un determinato gruppo.

Le variabili utilizzate nell’analisi discriminante sono le stesse precedentemente adoperate per la regressione multipla.

Per quanto riguarda la variabile dipendente “lingua del cuore”, le variabili con maggiore capacità discriminante sono risultate - nell’ordine - il grado di esposizione al friulano da adulto e da bambino, il grado di conoscenza di tale lingua, l’accordo sull’uso del friulano con i figli ed il livello d’istruzione dei genitori; leggermente inferiore la capacità discriminante delle variabili età e scolarità, mentre scarsamente discriminante è stato il sesso.

La corretta previsione si è avuta per quasi il 90% dei casi per coloro che hanno dichiarato come tale il friulano, e poco più dell’84% di quelli che hanno dichiarato altre lingue. La percentuale dei casi correttamente classificati è stata quindi in totale superiore all’87%.

Riguardo al grado di conoscenza del friulano, la variabile con maggiore capacità discriminante è risultata il grado di esposizione al friulano da adulto e da bambino. Decisamente inferiore la capacità discriminante delle variabili età, livello distruzione dei genitori e sesso, nonchè - soprattutto - del livello distruzione.

La corretta previsione si è avuta per poco più del 94% dei casi di coloro che hanno dichiarato di non parlare il friulano, e poco più dell’81% di quelli che hanno dichiarato di parlarlo. La percentuale dei casi correttamente classificati è stata in totale poco più dell'84%.

Per quanto riguarda la variabile “lingua scelta per effettuare l’intervista”, le variabili con maggiore capacità discriminante sono risultate - nell’ordine - la lingua del cuore ed il grado di conoscenza del friulano; inferiore è stata invece la capacità discriminante delle variabili grado di esposizione al friulano da adulto ma soprattutto la scolarità, l’età ed il livello di istruzione. Scarsamente discriminanti, infine, il sesso e l’esposizione al friulano da piccoli.

La corretta previsione si è avuta per più dell’82% dei casi in cui la lingua scelta per effettuare l’intervista era il friulano, e per quasi il 69% di quelli in cui la lingua scelta era l’italiano. La percentuale dei casi correttamente classificati è stata in totale di poco più del 73%.

In merito alla variabile “accordo con preferibilità dell’uso della lingua friulana di genitori friulani nei confronti dei figli”, le variabili con maggiore capacità discriminante sono risultate la lingua del cuore e, in secondo luogo, il grado di esposizione al friulano da adulto; inferiore è stata invece la capacità discriminante della variabile età ma soprattutto del grado di conoscenza del friulano. Scarsamente discriminanti la scolarità, il livello d’istruzione dei genitori ed il sesso; quasi insignificante infine l’esposizione al friulano da piccoli.

La corretta previsione si è avuta per il 77% dei casi in cui gli intervistati si sono detti in disaccordo con tale uso, e per quasi il 66% di quelli in cui gli intervistati si sono invece dichiarati d’accordo. La percentuale dei casi correttamente classificati è stata in totale di poco più del 69%.

Per quanto riguarda la variabile “grado di esposizione al friulano da adulto”, le variabili con maggiore capacità discriminante sono risultate il grado di conoscenza del friulano, l’esposizione al friulano da piccoli e la lingua del cuore; inferiore è stata invece la capacità discriminante delle variabili scolarità, sesso ed età; scarsamente discriminanti infine il livello distruzione dei genitori.

La corretta previsione si è avuta per quasi l’89% dei casi di coloro che sperimentano da adulti una bassa esposizione al friulano, poco più del 79% dei casi di alta esposizione al friulano, e poco più del 56% dei casi di media esposizione al friulano. La percentuale dei casi correttamente classificati è stata quindi in totale quasi del 73%.

Il dato costantemente rilevato in quest’analisi è la pecentuale più elevata di previsioni corrette per il gruppo delle persone maggiormente legate all’uso del friulano. Tale gruppo risulterebbe infatti più omogeneo, più facilmente individuabile da variabili discriminanti. Risulta perciò più prevedibile rispetto al gruppo composto da persone che fanno riferimento principalmente all’italiano o ad altre lingue.

 

 <<pagina precedente

indice libro

 nuova pagina>>