Lavorare con il modello
Mukherjee monoprofondo
Seguire
--
Ascoltare
Condividere
Autore: Luca Scrucca, Mohammed Saqr, Sonsoles López-Pernas, Keefe Murphy
Riassunto: L’eterogeneità è stato un tema caldo nella recente letteratura educativa. Sono stati espressi diversi appelli ad adottare metodi che catturino diversi modelli o sottogruppi all'interno del comportamento o del funzionamento degli studenti. Supponendo che esista un modello medio che rappresenti l’intera popolazione studentesca, è necessario che il costrutto misurato abbia lo stesso meccanismo causale, lo stesso modello di sviluppo e influenzi gli studenti esattamente nello stesso modo. Utilizzando un metodo centrato sulla persona (modello di miscela gaussiana finita o analisi del profilo latente), il presente tutorial mostra come scoprire l'eterogeneità all'interno dei dati di coinvolgimento identificando tre cluster latenti o non osservati. Questo capitolo offre un'introduzione al clustering basato su modelli che include i principi dei metodi, una guida alla scelta del numero di cluster, la valutazione dei risultati del clustering e una guida dettagliata con codice e un set di dati reali. La discussione approfondisce l'interpretazione dei risultati, i vantaggi del clustering basato su modelli e il suo confronto con altri metodi.
2. Una revisione del clustering basato su modello bayesiano (arXiv)
Autore: Clara Grazian
Riassunto: Il clustering è un compito importante in molte aree della conoscenza: medicina ed epidemiologia, genomica, scienze ambientali, economia, scienze visive, tra gli altri. Le metodologie per effettuare inferenze sul numero di cluster si sono spesso rivelate incoerenti e l'introduzione di una struttura di dipendenza tra i cluster implica ulteriori difficoltà nel processo di stima. In un'impostazione bayesiana, il clustering viene eseguito considerando la partizione sconosciuta come un oggetto casuale e definendo una distribuzione a priori su di essa. Questa distribuzione a priori può essere indotta da modelli sulle osservazioni o definita direttamente per la partizione. Diversi risultati recenti, tuttavia, hanno mostrato le difficoltà nello stimare in modo coerente il numero di cluster e, quindi, la partizione. Resta aperto il problema stesso di riassumere la distribuzione a posteriori sulla partizione, data l'ampia dimensione dello spazio della partizione. Questo lavoro si propone di passare in rassegna gli approcci bayesiani disponibili in letteratura per eseguire il clustering, presentando vantaggi e svantaggi di ciascuno di essi al fine di suggerire future linee di ricerca