Topic model

Nell'apprendimento automatico e nell'elaborazione del linguaggio naturale, un topic model è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento che parla del 10% di gatti e del 90% di cani, ci sarebbero probabilmente circa 9 volte più parole di cane rispetto a parole di gatto. Questi algoritmi cercano gruppi di parole simili. Un modello di argomento cattura questa intuizione in un quadro matematico, che consente di esaminare una serie di documenti e scoprire, sulla base delle statistiche delle parole in ciascuno, quali potrebbero essere gli argomenti e qual è l'equilibrio degli argomenti di ciascun documento.

I topic models sono considerati probabilistici, considerato che si riferiscono ad algoritmi statistici per scoprire le strutture latenti. I topic models sono stati utilizzati per rilevare strutture istruttive in dati come informazioni genetiche, immagini e reti. Hanno anche applicazioni in altri campi come la bioinformatica^[1] e la visione artificiale^[2].

Animazione del processo di scoperta dei topic. Ogni colonna è un testo, ogni riga una parola. Ogni cella rappresenta la frequenza di una parola in un testo. Le celle scure rappresentano frequenze alte. I topic models raggruppano parole simili e documenti simili allo stesso tempo.

Topic model per le scienze della vita

I topic models vengono utilizzati anche in altri contesti. Ad esempio, sono emersi utilizzi di topic models in biologia e bioinformatica^[3]. In questo caso gli argomenti da inferire sono variabili biologiche, come funzioni o processi cellulari. Recentemente è stato proposto di utilizzare topic model per studiare dati di RNA-Sequencing di sample di tumori.^[4]

Note

^ David Blei, Probabilistic Topic Models, in Communications of the ACM, vol. 55, n. 4, April 2012, pp. 77–84, DOI:10.1145/2133806.2133826.
^ Cao, Liangliang, and Li Fei-Fei. "Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes Archiviato il 3 marzo 2022 in Internet Archive.." 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.
^ Liu, L. e Tang, L., An overview of topic modeling and its current applications in bioinformatics, in SpringerPlus, vol. 5, 2016, p. 1608, DOI:10.1186/s40064-016-3252-8, PMID 27652181.
^ (EN) Filippo Valle, Matteo Osella e Michele Caselle, A Topic Modeling Analysis of TCGA Breast and Lung Cancer Transcriptomic Data data, in Cancers, vol. 12, 21 ottobre 2020, p. 3799, DOI:10.3390/cancers12123799. URL consultato il 16 dicembre 2020.

[1] David Blei, Probabilistic Topic Models, in Communications of the ACM, vol. 55, n. 4, April 2012, pp. 77–84, DOI:10.1145/2133806.2133826.

[2] Cao, Liangliang, and Li Fei-Fei. "Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes Archiviato il 3 marzo 2022 in Internet Archive.." 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.

[3] Liu, L. e Tang, L., An overview of topic modeling and its current applications in bioinformatics, in SpringerPlus, vol. 5, 2016, p. 1608, DOI:10.1186/s40064-016-3252-8, PMID 27652181.

[4] (EN) Filippo Valle, Matteo Osella e Michele Caselle, A Topic Modeling Analysis of TCGA Breast and Lung Cancer Transcriptomic Data data, in Cancers, vol. 12, 21 ottobre 2020, p. 3799, DOI:10.3390/cancers12123799. URL consultato il 16 dicembre 2020.

[1]

[2]

[3]

[4]