SEOMantica: PLSA (Probabilistic Latent Semantic Analysis). Ecco cos’è!

Bene, vedo che non demordi.. quindi proseguiamo il nostro viaggio nella SEOMantica, in particolare oggi vedremo il modello matematico della PLSA (Probabilistic Latente Semantic Analysis = Analisi probabilistica della semantica con variabili latenti).

PLSA (Probabilistic Latent Semantic Analysis) - Analisi probabilistica latente della semantica

PLSA (Probabilistic Latent Semantic Analysis). Ecco cos’è! (Slide 42-45)

Prima di passare a schemi matematici e formule, vediamo in sintesi di cosa si tratta in 3 punti/informazioni che reputo importanti:

  • Tecnica statistica utilizzata per l’analisi di due metodologie e co-occorrenze di dati, quindi mette a confronto più dati di input
  • E’ un miglioramento della LSA apportando un calcolo probabilistico ai risultati. Infatti è basata su una decomposizione miscelata da un modello di classe latente (come la LSA che ha puramente calcoli basati su variabili non osservabili), questo permette appunto un approccio più probabilistico e quindi più saldo statisticamente (perchè “viene ridotto il rumore estremo” derivante dai calcoli sulle variabili nascoste).
  • E’ stata introdotta nel 1999 da Jan Puzicha e Thomas Hofmann, quindi gli studi a riguardo sono molto molto recenti, soprattutto legati all’Information Retrieval.

Vediamo la schematizzazione del concetto (tratto da Amit Gruber, 08 agosto 2007 – GoogleTechTalks)

  1. Selezionare 1 documento “d” con probabilità → P(d)
  2. Scegliere una classe latente “Z” con probabilità → θd(Z) = P(Z|d)
  3. Generare una parola “W” con probabilità → Φz(W) = P(W|Z)

Modello matematico PLSA

LEGENDA

D   →   numero dei documenti

Nd →   numero delle parole nel documento (d)

K    →   numero di argomenti latenti

θd  →   distribuzione di argomenti nel documento “d”

Z    →   argomento latente (topic)

W  →   parola osservata

Φk →   distribuzione delle parole generate dall’argomento latente “Z”

Variabili osservabili e variabili latenti

 

LIMITAZIONI e SVANTAGGI dell’analisi PLSA

Elevata generazione di “RUMORE CASUALE” (detto anche Overfitting)!

Occorre quindi, affinare i risultati per poterli applicare allo scopo di identificazione del significato della frase e della relativa parola chiave lo riassume…

Qui le slide:

Un abbraccio,
Michele

Scritto da    |   settembre 17th, 2011   |   2 Commenti
Michele De Capitani

2 Responses to SEOMantica: PLSA (Probabilistic Latent Semantic Analysis). Ecco cos’è!

Lascia un commento