Il TF-IDF nei motori di ricerca. Analisi dei testi per la SEO

Il TF-IDF, acronimo di (Term Frequency–Inverse Document Frequency) è una misura utilizzata nell’Information Retrieval (che è la scienza che si occupa della ricerca di documenti, delle informazioni all’interno dei documenti, e dei metadata tra i documenti) ed è un parametro statistico che in varie misure e modalità viene utilizzato dai motori di ricerca come strumento nel determinare il Ranking , l’importanza dei documenti, e quindi delle pagine web data una determinata query.

Come SEOs avrete già capito che oltre all’ ottimizzazione on page del sito in questo post parleremo di come si costruiscono i testi per una ottimizzazione più in profondità delle pagine dei nostri siti.

Una variabile semplice di questa misura è data sommando il TF – IDF per ogni termine con cui interroghiamo i motori di ricerca, altre variabili, sono anche utilizzate in maniera più complessa nell’attribuire il punteggio, ma soffermiamoci in questo momento al ragionamento di questa variabile che ci è sicuramente utile per capire come ragionano i motori di ricerca e come costruire i testi.

Il peso di questa correlazione (TF-IDF)  indica  che la frequenza del termine è inversamente proporzionale alla frequenza del documento, e misura quanto importante è una parola in un documento e nel corpus di analisi totale

Vediamo il ragionamento:

Supponiamo di avere un insieme di documenti e di voler determinare quale di questi è il più rilevante con la query “la mucca marrone”. Un modo semplice è di iniziare eliminando tutti i documenti che non contengono le parole “la” “mucca” “marrone”. Nonostante leviamo queste parole, ci sono ancora molti altri documenti. Andando avanti, potremmo contare il numero di volte ogni termine occorre in ogni documento e sommare questi tutti insieme; il numero di volte che un termine si presenta nel documento è chiamato TERM FREQUENCY. In ogni caso, siccome il termine “la” è molto comune, questo tenderà erroneamente a enfatizzare i documenti in cui ci sarà la parola “la” più volte, senza però dare significato alle altre due parole “mucca” e “marrone”. Inoltre l’articolo “la” non è una buona keyword per distinguere documenti rilevanti e documenti non rilevanti e i termini come “mucca” e “marrone” che si presentano raramente saranno buone keywords per distinguere documenti rilevanti da quelli non rilevanti. Quindi il fattore della  frequenza inversa del documento entra in gioco per diminuire l’importanza dei documenti che presentano termini molto generici come “la” e incrementa l’importanza dei documenti che presentano i termini che occorrono raramente, come i sinonimi.

Esempio

Consideriamo un documento che contiene 100 parole dove la parole “mucca” appare 3 volte. Seguendo la formula TF – IDF, la frequenza del termine per “mucca” è (3/100) = 0.03. Adesso, assumiamo di avere 10 milioni di documenti e “mucca” appare in un migliaio di essi. Quindi, la Frequenza Inversa del Documento è calcolata come log (10.000.000/1.000) = 4. Quindi il punteggio TF-IDF è il prodotto di queste quantità:

0.03 x 4 = 0.12

Formula



Il valore tf i,j (Term Frequency) può essere normalizzato nel modo seguente:

tf i,j = tf i,j / Max (f i,j )

dove Max (f i,j ) è la frequenza massima di i (un qualunque termine) all’interno di j (documento).

Essempio con il testo:

Query: Tappeto aubusson

A (testo con aubusson”)

B (testo con “tappeto”)

TF-IDF esempio frequenza termini documenti motori di ricerca

Il motore di ricerca puo utilizzare il TF-IDF per determinare che “aubusson” è meno comune di “tappeto“, e quindi la soluzione A è più rilevante per la query in questione che la soluzione B

Nota: In questo caso il contenuto A è anche un ottimo esempio di come costruire le frasi semanticamente correlate alla query

Scritto da    |   novembre 11th, 2010   |   Nessun commento

Lascia un commento

corsoconsulente

 
corsoconsulente

VERTICE ANNUALE

Sei un imprenditore? Hai speso i tuoi soldi online senza avere risultati?
Queste informazioni sono Vitali per investire bene il tuo denaro…

MAGGIORI DETTAGLI

SEI UN IMPRENDITORE?