Il TF-IDF, acronimo di (Term Frequency–Inverse Document Frequency) è una misura utilizzata nell’Information Retrieval (che è la scienza che si occupa della ricerca di documenti, delle informazioni all’interno dei documenti, e dei metadata tra i documenti) ed è un parametro statistico che in varie misure e modalità viene utilizzato dai motori di ricerca come strumento nel determinare il Ranking , l’importanza dei documenti, e quindi delle pagine web data una determinata query.
Come SEOs avrete già capito che oltre all’ ottimizzazione on page del sito in questo post parleremo di come si costruiscono i testi per una ottimizzazione più in profondità delle pagine dei nostri siti.
Una variabile semplice di questa misura è data sommando il TF – IDF per ogni termine con cui interroghiamo i motori di ricerca, altre variabili, sono anche utilizzate in maniera più complessa nell’attribuire il punteggio, ma soffermiamoci in questo momento al ragionamento di questa variabile che ci è sicuramente utile per capire come ragionano i motori di ricerca e come costruire i testi.
Il peso di questa correlazione (TF-IDF) indica che la frequenza del termine è inversamente proporzionale alla frequenza del documento, e misura quanto importante è una parola in un documento e nel corpus di analisi totale
Vediamo il ragionamento:
Supponiamo di avere un insieme di documenti e di voler determinare quale di questi è il più rilevante con la query “la mucca marrone”. Un modo semplice è di iniziare eliminando tutti i documenti che non contengono le parole “la” “mucca” “marrone”. Nonostante leviamo queste parole, ci sono ancora molti altri documenti. Andando avanti, potremmo contare il numero di volte ogni termine occorre in ogni documento e sommare questi tutti insieme; il numero di volte che un termine si presenta nel documento è chiamato TERM FREQUENCY. In ogni caso, siccome il termine “la” è molto comune, questo tenderà erroneamente a enfatizzare i documenti in cui ci sarà la parola “la” più volte, senza però dare significato alle altre due parole “mucca” e “marrone”. Inoltre l’articolo “la” non è una buona keyword per distinguere documenti rilevanti e documenti non rilevanti e i termini come “mucca” e “marrone” che si presentano raramente saranno buone keywords per distinguere documenti rilevanti da quelli non rilevanti. Quindi il fattore della frequenza inversa del documento entra in gioco per diminuire l’importanza dei documenti che presentano termini molto generici come “la” e incrementa l’importanza dei documenti che presentano i termini che occorrono raramente, come i sinonimi.
Esempio
Consideriamo un documento che contiene 100 parole dove la parole “mucca” appare 3 volte. Seguendo la formula TF – IDF, la frequenza del termine per “mucca” è (3/100) = 0.03. Adesso, assumiamo di avere 10 milioni di documenti e “mucca” appare in un migliaio di essi. Quindi, la Frequenza Inversa del Documento è calcolata come log (10.000.000/1.000) = 4. Quindi il punteggio TF-IDF è il prodotto di queste quantità:
0.03 x 4 = 0.12
Formula
Il valore tf i,j (Term Frequency) può essere normalizzato nel modo seguente:
tf i,j = tf i,j / Max (f i,j )
dove Max (f i,j ) è la frequenza massima di i (un qualunque termine) all’interno di j (documento).
Essempio con il testo:
Query: Tappeto aubusson
A (testo con “aubusson”)
B (testo con “tappeto”)
Il motore di ricerca puo utilizzare il TF-IDF per determinare che “aubusson” è meno comune di “tappeto“, e quindi la soluzione A è più rilevante per la query in questione che la soluzione B
Nota: In questo caso il contenuto A è anche un ottimo esempio di come costruire le frasi semanticamente correlate alla query


VERTICE ANNUALE
Sei un imprenditore? Hai speso i tuoi soldi online senza avere risultati?
Queste informazioni sono Vitali per investire bene il tuo denaro…