Spider

Gli spiders sono dei ragni. E si comportano come tali. Il web, dopotutto, è una ragnatela non del tutto riuscita, e lo spider è appunto un ragno che si muove in questa ragnatela.

Dopo questa premessa concettuale, passiamo ad una definizione tecnica. Lo spider  (chiamato anche crawler o robot) è un programma usato dai motori di ricerca per esplorare il mondo del web in modo automatico ed estrarre i contenuti dei siti web. Gli spider  funzionano in questo modo: registrano una copia testuale di tutte le pagine o i documenti visitati che si trovano in questa ragnatela chiamata web e li inseriscono in un indice. Successivamente sarà opera del motore di ricerca, in base a delle proprie regole, indicizzarli e renderli fruibili ai navigatori di internet quando digitano un termine di ricerca.

Lo spider è di solito impiegato nel visionare automaticamente un sito web, ed effettua delle operazioni come il controllo dei link presenti in esso e per testare la correttezza del codice HTML di un sito. Durante l’analisi di un sito web, lo spider controlla tutti i link presenti in esso e li aggiunge alla lista di url da visitare.

Lo spider, nel suo lavoro, può essere indirizzato da un file chiamato robots.txt, che dice a questo ragno (spider) quali pagine analizzare e quali no. Lo spider, comunque, ha la facoltà di seguire i consigli indicati nel robots.txt, ma non l’obbligo.

Scritto da    |   novembre 12th, 2018   |   Nessun commento

Lascia un commento