Caratteristiche e differenza tra motori di ricerca: Web directory e spider engines

Caratteristiche e differenza tra motori di ricerca: Web directory e spider engines

I motori di ricerca sono senz’altro la risorsa principale a disposizione per la ricerca di informazioni in Internet.
Ma che cosa sono esattamente i motori di ricerca? In generale, i motori di ricerca possono essere definiti come dei grandi archivi di dati che contengono delle informazioni dettagliate su un gran numero di pagine web accompagnati da un programma informatico in grado di indicizzare e fornire, su richiesta dell’utente, informazioni presenti su tali documenti tramite l’inserimento di parole chiave relative alla ricerca da effettuare.

L’inserimento delle pagine web negli archivi dei motori di ricerca può avvenire in due modalità: sia attraverso la registrazione manuale da parte dell’utente (il responsabile del sito o il webmaster ad esempio), sia in modo automatico attraverso un software che riesce a visitare milioni si siti web al giorno inserendo le nuove pagine ed aggiornando le informazioni su quelle già censite.

Per ogni pagina web censita, i motori di ricerca memorizzano gran parte del testo in essa contenuto, in modo tale che, ad ogni ricerca dell’utente, venga rappresentata una lista delle pagine web dove figurano le parole che interessano. L’utilizzo di tali motori è semplice: basta digitare (per le ricerche semplici) le parole chiave relative all’argomento che interessa ed in pochi secondi si ottiene un elenco di siti web che contengono le parole richieste. Ogni motore di ricerca può effettuare ricerche semplici, con parole singole, o ricerche complesse, tramite un opportuno abbinamento di parole chiave con strumenti predefiniti presenti nelle toolbars oppure con i cosiddetti operatori logici.
Il risultato della ricerca contiene inoltre una lista, più o meno lunga, di links, ossia collegamenti a siti web il cui contenuto è più o meno pertinente alle parole chiave inserite e ai criteri di ricerca utilizzati.

Il primo problema con cui ci si imbatte è quello di trovare dei risultati della ricerca pagine che non matchano con la richiesta iniziale, documenti non attinenti e dead link, ovvero collegamenti a siti non più in uso. In ogni caso un uso adeguato dei motori di ricerca consente di orientarsi in questo mare di documenti. Un’altra caratteristica di questi motori è il loro uso totalmente gratuito, così come (a volte) la registrazione delle pagine negli archivi, e questo nonostante i massicci investimenti necessari per creare un simile servizio. La ragione sta nel fatto che nelle pagine che vengono presentate all’utente, compaiono degli annunci pubblicitari (banner) attraverso i quali le società che gestiscono i motori di ricerca traggono i loro ricavi. Recentemente poi oltre ai banner, alcuni motori di ricerca hanno sviluppato altre forme di business mediante accordi con aziende specializzate.

Caratteristiche e differenza tra motori di ricerca: Web directory e spider engines

Web directory e spider engines

Le tipologie dei motori di ricerca si suddividono in queste due macrocategorie: web directory engine e spider engine.
Le prime forniscono liste di siti web, suddivise in categorie a seconda dell’argomento, con una breve descrizione. Trovata la lista dei risultati, ci si muove da un menù all’altro, facendo una selezione dopo l’altra, finché non si giunge al punto in cui si trovano i siti ai quali si è interessati.
Si può anche effettuare una ricerca sulla descrizione dei siti contenuti nella categoria. Categorie e descrizioni sono suggeriti dagli sviluppatori dei siti web ed esaminati da persone specializzate.

Mentre le directory raccolgono poche informazioni dei siti (la semplice descrizione), uno spider engine raccoglie tutte le informazioni su tutte le pagine web che trova tramite due tecniche: con il sistema add-url, che permette ad ogni utente di segnalare la singole pagina del sito al motore di ricerca, specificandone l’indirizzo (definito con la sigla url) e con il sistema spider, che non è altro che un programma che scandaglia il web cercando tutte le pagine che riesce a trovare e le registra nell’archivio generale.
Da tener conto poi che una pagina è un documento di qualsiasi dimensione, da poche righe fino ad un libro intero. Un sito potrebbe contenere centinaia o migliaia di pagine. Il motore di ricerca non aspetta che qualcuno gli comunichi il contenuto di un sito ma a tale scopo si avvale di programmi robot detti crawler, o indicizzatori che navigano in Internet ed archiviano il testo completo di ogni pagina trovata.

In tal modo lo spider indicizza ciascuna parola trovata dai crawler e ne memorizza anche l’ordine in modo che si possano ricercare anche frasi complete. Mentre nell’uso delle directory è necessaria una certa conoscenza specifica dell’oggetto di ricerca, nell’uso degli spider è consentito di partire da un unico elemento, come un nome o una frase, senza ulteriori specifiche informazioni.
Le directory sono organizzate da esseri umani e quindi basate sul loro giudizio personale e non sempre le loro scelte sono compatibili al nostro modo di pensare ed alle esigenze dell’utente.
Gli indici dei motori di ricerca sono generati in modo automatico in relazione alle parole o sulle frasi trovate sulle pagine web. Di conseguenza le informazioni non vengono filtrate né riorganizzate e se si è padroni dei metodi di ricerca si può ottenere direttamente ciò che si vuole.

Con l’andare del tempo, le directory rischiano di diventare obsolete mentre i motori di ricerca non sono soggetti a questo tipo di pericolo perchè i loro risultati non vengono classificati ed anzi si arricchiscono con l’indicizzazione di nuove pagine web.
I siti, comprendendo diverse pagine che possono avere argomento diverso, possono essere spesso difficilmente classificabili sotto un’unica categoria. Non si corre questo rischio, invece, con il motore di ricerca, poiché considera ogni pagina come singola. Le directory vengono organizzate come biblioteche. Al contrario, gli indici dei motori di ricerca non sono organizzati così che il computer possa aiutare a raccogliere qualsiasi informazione da un caos immenso in qualunque circostanza.

Al contrario delle biblioteche dove domande troppo specifiche richiederanno grandi tempi di consultazione, gli indici degli spider engines hanno in questi casi risposte immediate. Se il quesito è generico, si ritroveranno viceversa un gran numero di documenti sull’argomento.

 

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: www.vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *