Domain Discovery:
1) Google DNS: Quasi ogni volta che si visita un sito web, ha bisogno di ottenere l’indirizzo IP per il sito web. Google DNS è DNS molto popolare in tutto il mondo, i registri DNS sono molto utili per scoprire i domini.
2) Registrar di domini.
Scoperta della pagina Web:
1) La risposta di Alon Amit (אלו ע עמית).
2) Google Toolbar / Google Omnibox / Mozilla Suggerimenti / IE Suggerimenti :
Google/Bing fare uso molto molto pesante di dati toolbar/omnibox. Ogni volta che un utente visita la pagina, la richiesta viene registrata dal browser/barra degli strumenti. I log del browser / barra degli strumenti sono una fonte molto ricca di segnali per la scoperta e la classificazione degli URL. Supponendo che una pagina sia visitata da almeno una persona, il creatore, Google può scoprirla dai log.
3) Partner:
Twitter / Facebook firehose feed contiene URL che vengono condivisi sui social network. La scansione è generalmente un processo molto lento. Ci vogliono ovunque da 12 ore – 14 giorni per eseguire la scansione di tutto il web (Google conosce circa un trilione di URL, Bing conosce circa 800 miliardi di URL). Per alcune ricerche speciali, come Notizie, è più veloce per ottenere gli URL da feed firehose.
I feed dei partner sono costosi. Non sono molto utili per migliorare la copertura. Sono utili solo per una scoperta più rapida.
4) Mappa del sito.xml / RSS feeds:
I proprietari di siti web possono comunicare la struttura e le pagine orfane del sito web al motore di ricerca utilizzando sitemap.XML.