Domain Discovery:
1) Google DNS : nästan varje gång du besöker en webbplats måste den få IP-adressen för webbplatsen. Google DNS är mycket populär DNS runt om i världen, DNS-loggar är mycket användbara för att upptäcka domäner.
2) Domänregistratorer.
Web page upptäckt:
1) Alon Amit (XHamster) svar.
2) Google Toolbar / Google Omnibox / Mozilla förslag / IE förslag :
Google/Bing gör mycket mycket tung användning av verktygsfält/omnibox data. När en användare besöker sidan loggas begäran av webbläsaren / verktygsfältet. Webbläsare / verktygsfält loggar är mycket rik källa av signaler för URL upptäckt och ranking. Förutsatt att en sida besöks av minst en person, skaparen, kan Google upptäcka den från loggarna.
3) Partners :
Twitter/Facebook firehose-flöde innehåller webbadresser som delas på sociala nätverk. Crawling är i allmänhet mycket långsam process. Det tar allt från 12 timmar – 14 dagar att genomsöka hela webben (Google vet om en biljon webbadresser, Bing vet om 800 miljarder webbadresser). För vissa speciella sökningar, som nyheter, är det snabbare att få webbadresserna från firehose-flöden.
partnerflöden är kostsamma. De är inte särskilt användbara för att förbättra täckningen. De är bara användbara för snabbare upptäckt.
4) webbplatskarta.xml / RSS-flöden:
webbplatsägare kan kommunicera webbplatsens struktur och föräldralösa sidor till sökmotorn med webbplatskarta.xml.