Domain Discovery:
1) Google DNS : lähes joka kerta, kun vierailet sivustolla, sen täytyy saada sivuston IP-osoite. Google DNS on erittäin suosittu DNS ympäri maailmaa, DNS lokit ovat erittäin hyödyllisiä löytämässä verkkotunnuksia.
2) Verkkotunnusrekisteröijät.
Web Page Discovery:
1) Alon Amitin vastaus.
2) Google Toolbar / Google Omnibox / Mozilla Suggestions / IE Suggestions :
Google/Bing käyttävät työkalupalkin/omniboxin tietoja erittäin paljon. Aina kun käyttäjä vierailee sivulla, pyyntö kirjataan selaimen/työkalupalkin kautta. Browser/Toolbar lokit ovat erittäin rikas lähde signaaleja URL löytö ja sijoitus. Olettaen, että sivulla vierailee vähintään yksi henkilö, luoja, Google voi löytää sen lokit.
3) Partners :
Twitter/Facebook firehose feed sisältää URL-osoitteita, joita jaetaan yhteisöpalveluissa. Indeksointi on yleensä hyvin hidas prosessi. Se kestää missä tahansa 12 tuntia – 14 päivää indeksoida koko web (Google tietää noin biljoona URL, Bing tietää noin 800 miljardia URL). Joihinkin erikoishakuihin, kuten uutisiin, on nopeampi saada URL-osoitteet firehose-syötteistä.
Kumppanirehut ovat kalliita. Ne eivät ole kovin hyödyllisiä kattavuuden parantamiseksi. Niistä on hyötyä vain nopeampaan löytämiseen.
4) sivukartta.xml / RSS-syötteet :
verkkosivujen omistajat voivat viestittää verkkosivun rakenne-ja orvosivut hakukoneelle sivukarttaa käyttäen.xml.