descoperirea domeniului:
1) Google DNS: aproape de fiecare dată când vizitați un site web, acesta trebuie să obțină adresa IP a site-ului web. Google DNS este DNS foarte popular în întreaga lume, jurnalele DNS sunt foarte utile pentru descoperirea domeniilor.
2) Registratori De Domenii.
descoperirea paginii Web:
1) Răspunsul lui Alon Amit (inkt.
2) Google Toolbar / Google Omnibox / Mozilla sugestii / sugestii IE :
Google/Bing face utilizarea foarte foarte grele de date bara de instrumente/caseta polivalentă. Ori de câte ori un utilizator vizitează pagina, cererea este înregistrată de browser/bara de instrumente. Busteni Browser / bara de instrumente sunt sursă foarte bogată de semnale pentru descoperirea URL-ul și clasament. Presupunând că o pagină este vizitată de cel puțin o persoană, creatorul, Google o poate descoperi din jurnale.
3) parteneri:
Twitter/Facebook firehose feed conține URL-uri care sunt partajate pe rețelele sociale. Crawling este, în general, un proces foarte lent. Este nevoie de 12 ore – 14 zile pentru a accesa cu crawlere întregul web (Google știe despre un trilion de adrese URL, Bing știe despre 800 de miliarde de adrese URL). Pentru unele căutări speciale, cum ar fi știri, este mai rapid să obțineți adresele URL din fluxurile firehose.
feed-uri partenere sunt costisitoare. Ele nu sunt foarte utile pentru îmbunătățirea acoperirii. Ele sunt utile doar pentru o descoperire mai rapidă.
4) Harta site-ului.xml / RSS feeds:
proprietarii site-ului web pot comunica structura și paginile orfane ale site-ului către motorul de căutare folosind sitemap.xml.