Domain Discovery:
1) Google DNS : Fast jedes Mal, wenn Sie eine Website besuchen, muss die IP-Adresse für die Website abgerufen werden. Google DNS ist sehr beliebt DNS auf der ganzen Welt, DNS-Protokolle sind sehr nützlich für die Erkennung von Domains.
2) Domain-Registrare.
Entdeckung der Webseite :
1) Antwort von Alon Amit (حלון עמית).
2) Google Toolbar / Google Omnibox / Mozilla-Vorschläge / IE-Vorschläge:
Google / Bing nutzt Toolbar / Omnibox-Daten sehr stark. Jedes Mal, wenn ein Benutzer die Seite besucht, wird die Anforderung vom Browser / der Symbolleiste protokolliert. Browser- / Symbolleistenprotokolle sind eine sehr reichhaltige Signalquelle für die Erkennung und das Ranking von URLs. Angenommen, eine Seite wird von mindestens einer Person, dem Ersteller, besucht, kann Google sie anhand der Protokolle ermitteln.
3) Partner :
Twitter / Facebook firehose Feed enthält URLs, die in sozialen Netzwerken geteilt werden. Crawling ist im Allgemeinen ein sehr langsamer Prozess. Es dauert zwischen 12 Stunden und 14 Tagen, um das gesamte Web zu crawlen (Google kennt ungefähr eine Billion URLs, Bing kennt ungefähr 800 Milliarden URLs). Für einige spezielle Suchanfragen wie Nachrichten ist es schneller, die URLs aus Firehose-Feeds abzurufen.
Partnerfeeds sind teuer. Sie sind nicht sehr nützlich, um die Abdeckung zu verbessern. Sie sind nur für eine schnellere Entdeckung nützlich.
4) Sitemap.xml / RSS-Feeds :
Websitebesitzer können die Struktur und die verwaisten Seiten der Website mithilfe der Sitemap an die Suchmaschine übermitteln.XML.