ドメイン検出:
1)Google DNS:ウェブサイトにアクセスするたびに、ウェブサイトのIPアドレスを取得する必要があります。 Google DNSは世界中で非常に人気のあるDNSであり、DNSログはドメインを発見するのに非常に便利です。
2)ドメインレジストラ。
Webページの発見:
1)Alon Amit(אלון עמית)の答え。
2)Google Toolbar/Google Omnibox/Mozilla Suggestions/IE Suggestions:
Google/Bingはtoolbar/omniboxデータを非常に頻繁に使用します。 ユーザーがページを訪問するたびに、要求はブラウザ/ツールバーによってログに記録されます。 ブラウザ/ツールバーのログは、URLの検出とランキングのための信号の非常に豊富なソースです。 ページが少なくとも一人の人、作成者によって訪問されたと仮定すると、Googleはログからそれを発見することができます。
3)パートナー:
Twitter/Facebook firehoseフィードには、ソーシャルネットワーク上で共有されているUrlが含まれています。 クロールは、一般的に非常に遅いプロセスです。 ウェブ全体をクロールするのに12時間から14日かかります(Googleは1兆個のUrlを知っています、Bingは約8000億個のUrlを知っています)。 ニュースのようないくつかの特別な検索では、firehoseフィードからUrlを取得する方が高速です。
彼らはカバレッジを改善するために非常に有用ではありません。 これらは、より高速な発見のためにのみ有用です。
4)サイトマップ.xml/RSSフィード:
ウェブサイトの所有者は、サイトマップを使用して、ウェブサイトの構造と孤立したページを検索エンジンに伝えることができます。xml。