Découverte de domaine:
1) DNS Google: Presque chaque fois que vous visitez un site Web, il doit obtenir l’adresse IP du site Web. Google DNS est un DNS très populaire dans le monde entier, les journaux DNS sont très utiles pour découvrir des domaines.
2) Bureaux d’enregistrement de domaine.
Découverte de la page Web:
1) Réponse d’Alon Amit (אלוןממית).
2) Suggestions Google Toolbar / Google Omnibox / Mozilla / Suggestions IE:
Google / Bing utilisent très très fortement les données de la barre d’outils / omnibox. Chaque fois qu’un utilisateur visite la page, la demande est enregistrée par le navigateur / la barre d’outils. Les journaux du navigateur / de la barre d’outils sont une source très riche de signaux pour la découverte et le classement des URL. En supposant qu’une page soit visitée par au moins une personne, le créateur, Google peut la découvrir à partir des journaux.
3) Partenaires :
Le flux firehose Twitter/Facebook contient des URL partagées sur les réseaux sociaux. Ramper est généralement un processus très lent. Il faut entre 12 heures et 14 jours pour parcourir l’ensemble du Web (Google connaît environ un billion d’URL, Bing en connaît environ 800 milliards). Pour certaines recherches spéciales, comme les nouvelles, il est plus rapide d’obtenir les URL des flux firehose.
Les flux de partenaires sont coûteux. Ils ne sont pas très utiles pour améliorer la couverture. Ils ne sont utiles que pour une découverte plus rapide.
4) Plan du site.flux XML / RSS:
Les propriétaires de sites Web peuvent communiquer la structure et les pages orphelines du site Web au moteur de recherche à l’aide du plan du site.XML.