Descubrimiento de dominio:
1) DNS de Google: Casi cada vez que visita un sitio web, necesita obtener la dirección IP del sitio web. El DNS de Google es un DNS muy popular en todo el mundo, los registros de DNS son muy útiles para descubrir dominios.
2) Registradores de dominios.
Descubrimiento de páginas web:
1) Respuesta de Alon Amit (אלון עמית).
2) Barra de herramientas de Google / Omnibox de Google / Sugerencias de Mozilla / Sugerencias de IE:
Google / Bing hacen un uso muy intensivo de los datos de la barra de herramientas/omnibox. Cada vez que un usuario visita la página, la solicitud se registra en el navegador/barra de herramientas. Los registros de navegador/barra de herramientas son una fuente muy rica de señales para el descubrimiento y clasificación de URL. Suponiendo que una página es visitada por al menos una persona, el creador, Google puede descubrirla a partir de los registros.
3) Socios:
El feed de firehose de Twitter/Facebook contiene direcciones URL que se comparten en las redes sociales. El rastreo es generalmente un proceso muy lento. Se tarda entre 12 horas y 14 días en rastrear toda la web (Google conoce un billón de URLs, Bing conoce unos 800 mil millones de URLs). Para algunas búsquedas especiales, como Noticias, es más rápido obtener las URL de los feeds de firehose.
Las fuentes de socios son costosas. No son muy útiles para mejorar la cobertura. Solo son útiles para un descubrimiento más rápido.
4) Mapa del sitio.fuentes XML / RSS:
Los propietarios de sitios web pueden comunicar la estructura y las páginas huérfanas del sitio web al motor de búsqueda utilizando sitemap.XML.