descoberta de domínio:
1) DNS do Google: quase toda vez que você visita um site, ele precisa obter o endereço IP do site. O DNS do Google é um DNS muito popular em todo o mundo, os registros DNS são muito úteis para descobrir domínios.
2) Registradores De Domínio.
descoberta da página da Web:
1) Resposta de Alon Amit (אלו ע עמית).
2) Google Toolbar / Google Omnibox / Mozilla sugestões / IE sugestões:
Google / Bing fazer uso muito muito pesado de barra de ferramentas / omnibox dados. Sempre que um usuário visita a página, a solicitação é registrada pelo navegador/barra de ferramentas. Os logs do navegador / barra de ferramentas são uma fonte muito rica de sinais para descoberta e classificação de URL. Supondo que uma página seja visitada por pelo menos uma pessoa, o criador, o Google pode descobri-la nos logs.
3) parceiros:
Twitter / Facebook firehose feed contém URLs que estão sendo compartilhados em redes sociais. O Rastreamento Geralmente é um processo muito lento. Leva de 12 horas a 14 dias para rastrear toda a web (o Google sabe sobre um trilhão de URLs, O Bing conhece cerca de 800 bilhões de URLs). Para algumas pesquisas especiais, como notícias, é mais rápido obter os URLs dos feeds firehose.
os feeds de parceiros são caros. Eles não são muito úteis para melhorar a cobertura. Eles são úteis apenas para descobertas mais rápidas.
4) Mapa do site.xml / RSS feeds:
os proprietários de sites podem comunicar a estrutura e as páginas órfãs do site para o mecanismo de pesquisa usando o sitemap.xml.