Come si esegue 100 miliardi di ricerche web al mese?
Google ha dato una sbirciatina all’interno di come funziona la ricerca sul web oggi, rivelando alcuni numeri affascinanti nel processo.
La ricerca inizia, ovviamente, con la scansione e l’indicizzazione, e Google dice che il web ora ha 30 trilioni di pagine individuali uniche. Che un sorprendente 30 volte in cinque anni: Google ha riferito nel 2008 che il web aveva solo un trilione di pagine.
Google dice che memorizza le informazioni su quei 30 trilioni di pagine nell’indice di Google, che ora è a 100 milioni di gigabyte. Si tratta di circa un migliaio di terabyte, e avresti bisogno di oltre tre milioni di thumb drive USB da 32 GB per memorizzare tutti quei dati.
Quando si cerca, Google cerca di capire non solo quello che stai digitando nella casella, ma cosa vuoi dire. Quindi gli algoritmi per l’ortografia, il completamento automatico, i sinonimi e la comprensione delle query entrano in azione. Quando Google pensa di sapere cosa vuoi, tira i risultati da quei 30 trilioni di pagine e 100 milioni di gigabyte, ma non ti dà solo ciò che trova.
Innanzitutto, una procedura di classificazione utilizza oltre 200 fattori segreti strettamente custoditi che guardano alla freschezza dei risultati, alla qualità del sito web, all’età del dominio, alla sicurezza e all’appropriatezza del contenuto e al contesto dell’utente come posizione, ricerche precedenti, cronologia e connessioni di Google+ e molto altro.
Quindi, in poco più di un ottavo di secondo, Google consegna i risultati al tuo computer, tablet o telefono.
Per testare quanto bene le sue ricerche stanno effettivamente eseguendo, Google utilizza anche real-live humans: search evaluators. Quarantamila volte l’anno, i tester di ricerca di Google controllano i risultati, vedono cosa funziona e forniscono suggerimenti su come migliorare.
E che dire dello spam web?
Web spam è pagine inutili che sono realizzati per classificare bene su Google, attirare la vostra attenzione e clic, e poi monetizzare i bulbi oculari o clic fuori da qualche altra parte. Google ha detto che notifica i siti che li considera spam, o che sono stati violati, ad un tasso di 40.000-60.000 al mese.
photo credit: Stéfan via photopin cc
VentureBeat
La missione di VentureBeat è quella di essere una piazza cittadina digitale per i decisori tecnici per acquisire conoscenze sulla tecnologia e sulle transazioni trasformative.Il nostro sito fornisce informazioni essenziali sulle tecnologie dei dati e sulle strategie per guidarti mentre guidi le tue organizzazioni. Vi invitiamo a diventare un membro della nostra comunità, per accedere:
- informazioni aggiornate sugli argomenti di tuo interesse
- le nostre newsletter
- contenuti di leader di pensiero gated e accesso scontato ai nostri eventi preziosi, come Transform 2021: Scopri di più
- funzionalità di rete e altro ancora
Diventa membro