Comment Google recherche 30 billions de pages Web, 100 milliards de fois par mois

large_3951143570 Comment exécutez-vous 100 milliards de recherches Web par mois?

Google a donné un aperçu du fonctionnement de la recherche sur le Web aujourd’hui, révélant des chiffres fascinants dans le processus.

La recherche commence, bien sûr, par l’exploration et l’indexation, et Google dit que le Web a maintenant 30 billions de pages individuelles uniques. Cela a augmenté de 30 fois en cinq ans: Google a rapporté en 2008 que le Web ne comptait que mille milliards de pages.

Google dit qu’il stocke des informations sur ces 30 billions de pages dans l’index Google, qui est maintenant à 100 millions de gigaoctets. Cela représente environ mille téraoctets, et vous auriez besoin de plus de trois millions de clés USB de 32 Go pour stocker toutes ces données.

 Capture d'écran 2013-03-01 à 12.39.51 PM Lorsque vous effectuez une recherche, Google essaie de comprendre non seulement ce que vous tapez dans la boîte, mais ce que vous voulez dire. Ainsi, les algorithmes d’orthographe, d’autocomplétion, de synonymes et de compréhension des requêtes entrent en action. Lorsque Google pense savoir ce que vous voulez, il tire les résultats de ces 30 billions de pages et 100 millions de gigaoctets, mais il ne vous donne pas seulement ce qu’il trouve.

Premièrement, une procédure de classement utilise plus de 200 facteurs secrets étroitement gardés qui examinent la fraîcheur des résultats, la qualité du site Web, l’âge du domaine, la sécurité et la pertinence du contenu, et le contexte de l’utilisateur comme l’emplacement, les recherches antérieures, l’historique et les connexions Google+, et bien plus encore.

Ensuite, en un peu plus d’un huitième de seconde, Google transmet les résultats à votre ordinateur, tablette ou téléphone.

Pour tester la performance réelle de ses recherches, Google utilise également des humains réels: des évaluateurs de recherche. Quarante mille fois par an, les testeurs de recherche de Google vérifient les résultats, voient ce qui fonctionne et fournissent des suggestions sur la façon de s’améliorer.

Et qu’en est-il du spam Web?

Le spam Web est une page inutile conçue pour bien se classer sur Google, attirer votre attention et vos clics, puis monétiser vos globes oculaires ou vos clics ailleurs. Google a déclaré qu’il notifiait aux sites qu’il les considérait comme du spam, ou qu’ils avaient été piratés, à un rythme de 40 000 à 60 000 par mois.

crédit photo: Stéfan via photopin cc

VentureBeat

La mission de VentureBeat est d’être une place de ville numérique pour les décideurs techniques afin d’acquérir des connaissances sur les technologies transformatrices et les transactions.Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider à la tête de vos organisations. Nous vous invitons à devenir membre de notre communauté, à accéder:

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • un contenu de leader d’opinion fermé et un accès à prix réduit à nos événements prisés, tels que Transform 2021: En savoir plus
  • fonctionnalités de réseautage, etc.

Devenir membre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.