Comment Google traite-t-il les mots-clés ?

Depuis une dizaine d'années, Google ne traite pas les mots, mais le sens, si bien que la stratégie relative aux mots-clés en SEO a beaucoup changé (voir à ce sujet pour plus de détails la page : https://www.cyberscope.fr/agence-webmarketing/seo-referencement-naturel/).

Structuration des contenus des pages de manière interprétable par le moteur et analyse de la pertinence

Dans sa base, Google remplace les contenus de chaque page par une représentation de ce contenu.

Dans une première étape, le texte est transformé en un sac-de-mots, sans grammaire, articles, pluriel/singulier, masculin/féminin ni ordre des mots. Cette sélection des contenus conservés s'appelle la lemmatisation. Le vecteur de la page est ensuit construit, avec autant de composantes qu'ils contient de termes, chacun ayant un poids différent. Il existe différentes fonctions de poids. La TF-IDF comprend de l’information locale (TF, pour Term Frequency, qui se calcule en divisant le nombre d’apparition du terme par le nombre d’apparitions du terme le plus courant de la page) et de l’information globale (l’IDF, pour Inverse Document Frequency, qui consiste à donner un poids plus important aux termes rares).

Analyse de la pertinence

Une requête étant aussi un document, elle est transformée en vecteur. Pour déterminer les pages les plus pertinentes, le moteur regarde les vecteurs (donc les pages) les plus proches du vecteur de la requête. La méthode employée est une mesure de similarité, par exemple avec le cosinus de Salton. En réalité, celui-ci n'est pas assez efficace pour la mesure de pertinence, les moteurs utilisant plutôt une autre fonction, OKAPI BM25.

La technique d'analyse de la similarité via le cosinus de Salton est en revanche bien utilisée pour comparer les pages entre elles. L'objectif est de regrouper des pages au sein de clusters thématiques.

 Les mesures de similarité ne donnent pas de bons résultats immédiats, si bien qu'ils doivent être corrigés grâce aux retours donnés par les internautes. L'algorithme de Rocchio vise à reformuler les requêtes. Les requêtes sont effet souvent trop courtes pour que le moteur puisse proposer les résultats souhaités. La méthode de Rocchio calcule un nouveau vecteur en modifiant le vecteur de la requête afin qu'il se rapproche du centre de gravité des documents jugés pertinents par les utilisateurs. Pour cela, à la requête de base sont ajoutés des termes situés dans le champ lexical des pages considérées pertinentes par les internautes, en privilégiant les mots co-occurents.

Le modèle vectoriel ayant des limites, de nombreux algorithmes sont utilisés simultanément pour compenser ses faiblesses. Cela peut aussi aider à identifier des patterns susceptibles d'être pénalisés par un filtre (ie. Panda).

Pour le SEO, il est recommandé d'inclure dans ses textes les termes co-occurrents à la requête visée le besoin informationnel et ceux co-occurrents dans les pages web bien classées.