Le E-commerce pour tous : infos, actus et conseils pratiques

Mesure d’audience sur Internet (1/3)

Pourquoi des écarts dans les résultats ?

Audience
Pour analyser les performances d’un site Web, on peut utiliser différents outils (The Webalizer, WebTrends, Google Analytics, …) qui semblent nous fournir les « mêmes » informations comme, par exemple, le nombre de visites.

Or, lorsque nous regardons de plus près les résultats, nous nous apercevons qu’il existe des écarts entre les informations fournies par ces différents outils.

D’ailleurs, nombreux de nos clients nous posent souvent cette question :

Pourquoi existe-t-il des écarts de visites entre Webalizer et Google Analytics ?

Deux techniques très différentes sont en fait utilisées pour la mesure d’audience : l’analyse des journaux d’accès (type Webalizer) et le marquage des pages (type Google Analytics).

Sujet complexe que nous ne pouvons pas résumer en quelques lignes. Nous avons donc décidé de vous expliquer les raisons de ces écarts dans 3 articles. Pour commencer, dans ce 1er billet, nous allons aborder le fonctionnement du serveur Web (afin de poser les bases) et expliquer la première méthode : l’analyse des journaux d’accès.

Le Serveur Web

ServeursLors de la consultation d’un site Internet, deux éléments principaux entrent en ligne de compte : le navigateur d’un coté et un serveur Web de l’autre.

Le serveur Web est un logiciel, développé selon une norme de communication : le protocole HTTP (rfc 2616).

Cette norme commune permet à tous les navigateurs de discuter avec tous les serveurs Web indifféremment ! Même un navigateur développé en Norvège tel Opera est capable d’interroger un serveur Web américain tel que Microsoft Internet Information Server (vous avez dit Babel ?) !

Cette norme définit de façon extensive le langage d’interrogation d’un serveur Web. On y trouve, entre autres, la manière d’adresser des ressources (les URI rfc 2396), les façons d’écrire les dates, les heures, et les nombres, … et tout un langage d’échange d’informations entre le client http (p. ex. un navigateur) et le serveur.

Le serveur Web est donc un logiciel de traduction, qui convertit les demandes respectant cette norme en une ressource valide « en local ».

Les requêtes sur le serveur

Les serveurs Web ne comprennent pas les notions de session de navigation, de page d’entrée (ou de sortie), et ne font pas de différence entre une page, ses dépendances ou toute autre forme de document téléchargeable.

Pour eux, un site Internet est composé de ressources (html, images, css, pdf, …) auxquelles on accède par des requêtes unitaires (ou Hits). On appelle requête l’action d’un navigateur d’interroger une ressource d’un serveur.

Les journaux d’accès (access log)

Tout au long de son fonctionnement, un serveur Web va maintenir, pour des raisons de traçabilité, un journal détaillé des requêtes qui lui ont été faites, et des réponses qu’il y a apportées.

Ces journaux d’accès sont stockés et archivés sur le serveur. Ils contiennent tout un lot d’informations, par exemple :

  • Qui a fait la demande ?
  • Quand a-t-elle été faite ?
  • Sur quelles ressources elle portait ?
  • Quel code a été renvoyé par le serveur en retour ? (Code 200 => ok / Code 301=> ressource déplacée / Code 404 => ressource introuvable / …)
  • Quelle est la taille des données envoyées à l’internaute ?
  • Quel était le référent, c’est-à-dire l’emplacement où le lien vers la ressource a été trouvée  (comme le nom de la page pour une image de fond ou la page précédente pour une nouvelle page, …) ?
  • Quel était le navigateur utilisé (ou UserAgent) ?

Exemple d’extrait de journal :

127.0.0.1 – frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

Ici on voit qu’un ordinateur dont l’adresse est 127.0.0.1 a demandé au serveur la ressource /apache_pb.gif car elle fait partie de la page http://www.example.com/start.html. Cette ressource a été transmise correctement (le code 200), et faisait exactement 2326 octets.

On voit aussi que l’utilisateur, dont le navigateur est Mozilla/4.08 (Netscape Navigator 4 pour les vieux de la vielle .. ça ne nous rajeunit pas tout ça) tourne sur un système d’exploitation Microsoft Windows 98 (si, si, il y avait des ordinateurs avant Windows XP !).

Et enfin l’utilisateur a dû s’identifier auprès du serveur pour accéder à cette ressource, et son identifiant est frank.

La mesure d’audience par analyse de journaux

La première méthode de mesure d’audience existante a été basée sur ces journaux, il existe de nombreux outils de ce type : The Webalizer, awstats, Sawmill, Mint

Ces outils vont parcourir le journal produit par le serveur pour en extraire des informations utiles, par exemple les pages vues ou les visites.

Pour ces outils, des règles doivent être définies, par un administrateur système ou par les concepteurs du logiciel pour différentier les ressources (p. ex. « toutes les URLs en .html sont des pages, le reste non »).

Quant à une visite, elle est l’ensemble des requêtes effectuées à différentes pages par un même couple adresse IP + UserAgent, et ce avec un temps limité entre deux accès à une page (p. ex. moins de 30 minutes entre deux requêtes).

La définition d’une page ou d’une visite n’est donc pas forcement cohérente entre deux logiciels différents, même s’ils utilisent la même technique à la base.

Les limites des analyseurs de journaux d’accès

Même si cette méthode reflète un état exact de l’activité générée par le serveur, elle n’est pas parfaite pour la mesure d’audience.

Elle inclut, en effet, des données pouvant être inutiles pour analyser l’activité « humaine » du site Internet.
Dans certains cas, cette technique peut aussi ignorer des visites ou des affichages de pages. Par exemple, quand le serveur Web fournit une date d’expiration pour une ressource, les navigateurs ont la possibilité de stocker la ressource et de l’afficher plusieurs fois sans avoir à la redemander au serveur Web, et donc sans que cet affichage ne soit comptabilisé.

De ce fait, cette méthode montre de grosses faiblesses pour distinguer les visiteurs « humains » des robots, ainsi que pour analyser les comportements de navigation.

Exemples de données comptabilisées par les analyseurs de journaux d’accès :

  • les erreurs (404 : page introuvable, pouvant alerter de visites perdues ou d’erreurs dans la conception du site / 401 : tentative d’accès à une ressource protégée… ),
  • le suivi des redirections (301/302),
  • les différentes requêtes des systèmes d’aspiration de site,
  • celles réalisées par les robots d’indexation des moteurs de recherche,

Nous bouclons ainsi le « programme » d’aujourd’hui. Nous vous donnons rendez-vous très prochainement pour la suite de ce billet. Nous y aborderons une autre technique de mesure d’audience : les marquages des sites Web.

Nous pourrons ainsi relever les différences fondamentales entre les solutions basées sur les journaux et celles utilisant le marquage de site… Les mesures des performances n’étant pas établies selon les mêmes critères…

Benoit Plessis – Infrastructure, Système & Réseau

Crédits : DWP / shinigamirem / sellingpix ©Fotolia

Vous pouvez laisser un commentaire, ou faire un trackback de votre site.

Commentaires sur sur l'article “Mesure d’audience sur Internet (1/3)”

  1. Séthy David dit :

    Merci pour cette article, j’ai vraiment hâte de lire les suivants.

Commentez cet Article :

*