Accueil / Notes de lecture / Culturomics : le numérique et la culture

Culturomics : le numérique et la culture

Publié en ligne le 5 août 2013
Note de lecture de Martin Brunschwig

Nul ne peut en douter : cette avancée du numérique change la nature de la science, de la culture, de l’art et de l’économie. (p.16)

De même que le feu a changé notre rapport aux aliments, le postulat de ce livre est que l’outil influe sur le contenu et, en l’occurrence, que la numérisation récente de millions de livres par Google change « le monde de la culture et ce qu’on peut en savoir ». Jean-Paul Delahaye, professeur à l’Université de Lille et collaborateur occasionnel de notre revue, et Nicolas Gauvrit, maître de conférences à l’Université d’Artois et membre de notre comité de rédaction, nous présentent en effet les recherches qu’ils ont effectuées, permises par ce projet un peu fou. Mais pas un mot sur les batailles épiques qui ont entouré ce projet devant aboutir à la numérisation de dizaines de millions de livres et, à terme, de tous les livres si possible ! Ce projet pharaonique était en cours quand des procès ont interrompu sa réalisation, en raison des nombreuses violations des droits d’auteur, puisque Google s’était adressé aux bibliothèques et non aux éditeurs. Ce n’était certes pas le sujet du livre, mais il m’aurait paru intéressant de résumer ces épisodes pour situer un peu le contexte de cette numérisation.

En fait, ce que les auteurs nous présentent, ce sont les déductions que l’on peut faire grâce au corpus gigantesque obtenu sous forme de base de données unique : vous connaissez tous la fonction « rechercher » ? Eh bien, imaginez un peu ce que l’on peut obtenir dans un tel méga-texte, et tout ce qui tend les bras aux futurs chercheurs qui auront le projet de se plonger là-dedans ! Les textes numérisés commençant au 18ème siècle, on peut donc étudier les évolutions dans la fréquence d’utilisation des termes : dater par exemple l’apparition des mots désignant les objets modernes et voir le moment où ils commencent à entrer dans le langage courant 1 ; constater l’évolution des mœurs à travers celle de certains termes (comme l’apparition de l’adolescence, ou la montée en puissance de la pédagogie) ; étudier la notoriété des personnages célèbres, etc.

Les auteurs se servent aussi de ces recherches nouvelles pour expliciter plusieurs notions intéressantes, comme la typicité des mots (pourquoi la pomme plutôt que la papaye pour illustrer ce qu’est un fruit ?), les catégorisations (parler de chien plus volontiers que de mammifère – trop vague – ou à l’inverse, de caniche – trop précis…) et bien d’autres réalités psychologiques (biais de positivité, effet du premier cité…) ou sociales (avec par exemple un chapitre passionnant sur l’évaluation des chercheurs).

Mais j’avoue qu’on est tout de même constamment pris entre deux feux : soit considérer le côté trop anecdotique de la démarche, qui paraît tout de même un peu limitée par cet aspect quantitatif, soit être décontenancé par certaines conclusions que les auteurs tirent de leurs études. Quand par exemple les fautes d’orthographes sont étudiées (pour voir si le déclin dont on nous rebat les oreilles est une réalité), est-il bien raisonnable d’utiliser pour ce faire les écrits publiés ? Éventuellement, on pourra s’amuser d’une orthographe variable (« autant pour moi » ou « au temps pour moi » 2 ?) ou constater que les éditeurs et relecteurs laissent passer des coquilles. Mais comment en tirer la moindre conclusion sur le niveau orthographique de la population ? Sans même parler du fait que les textes publiés sont le fait d’une certaine élite qui écrit, il va de soi que ce ne sera pas représentatif.

Cela dit, les auteurs ne cessent de faire preuve d’une grande prudence dans leurs conclusions et précisent souvent eux-mêmes les fragilités de certaines recherches. Mais du coup, ce livre, à la lecture facile et agréable, nous laisse parfois un peu méfiants : on s’y instruit, on s’y amuse, on s’y interroge, on y fait des découvertes, mais il est parfois difficile de faire un tri précis pour savoir où et quand on fait quoi exactement !

1 À noter que le mot « Internet » apparaît au 19ème siècle… Les auteurs utilisent cet exemple pour illustrer les nombreuses erreurs et artefacts induits aussi par un tel gigantisme.

2 Ou « OTAN pour moi », comme les auteurs l’écrivent avec humour !


Partager cet article