Ce texte reprend mon exposé à la séance d’Ars Industrialis, le 05/11/2005, consacrée aux concepts et pratiques des technologies cognitives à partir de la question des bibliothèques numériques.
Lors de cette séance sont intervenus Jean Max Noyer, Philippe Aigrain, et Bernard Stiegler. Vous trouverez leurs textes sur le site d’Ars Industrialis.
dire : ce sont nos livres
Le point qui m’a le plus étonné dans le débat qui a suivi l’annonce de Google Print et l’intervention de J-N Jeanneney, c’est qu’on a tout de suite brodé sur les chiffres, sans discuter le contenu des programmes de numérisation.
Nous pouvons appeler cette question : la question de la référence, ou, plus simplement, la question du texte, c’est à dire de son oubli.
Je ne sais pas s’il faut considérer toute culture comme secondaire, mais c’est le cas, à coup sûr de la nôtre : relation, par exemple, de l’occident chrétien avec ses sources religieuses juives, philosophiques et scientifiques grecques, juridiques et politiques romaines.
La référence fait question, et il y a une généalogie de cette question que Pierre Legendre en particulier a problèmatisée. Pour assurer cette relation aux sources culturelles, à la référence – ce que Legendre appelle le « vol d’ancêtre » - il faut un montage tout à la fois symbolique et technique. Ce montage nécessite, mais aussi il l’anime, une croyance, cela qui nous pousse à dire : ces références sont les nôtres ; nous sommes les lecteurs de ces textes.
La bibliothèque est une des institutions traditionnelles et centrales de ce montage. Au moyen de la bibliothèque, les hommes, le plus souvent à travers le pouvoir politique, désignent des textes, les nomment, les assemblent et disent : ce sont nos textes, gardons les pour pouvoir les lire.
Il est donc assez intéressant de constater que, dans la courte histoire des bibliothèques numériques, le pouvoir semble s’être fixé pour règle d’éviter la question de la référence.
Il n’y a pas lieu d’accabler les commentateurs qui se sont spontanément concentrés sur la question des chiffres ou des formats, puisque tout nous prépare à considérer cette question : la bibliothèque numérique, en oubliant de demander: quels livres, quels textes dans la bibliothèque ?
collection organisée
Evidemment (c’est presque l’ABC de la science des bibliothécaires) la question du texte ne se pose pas isolément : la signification de chaque texte est spécifiée par sa place au sein de la collection.
La bibliothèque de l’Institut Mémoires de l’Edition Contemporaine, par exemple, est une bibliothèque de bibliothèques, et, comme telle, un bon observatoire de l’effet de sens que produit la collection sur le texte.
A l’examen, les bibliothèques rattachées aux auteurs dont l’IMEC a les archives relèvent de plusieurs types : la bibliothèque des livres écrits par l’auteur, la bibliothèque des livres écrits sur l’auteur, la bibliothèque personnelle de l’auteur, et, parfois, une bibliothèque des livres mentionnés par lui. Chacune de ces bibliothèques a sa propre organisation, son intelligence de collection, qui seraient inévitablement perdues si tous les livres étaient redistribués dans une collection unique.
Autrement dit le projet de bibliothèque numérique doit dire en quoi ces textes numériques se distinguent des autres, en quoi ils forment une collection.
Un point absolument central du projet de bibliothèque numérique de la Bibliothèque de France avait été précisément la constitution d’une telle collection, contre les propositions de numériser « selon des critères de gestion ou de préservation », pratiques habituelles, par exemple, pour les microfiches.
Bien que la question du texte, de la référence soit en quelque sorte égarée dans les débats sur la bibliothèque numérique, le dogme bibliothéconomique selon lequel une bibliothèque numérique, comme toute bibliothèque, devrait être une collection organisée (en quelque sorte une version affaiblie de la question du texte) persiste encore, au moins dans la littérature professionnelle.
On retrouve cette habitude dans le manuel « Digital libraries », publié par le MIT en 2000.
William Arms y insiste sur le point suivant :
« An informal definition of a digital library is a managed collection of information…A key part of this definition is that the information is managed.”
Dans cette définition, le texte a disparu derrière l’information, opération parfois dévolue à l’équivoque notion de « document ». Mais W.Arms qui est un des meilleurs spécialistes de l’informatisation des bibliothèques reprend clairement la notion de collection. Toutefois il semble utiliser indifféremment l’idée d’organisation de l’information et celle d’organisation de la collection.
On avait l’habitude, auparavant, de distinguer le choix du texte, des textes, ce qu’on appelait le corpus, et l’organisation de la collection, ce qu’on appelait l’ordo, ordre qui était lui même un système d’ordres : ordre de la connaissance, ordre de l’étude, ordre de la lecture.
Ce principe, pragmatiquement (le pragmatisme est le mot d’ordre de la bibliothèque numérique; et c’est une grande douceur de vivre dans une époque où chaque chose est simplifiée, facilitée, et comme allégée par ce nouvel esprit pragmatique), pourrait donc être retenu : il y a de bons et de mauvais livres, pourquoi ne pas numériser plutôt les premiers ? certains livres vont assez bien ensemble, ils sont presque habitués à former une société de livres, pourquoi ne pas les numériser ensemble ?
à partir d’un conseil de Pascal Quignard
Dans sa « Rhétorique spéculative », Pascal Quignard oppose Fronton à Sénèque, ce qui n’est pas mal, et donne raison à Fronton, ce qui est beaucoup plus fort.
Je ne sais pas si Quignard va rallier la multitude des lecteurs de Fronton. On a commencé à oublier cet auteur dès les débuts du Moyen Age; c’est le type même du classique latin qui, selon Reynolds et Wilson, a « traversé d’épaisses ténèbres presque sans discontinuer de 550 à 750 » . Dans « Scribes and Scholars » ( « D’Homère à Erasme »), ces historiens anglais font remarquer que, « condamné à avoir toujours le dessous », ses manuscrits étant les premiers que grattaient les copistes, il ne survit que dans trois palimpsestes.
Fronton a écrit des Eloges de la fumée, de la poussière, de la négligence.
Je donne cet exemple pour préciser qu’on ne peut exiger des promoteurs de la bibliothèque numérique, pas plus que de tout bibliothécaire, de nous garantir qu’ils n’auront pas oublié Fronton, que le titre numérisé correspondra toujours à la meilleure édition, et finalement que la collection sera la plus cohérente et la plus systématique.
En revanche, une demande raisonnable, même d’après les critères de l’époque, serait de voir explicités les principes du corpus et de l’ordo : tel livre pour telle collection, pourquoi tel livre et telle collection.
On pourrait ainsi, sur le modèle de ce qui a pu être proposé par Jacques Virbel pour le livre numérique, distinguer deux acceptions de la bibliothèque numérique : le cas où une bibliothèque classique, avec sa propre logique de collection, est « numérisée », et le cas, bien différent, où, un certain nombre de textes étant disponibles sous une forme numérique, leur organisation, en tant que collection, est, dans l’ordre numérique, l’équivalent de la bibliothèque, dans l’ordre des livres imprimés.
Avec un brin de l’habituel laxisme, on peut considérer que « bibliothèque numérisée » et « bibliothèque numérique originale » relèvent du même ensemble.
qu'est ce qu'une bibliothèque européenne ?
Du point de vue de la collection organisée, les différents projets actuels de bibliothèque numérique adoptent ici des approches assez différentes.
Le projet de Bibliothèque Numérique Européenne est passablement évasif sur ce point, malgré les critiques adressées par J-N Jeanneney à Google sur le thème de la sélection. Il s’agirait, si j’ai bien compris, de sommer divers projets nationaux dont certains participent plus d’une politique de « valorisation », voire de préservation, que de la constitution systématique d’une bibliothèque numérique. Il serait certainement préférable d’éviter un patchwork qui n’aurait d’européen et de bibliothèque que le nom.
Le projet Open Content Alliance, avec Yahoo, dont on a surtout souligné les aspects politiquement corrects (domaine public, autorisation, formats), adopte une politique « opt-in » de pré-sélection, finalement assez proche de celle qui a prévalu à l’origine de Gallica : 18 000 ouvrages classiques (« classic works of American literature »).
Je crois que cette orientation reste une des pistes sérieuses pour la bibliothèque numérique européenne elle même. Elle permettrait de poser une question fondamentale : quels sont les livres que les européens reconnaissent en propre comme les leurs ?
De ce point de vue, la bibliothèque numérique européenne pourrait être la première bibliothèque européenne authentique. Par exemple, un programme pourrait s’inspirer d’Alain de Libera (« Penser au Moyen-Age »), et mettre l’accent sur les contributions des cultures juives ou arabes à la Renaissance du XII ème siècle. J’ai peur qu’on ne prenne pas tout à fait ce chemin là puisque – si j’ai bien compris- les français numérisant « en français », les allemands en allemand, etc, on risque fort, par exemple, de ne pas s’occuper du tout de la littérature latine, soit l’essentiel de la science en Europe jusqu’au XVIII ème siècle.
Nécessairement la question des textes des européens devrait être débattue. Il n’y a aucune raison d’y répondre de manière identitariste ou fondamentaliste : pourquoi la BNE ne serait elle pas l’occasion de découvrir la culture byzantine, indienne ou japonaise ?
Je plaide pour que la question du texte soit de nouveau posée, avec la plus grande liberté par rapport à la réalité physique des collections des bibliothèques. Qu’on cherche non pas l’exemplaire que l’on possède en magasin, mais le meilleur et qu’on l’obtienne en coopérant avec les autres bibliothèques : voilà le type de programme culturel que l’Europe pourrait susciter.
L’autonomie par rapport aux collections réelles est d’autant plus importante, qu’à la différence de la BNF pionnière, la bibliothèque numérique européenne ne sera pas, ou pas seulement, la somme de textes numérisés à partir des collections réelles. Elle devra aussi prendre en compte les textes diffusés sous forme numérique, sur le web pour simplifier.
Du point de vue du bibliothécaire, la question de la sélection (quel texte pour quelle collection ?) se pose ici de manière nouvelle : les « contenus internet » ne sont pas médiatisés, c’est à dire validés, comme ils peuvent l’être habituellement par différents intervenants: comités de rédaction, éditeurs, critiques… Le bibliothécaire (à tort) a le sentiment de se retrouver en « première ligne ». En réalité, il se retrouve dans un dispositif de médiation renouvelé.
C’est ici qu’il faut faire intervenir, dans la réflexion, le modèle proposé par Google.
Google : un projet de bibliothèque
Ce projet, pour le moment suspendu, est le plus intéressant à analyser.
Google Print, aujourd’hui « Google Book Search » (« Recherche Google livres »), c’est le refus de choisir : la bibliothèque numérique est la copie de la bibliothèque ou du fonds éditorial papier. La bibliothèque numérique est la bibliothèque numérisée.
Il est clair cependant que l’objectif est bien (voir la version bêta) de créer une seule bibliothèque numérique globale unifiée (cas des nouveautés qui ne devraient pas être numérisées deux fois, chez l’éditeur et dans les bibliothèques). Et ce qu’on ne retrouve pas dans ce projet, c’est la manière dont pourrait être restituée l’intelligence des bibliothèques – des différentes collections. Faisons donc retour sur Google et Google Print.
Google a été fondée, il y a sept ans, par deux informaticiens thésards. Ce point est bien connu et sa publicité permet de réactiver les habituels sophismes sur la technoscience et l’innovation. Moins connu, le fait que, dans l’équipe qui entourait-encadrait Larry Page et Serge Brin se trouvait Terry Winograd, un des champions de l’intelligence artificielle. Et curieusement aussi méconnu, le fait que l’étude était financée par Stanford, dans le cadre du volet « bibliothèques » des autoroutes de l’information, sur un programme précisément appelé « Stanford Digital Library ».
A la base, Google est un moteur de recherche, un outil de calcul à base d’indexation. Mais le point clé, l’idée originale est celle du classement des pages au delà des méthodes habituelles de recherche par indexation. Ce classement, « page ranking », par la « notoriété » (c’est le terme le plus souvent utilisé en français) est défini par Brin et Page comme une « mesure objective de l’importance des citations qui correspond bien avec l’idée subjective que les gens se font de l’importance du texte ». Lisez Brin et Page ici. En résumé, ce qui est mesuré et permet donc de classer les sites, c’est le nombre de liens hypertextuels qui renvoient sur eux.
La notion de citation est ici utile bien qu’elle soit l’exemple même des transpositions dont nous devons nous méfier, surtout lorsqu’elles sont métaphoriques. Le classement sur Google est donc dépendant du travail des lecteurs du web, du nombre de renvois sur un site qu’ils éditent. Mais, au delà, ce classement vaut comme un dispositif hypertextuel d’ensemble, une présentation des différentes césures de l’infinité du web, une organisation des divers parcours de lecture.
Bref la dépendance de Google à l’égard des lecteurs du web est double : individuelle et systémique. A ce titre, Google est fondamentalement une entreprise du monde de l’internet, mobilisant ses valeurs explicites.
Google Print, fils indigne ?
Il y a donc une différence importante entre Google et Google print, c’est le caractère beaucoup plus centralisé du deuxième. L’indexation par mots est la partie commune. Ce qui diffère, (si j’ai bien compris ; dans tout ce paragraphe, je me livre à une analyse assez éloignée des commentaires habituels et j’apprécierais toute critique ou information), c’est l’absence d’utilisation des liens dans Google print. Sur Google print, il semble bien que le classement sera strictement le produit du nombre de demandes ; autrement dit, il repose sur l’audimat et ne sera pas à même de représenter et d’utiliser le réseau des lectures.
Google Print s’éloignerait ainsi de l’hypertexte, de la philosophie du web, des idées même de Google.
S’ajoute à cela, le parti pris, particulièrement décevant, de traiter séparément le web (Google), les livres numérisés (Google Print), et la littérature grise (Google scholar) : on aurait difficilement pu trouver manière plus rustique d’approcher le moteur de recherche multimédia, qui est au programme de la bibliothèque numérique depuis au moins dix ans.
C’est assez cher payer l’abandon du point de vue des bibliothèques – l’oubli de la collection organisée au sein de la collection unique- et des lecteurs considérés, à la différence de la philosophie du web, comme de purs consommateurs.
Le modèle de Google est celui du Grand Lecteur Universel qui organise toutes les collections virtuelles, et prépare toute lecture possible. Je me demande si, à l’occasion de Google Print, une autre piste ne serait pas possible qui consisterait, au contraire, à s’appuyer encore plus sur le travail des lecteurs, la citation, les parcours de lecture, encore plus significatifs peut être dans le cas de textes aussi construits que les livres.
la quantité, une grande question
La solution de Google, pour la bibliothèque numérique, comme pour le web, c’est le détour par la quantité.
La quantité est une grande question de l’histoire des bibliothèques, du livre, et du texte. On pense à Origène, Aboulafia, Lulle, Hugues de Saint Victor, mais aussi Montaigne, ou Leibniz. Dans l’« Advis pour dresser une bibliothèque » avant même d’aborder la question du choix des livres, Gabriel Naudé pose comme premier objectif, la quantité. Il relie cette question à celle de la gloire du prince, ici , Mazarin.
Et c’est effectivement cet argument –sous sa forme publicitaire contemporaine- qui a été mis en avant. La quantité du projet de Google aurait entièrement renouvelé la question et déclassé les projets européens.
A contrario certains critiques ont fait la fine bouche devant les premières réalisations de Google Print en considérant qu’en son état actuel, la collection ne permettait pas d’atteindre la « masse critique ».
Mais la quantité d’une bibliothèque, dans l’histoire technique et épistémologique du texte, ne se réduit évidemment pas à la quantité matérielle, au nombre de livres stockés. En termes modernes, nous dirions qu’elle ne se réduit pas aux couches basses du système, mais qu’elle concerne aussi les couches hautes. C’est à dire la lecture.
La lecture augmente le texte. Chez certains penseurs de l’art de lire, Aboulafia, ou Hugues de Saint Victor, il s’agit bien d’une augmentation réelle, quasi matérielle de la quantité de textes.
Dans une perspective familière aux adhérents d’Ars Industrialis, ce qui se joue autour de l’hypomnematon, c’est la relation entre la memoria comme lecture-écriture et l’anamnèse, la reminiscentia comme écriture-lecture. La quantité fait ici intervenir la lecture, le lecteur, sa subjectivité.
Le principe de Google, c’est le principe de la glose. En général, le web apparaît comme un grand commentaire, un hypertexte, renvoyant à la glose marginale. Mais, plus précisément, le produit du moteur est l’équivalent de la glose interlinéaire, celle qui s’appuie sur le mot et produit le glossaire, l’index : le mot expliqué par le classement de ses occurrences.
Google à travers l’indexation et l’utilisation des liens pour le classement se présente comme le Grand Lecteur Universel du web. Mais précisément, à travers les liens, la procédure automatique du G.L.U mobilise, s‘appuie, est conditionnée en même temps qu’elle l’élargit et l’amplifie, par les lectures multiples des lecteurs numériques, à travers les liens hypertextuels.
La quantité de texte chez Google combine la lecture et la glose automatique (l’indexation) et la lecture et la glose humaine (classement par les liens). L’abandon de l’une au profit exclusif de l’autre, risque apparent de Google Print, signe une de ces régressions auxquelles les industries culturelles nous ont habitué, particulièrement significative ici dans le cas d’une entreprise à ce point structurée autour du modèle du web.
sur le modèle économique de Google
Bien vu!
A. Moatti
Rédigé par : Moatti | 25/12/2005 à 14:41