Thème 6 : Information, Langue et Documents Numériques

De GDR I3
Aller à : navigation, rechercher

Responsables

   - Patrice Bellot (patrice.bellot@lsis.org, LSIS Marseille) 		
   - Véronique Eglin (veronique.eglin@insa-lyon.fr, LIRIS Lyon)

Contexte général et cadre des recherches du thème

Thématiques abordées
Le thème proposé se base sur les fortes synergies construites depuis 2005 autour de l’ancien thème 6 «Documents Multimedia » rassemblant les communautés RI et Image autour du document, et de l’ancien thème 4 « Masses de données, Accès à l’information, fouille de données ». Sa construction aujourd’hui porte sur la volonté de créer de nouvelles ouvertures au sein du GDR I3 avec notamment les spécialistes du TAL, de porter de nouvelles réflexions sur les applications autour de la mobilité, l’ubiquité et les nouveaux enjeux de société. Le thème vise également au développement de connaissances pour la recherche multimodale à grande échelle et porte un intérêt central autour des problématiques relevant des chaînes complètes de dématérialisation des documents en interaction avec l’usager, les industriels et les institutions. Ces thématiques soulèvent des problématiques relatives à l’indexation, l’accès aux données, l’annotation collaborative autour du document multimedia vue comme unité documentaire pré-existante ou créée dynamiquement par des techniques de filtrage, d'agrégation ou de compression. Elles adressent ainsi le document multimédia sous l’angle de son organisation structurelle, de ses caractéristiques physiques (selon sa modalité image : couleur, forme, texture et modalité audio), contextuelles ou sémantiques et des diverses possibilités de représentation d'expression du langage naturel (niveaux lexicaux, syntaxiques, sémantiques et pragmatiques, modèles de langue) et de la connaissance qui lui sont rattachées (thésaurus, ontologie, …). Ce thème rassemble les communautés issues du traitement des images de documents, de la recherche d’information, du traitement automatique des langues écrites et orales et des contenus multimédia enrichis (données vidéos, audio). Elle portera une attention particulière aux enjeux de société se rattachant aussi bien à des usages liés à l'accès au patrimoine documentaire associés aux grandes structures de préservation et de diffusion (bibliothèques, archives…) pour lesquels le caractère pluridisciplinaire est central, qu'à l'exploitation plus récente d'outils nomades de communication (smartphones, tablettes…) rattachés à des problématiques de multi-modalité, de recherche personnalisée ou collaborative. Ce thème se veut également être un lieu d’échanges et de réflexions autour des formats d'échange, de l'accessibilité, de l'indexation des données, ou encore de la distribution des traitements à grande échelle pouvant intégrer une dimension d'interactivité entre le système et l'usager (pertinence interaction/contenu).

Dimension transversale propre au thème
Le thème possède une dimension pluridisciplinaire à travers les différents axes de recherche qu’il recouvre. Cela lui donne une position transversale au sein du GDR I3 tout à fait particulière qui offre aux chercheurs des autres thèmes des opportunités de travailler ensemble, de trouver des cadres applicatifs à leurs travaux et des ouvertures sociétales de premier plan. Le constat aujourd’hui que le support papier reste encore un media qui offre de nombreuses facilités d’usages (ergonomie, coût, préservation), nous pousse à encourager les développements des technologies numériques, aujourd’hui arrivées à un certain niveau de maturité. La dissémination de l’information et de la connaissance devient de ce fait un enjeu de taille impliquant les grands organismes privés (Sociétés spécialisées dans les technologies du numérique), les grandes structures de préservation tels que les bibliothèques, les archives et les administrations. L’accès au patrimoine documentaire est devenu un enjeu de société en même temps qu’un défi scientifique posé à la communauté. Parallèlement, l’avènement de l'Internet au cours de ces dernières années amène également à une réflexion sur les formats d'échange, l'accessibilité et l'indexation des documents complexes sur le Web, la distribution des traitements et la veille technologique. D’autre part, le déploiement récent des outils nomades de communication (PDA, e-book, téléphones mobiles, …), ainsi que la problématique de la multi-modalité génèrent de nouveaux usages et de thématiques scientifiques auxquelles il convient de répondre. De fait, ces documents et données semi-structurées doivent être intégrés et stockés afin d’être manipulés et analysés en utilisant conjointement des modèles et techniques issus de plusieurs domaines de l’informatique et notamment de la recherche d’information et des bases de données. La dimension transversale du thème prend ici tout son sens. Il s’agit d’étudier d’une part l’intégration et le stockage de documents et données semi-structurées issus de sources différentes et de structures hétérogènes, la recherche personnalisée comme collaborative, ainsi que l’analyse multidimensionnelle des informations extraites de ces documents. Les évolutions de ces recherches se sont accompagnées ces dernières années de projets nouveaux (notamment autour de la dématérialisation complète du document papier, du déploiement massif des grandes bibliothèques numériques,…), pour lesquels le caractère pluridisciplinaire du thème est essentiel, tant pour les connaissances du domaine qui sont impliquées que pour la grande diversité des usages qui accompagnent ce mouvement. Dans ce contexte, les thématiques fortement soutenues par le groupe s’articulent désormais pour une grande partie autour d’approches innovantes de traitement d’images (restauration des images, transcription assistée, word-spotting, alignement texte-image, …), du traitement de la langue, de l’aide à la transcription des textes, de l’annotation collaborative, et de façon corrélée aux points précédents autour du traitement des grandes masses de données.


Organisation

La structure d'animation aura à charge d’encourager les rencontres de communautés autour de l’information, du langage, de l’image et du document, avec les objectifs partagés de développer de nouveaux usages en relation avec les enjeux de société, et de favoriser l’esprit collaboratif et pluridisciplinaire. L'équipe de pilotage a été choisie pour être représentative des thèmes phares autour notamment de la Recherche d’Information et de la gestion des masses de données, de l'ingénierie des systèmes d'information (proche du thème 3), de l'ingénierie des connaissances (proche du thème 7) et du document numérique et numérisé. On retrouve également, aux frontières du GDR I3, les communautés spécialisées dans le traitement des images et le Traitement Automatique des Langues (TAL). L’équipe constituée de 7 laboratoires (en gras dans la liste ci dessous) français propose de soutenir les actions menées dans le cadre de travaux interdisciplinaires alliant notamment les sciences dures et les SHS sur les nouveaux usages du document multimédia, les aspects sociaux et collaboratifs associés. Les membres associés au thème 6 sont également issus de groupes industriels et de sociétés privées très actives dans le domaine du “Documents numériques”, notamment autour des problématiques concernant la dématérialisation et la valorisation des contenus (Valconum - 2011). De ce fait leur présence forte au sein du GDR est un tremplin essentiel à la valorisation des travaux académiques mais également un élément important pour une bonne prise en compte des enjeux sociétaux actuels.

Animation du thème

Le thème compte tenu de son originalité pluridisciplinaire se doit de porter une attention particulière à la communication, aux interactions entre membres. Nous nous engageons de ce fait à mettre en place un portail web actif du thème, conçu pour faciliter les échanges d'informations (wiki et dépôt de comptes rendus de réunion, newsletters...), l'affichage des grands événements et la publication de discussions ouvertes sous la forme de blogs. Un mode d'animation dynamique par groupe de travail sera fortement encouragé, pour développer les interactions entre communautés et éviter les clivages disciplinaires. Séminaires et journées internes au GDR I3 Nous proposons également de procéder à la création d'ateliers d'échanges (ouverts au thème 6 et à d'autres thèmes du GDR) favorisant la création de viviers de réflexion pour encourager l’émergence de collaborations et à terme la construction de nouveaux ARTs. Ces ateliers ouverts seront rendus actifs par la présence de blogs d'échanges et la mise en place d'une ou deux rencontres annuelles sous la forme de journée de travail ou d'ateliers. Enfin, une part importante des actions sera également déployée à destination des jeunes chercheurs, pour leur permettre de s'intégrer dans leur communauté, de participer à la valorisation de leurs travaux en leur offrant notamment des facilités de financements pour leurs déplacements et/ou missions.

Equipe d’animation

Jean-Marc Ogier, L3I La Rochelle
Sylvie Calabretto, LIRIS Lyon
Antoine Tabbone, LORIA Nancy
Elisabeth Murisasco, LSIS Toulon
Thierry Paquet, LITIS Rouen
Florence Sèdes, IRIT Toulouse
Jean-Yves Ramel, LI Tours
Max Chevalier, IRIT Toulouse
Nicole Vincent, LIPADE Paris
Jean-Pierre Chevallet, LIG Grenoble
Vincent Claveau, IRISA Rennes

Intégration et liens avec la communauté scientifique du thème

La structure d'animation s'appuie sur plusieurs sociétés savantes, notamment le GRCE (Groupe de Recherche en Communication Ecrite), structure associative créée en 1992, visant à fédérer, dans la durée, les forces francophones en matière de lecture automatique de documents et l’ARIA (Association francophone en Recherche d’Information et Applications) visant au développement des divers domaines concourants au savoir et aux connaissances autour de la conception, la réalisation et l'évaluation des systèmes de Recherche d'Information actuels et futurs. Elle est en relation forte avec l’ATALA (Association pour le Traitement Automatique des Langues) et l’AFCP (Association Francophone de la Communication Parlée). Elle est également soutenue par un fort potentiel industriel rassemblé autour des associations telles que l'APROGED (plus de 100 entreprises) et l'association de préfiguration VALCONUM, qui préfigure du futur centre européen de valorisation numérique (structure d’innovation et de recherche autour de la dématérialisation et de la valorisation des contenus numériques) qui verra le jour en 2013.
En plus de sa très forte transversalité au sein du GDR I3, le thème 6 présente la particularité de posséder des interactions très fortes avec l’EQUIPEX DILOH (Digital Library for Open Humanities) piloté par l’UMS CNRS CLEO et l’UMR LSIS ainsi qu'avec d'autres sous thèmes d'autres GDR, tels que:

  • le groupe pluridisciplinaire inter GDR I3/ISIS (SCATI: Systèmes complexe d’analyse et de traitement des images);
  • les thèmes Image du GDR ISIS portant sur les aspects en relation avec le signal et l’image ;
  • le GDR-i Web (porté par l’IRIT --M. Boughanem-- avec le Brésil) ;
  • le GDR-i « Document Numérique » (porté par JM Ogier du L3I La Rochelle) en cours de montage et qui rassemble un consortium de laboratoires européens (Français, Allemands, Suisses, Anglais, Espagnols et Italiens).

Cette structure d'animation soutient également de nombreuses conférences nationales: INFORSID, CORIA et CIDE qui se réunissent tous les ans, ainsi que les conférences internationales du domaine (ACM DocEng, ECDL, Extreme Markup Language, RIAO, ElPub …), la Conférence Internationale Francophone sur l'Ecrit et le Document, qui se tient en alternance avec les conférences internationales du domaine (IAPR-ICDAR, ICFHR, WDA, GREC, Digital Librairies, DAS, DRR-SPIE). Enfin citons les événements phares du thème : les "Semaines du Document Numérique et de la Recherche d’Information (SDNRI - 2004, 2006, 2010, 2012 et bientôt 2014) qui rassemblent tous les deux ans les communautés de la RI et du document numérisé.

Ponts avec les entreprises

La structure du thème 6 est marquée par un très fort ancrage industriel impliquant un grand nombre d'entreprises animées par le désir de créer des rapprochements avec la recherche universitaire, favorisant ainsi le développement industriel et la compétitivité française. Cette ambition est particulièrement vérifiée dans les domaines innovants portés par le thème (autour du traitement et de la valorisation des contenus numériques) où la recherche académique française est très performante. La création du Centre de Valorisation des Contenus Numériques (ValCoNum crée en 2011) témoigne de ces efforts et de ces ambitions en cherchant à apporter des solutions à des besoins clients et sociétaux qui intègreront les innovations issues de la recherche aux offres du marché. Les principales entreprises concernées par le thème sont : A2iA - Paris, SWT Paris, IRIS Paris, Xerox, Doc@post, IBM, Vedana, IteSoft, I2S Bordeaux, SOOD, A3D-Num, Syllabs, Sinequa, Synapse, Orange Labs, Thales, EDF, Semantia, Antidot ... Association d'entreprises, l'APROGED (Association des Professionnels de la GED regroupant un ensemble de plus de 100 entreprises).

Mots clés

* Documents multimédia (images, audio, vidéos, son, musique)
* Dématérialisation
* Reconnaissance de formes (écrites, graphiques, symboles, imprimées) et de structures de document
* Extraction d'information:
    - structuration d'informations graphiques, manuscrites, structurées
    - ontologies
* Indexation
      -  de grandes base d'images de documents (bibliothèques, archives, formulaires, ...)
      -  indexation collaborative
* Traitement et représentation des connaissances, sémantique, ingénierie des connaissances
* Recherche d'information 
      - dans les images de documents et les écrits
      - modèle logique, modèles de langages
      - recherche collaborative
      - passage à l'échelle de système de RI
* Usages 
    - Ex: Bibliothèques numériques
    - Interaction utilisateur : interfaces, visualisation, modélisation de l'utilisateur, accessibilité
    - Navigation, accès, interactions avec le texte
    - Personnalisation