Algérie

Pour le classement intelligent des données, la taxonomie est «tendance»



Pour le classement intelligent des données, la taxonomie est «tendance»
Si, pour la presse internationale et les agences d'information, l'époque des boîtes d'archives des articles publiés est terminée depuis longtemps, celle des dossiers thématiques classés par dates de parution l'est également. La nouvelle tendance est à la taxonomie. Un classement intelligent permettant de catégoriser textes et images par l'étiquetage automatique du contenu de l'information.Les journalistes ont souvent besoin de consulter les archives des articles publiés dans leurs organes de presse. Si Google permet une plus large recherche qui peut s'étendre à tout ce qui est publié sur Internet dans le monde concernant un même sujet, les résultats d'une recherche sur Internet dépassent souvent les besoins exprimés. Un mot clé tapé sur Google peut déboucher sur des centaines de milliers, voire des millions, de résultats. Un classement taxonomique de l'information (textes et images) permet de mettre en lien les récits (articles) publiés et servir de contenus à des utilisateurs avertis. Des expériences menées par The New York Times (NYT), Reuters et AP, ont donné lieux à des dizaines de milliers de mots clés (tags) relatifs à des personnes, d'organisations et d'entreprises citées dans des articles, et autant de sujets traités, ou de localisations géographiques évoquées. Dans la taxonomie du NYT, en cours d'élaboration, on apprend, par exemple, que l'Algérie est citée 78 fois (articles ou liens) entre mai 2005 et juin 2010. Le vocabulaire "terrorisme" (et mots liés), "utilisé pour toute couverture du terrorisme, y compris les actes de terrorisme, les mesures de sécurité, et le traitement des terroristes présumés" (comme l'explique le NYT), est cité dans 5104 articles entre 2004 et 2010. On apprend aussi que des intellectuels comme Edward W. Said, ou des artistes comme Youssou N'Dour, ne sont cités, que sept fois chacun en plusieurs années. Le mouvement Hamas palestinien revient 727 fois en six ans. L'Autorité Palestinienne, l'Organisation de libération de la Palestine, ou les Palestiniens (la Palestine n'y figure pas en tant que pays), sont cités en tout moins de 2000 fois en six ans.
Apprentissage automatique
Bien plus qu'un support d'archivage et de recherche, grâce à des identifiants uniques et normalisés, la taxonomie permet, en plus, de stocker une variété de détails sur les personnes, les lieux et les thèmes que contient un article. Des informations qui permettent l'amélioration des expériences de recherche, de navigation et d'affichage de données. Il faut savoir que les tags sont automatiquement choisis par un ordinateur sur lequel est embarqué un programme (un API - Application Programming Interface). Lorsqu'un contenu est soumis à la fonction de marquage automatique, les données sont établies à partir des vocabulaires d'un article. Le marquage manuel reste cependant en vigueur. Pour un journaliste, la taxonomie apporte une aide précieuse, à savoir d'établir des liens entre plusieurs personnes (pour un même sujet ou des sujets liés) ou bien entre des personnes et des organisations, sans avoir à compter uniquement sur sa mémoire. La taxonomie permet aussi d'établir des métadonnées qui associent à toute donnée une date et/ou une photo, voire même des coordonnées GPS du lieu où la photo a été prise. C'est justement l'intérêt des métadonnées qui permettent de lier les choses entre elles.
Dès 2006, l'agence d'information AP a commencé à développer sa taxonomie pour un usage interne, avant d'être étendu plus tard à des tiers. Chaque jour, le système d'apprentissage automatique d'AP reçoit environ 100.000 contenus - des articles, des photos et des légendes - et publie des métadonnées directement à chaque élément. Depuis un an et demi, le service métadonnées d'AP est accessible via un abonnement. Reuters a également développé "Open Calais", un service mi-libre (pour les internautes) mi-payant (pour les professionnels).
Bien évidemment, construire son propre système de tags est bien plus facile que de mettre en place une taxonomie. C'est aussi une question d'investissement et un travail quotidien que doit mener le service informatique, y compris de corriger d'éventuelles "erreurs" de tag automatique des articles pouvant affecter leur classement. Au fur et à mesure de l'évolution de son usage dans les médias, la taxonomie peut aider à développer les technologies communes du Web Sémantique.


Votre commentaire s'affichera sur cette page après validation par l'administrateur.
Ceci n'est en aucun cas un formulaire à l'adresse du sujet évoqué,
mais juste un espace d'opinion et d'échange d'idées dans le respect.
Nom & prénom
email : *
Ville *
Pays : *
Profession :
Message : *
(Les champs * sont obligatores)