Commit bbb9a88f authored by David's avatar David

argument DIST

parent 01882229
Note pour la DIST.
2 acteurs dans l'éco-système des bases de données:
Acteurs dans l'éco-système des bases de données:
- les éditeurs de données
- les éditeurs de logiciels d'analyse
- les fournissuers d'accès aux données
Lorsque ces 3 métiers ne sont pas séparés, il y a un des risques
pour une exploitation des données neutre et scientifique.
Lorsque ces 3 métiers ne sont pas séparés, une exploitation neutre et scientifique des données peut être compromise.
L'Institut des Systèmes Complexes de Paris Ile-de-France (ISC-PIF, UPS3611) travaille à la création de logiciels d'analyse de données en favorisant autant que possible les approches des données ouvertes et des logiciels libres. Le caractère libre et ouvert des logiciels d'analyse est pour un pré-requis pour assurer la reproductibilité des résultats et l'utilisation de ces analyses dans différents contextes avec un niveau d'information suffisant sur les traitements effectués et donc sur leur interprétation.
Nous nous sommes spécialisés dans la traitement des grandes masses de données textuelles hétérogènes. Ex : tout le WoS, tout MedLine, etc.
A cette fin, nous avons besoin de pouvoir traiter l'ensemble d'un catalogues en en analysant les principaux champs, de manière massive (au minimum analyse des titres, résumés, dates de publication, auteurs) et avec une mise à jour du catalogue au fil de l'eau. Les outils que nous développons prennent tout leur sens lorsqu'un retour au corpus d'origine est possible. Nous implémentons des fonctionnalités d'annotation de corpus qui permettent d'ajouter de la valeurs aux catalogue de manière cumulative et collaborative. Nous avons besoin pour cela de pouvoir faire apparaitre les résultats de requête sur les données d'origine dans des applications tierces et de donner à l'utilisateur la possibilité de les annoter, ces annotations étant stockées dans le logiciel tiers et partagées entre les utilisateurs.
Les licences actuelles dont nous disposons via le CNRS ou via notre propre acquisition :
- soit interdisent l'analyse massive du catalogue,
- soit interdisent la publication dans des applications tierces des analyses produites;
- soit interdisent la publication dans des applications tierces des résultat de requêtes ainsi que l'affichage d'éléments particuliers,
- soit limitent drastiquement le type de champs que l'on peut analyser.
Bien souvent, il y a une combinaison de plusieurs restrictions.
Si l'on veut que le CNRS développe des solutions innovantes pour l'analyse de grandes masses de données bibliographiques et de leurs usages, il faudrait pouvoir :
- faire du text-mining et de l'analyse de corpus à grande echelle sur les cataloques auxquels nous avons accès (TAL, analyse de graphes, visualisations, etc.),
- pouvoir produire, au sein d'applications destinées aux différents publics visés (chercheurs, décideurs, etc.) des visualisations à partir de ces analyses et des environnements de travail permettant de naviguer dans ces corpus : les interroger de manière innovante, présenter les résultats, afficher des articles particuliers dans une application tierce.
- pourvoir mettre à jour le catalogue en continu à des fin d'analyse,
- rester propriétaire des données d'usage ainsi produites.
Pour le moment, nous constatons que le CNRS paie plusieurs fois les accès pour différents usages avec des restrictions différentes à chaque fois (plateforme en ligne, données brut, OST). C'est insatisfaisant du point de vue de l'usage et du point de vue financier.
Par ailleurs, les fournisseurs de données on adopté pour nouvelle stratégie de développer des services d'accès aux données où les utilisateurs sont captifs, ceci afin de vendre le service et utiliser les données d'usages à des fins de valorisation, données auxquelles nous n'avons pas accès bien que générées par nos chercheurs.
Exemples de situations:
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment