Commit 2036aa0b authored by David's avatar David

lettre

parent c27b2c5d
Note pour la DIST.
Acteurs dans l'éco-système des bases de données:
- les éditeurs de données
- les éditeurs de logiciels d'analyse
- les fournissuers d'accès aux données
Note sur l'utilisation et la valorisation des grandes masses de données bibliographiques
Acteurs dans l'éco-système des bases de données scientifiques :
- les éditeurs de données,
- les éditeurs de logiciels d'analyse,
- les fournisseurs d'accès aux données.
Lorsque ces 3 métiers ne sont pas séparés, une exploitation neutre et scientifique des données peut être compromise.
L'Institut des Systèmes Complexes de Paris Ile-de-France (ISC-PIF, UPS3611) travaille à la création de logiciels d'analyse de données en favorisant autant que possible les approches des données ouvertes et des logiciels libres. Le caractère libre et ouvert des logiciels d'analyse est pour un pré-requis pour assurer la reproductibilité des résultats et l'utilisation de ces analyses dans différents contextes avec un niveau d'information suffisant sur les traitements effectués et donc sur leur interprétation.
L'Institut des Systèmes Complexes de Paris Ile-de-France (ISC-PIF, UPS3611) travaille à la création de logiciels d'analyse de données en favorisant autant que possible les approches des données ouvertes et des logiciels libres. Le caractère libre et ouvert des logiciels d'analyse est pour un pré-requis pour assurer la reproductibilité des résultats et l'utilisation de ces analyses dans différents contextes avec un niveau d'information suffisant sur les traitements effectués, et donc sur leur interprétation.
L'ISC-PIF est spécialisé dans la traitement des grandes masses de données textuelles hétérogènes. Ex : tout le WoS, tout MedLine, etc.
Nous nous sommes spécialisés dans la traitement des grandes masses de données textuelles hétérogènes. Ex : tout le WoS, tout MedLine, etc.
A cette fin, nous avons besoin de pouvoir traiter l'ensemble d'un catalogues en en analysant les principaux champs, de manière massive (au minimum analyse des titres, résumés, dates de publication, auteurs) et avec une mise à jour du catalogue au fil de l'eau. Les outils que nous développons prennent tout leur sens lorsqu'un retour au corpus d'origine est possible.
A cette fin, nous avons besoin de pouvoir traiter l'ensemble d'un catalogues en en analysant les principaux champs, de manière massive (au minimum analyse des titres, résumés, dates de publication, auteurs) et avec une mise à jour du catalogue au fil de l'eau. Les outils que nous développons prennent tout leur sens lorsqu'un retour au corpus d'origine est possible. Nous implémentons des fonctionnalités d'annotation de corpus qui permettent d'ajouter de la valeurs aux catalogue de manière cumulative et collaborative. Nous avons besoin pour cela de pouvoir faire apparaitre les résultats de requête sur les données d'origine dans des applications tierces et de donner à l'utilisateur la possibilité de les annoter, ces annotations étant stockées dans le logiciel tiers et partagées entre les utilisateurs.
Nous implémentons par ailleurs des fonctionnalités d'annotation de corpus qui permettent d'ajouter de la valeurs aux catalogues de manière cumulative et collaborative. Nous avons besoin pour cela de pouvoir faire apparaître dans des applications tierces les résultats de requêtes sur les données d'origine et de donner à l'utilisateur la possibilité d'annoter les documents issus de ces requêtes. Ces annotations étant stockées dans le logiciel tiers développé par l'ISC-PIF et partagées entre les utilisateurs.
Les licences actuelles dont nous disposons via le CNRS ou via notre propre acquisition :
- soit interdisent l'analyse massive du catalogue,
......@@ -23,15 +27,18 @@ Les licences actuelles dont nous disposons via le CNRS ou via notre propre acqui
Bien souvent, il y a une combinaison de plusieurs restrictions.
Si l'on veut que le CNRS développe des solutions innovantes pour l'analyse de grandes masses de données bibliographiques et de leurs usages, il faudrait pouvoir :
- faire du text-mining et de l'analyse de corpus à grande echelle sur les cataloques auxquels nous avons accès (TAL, analyse de graphes, visualisations, etc.),
- faire du text-mining et de l'analyse de corpus à grande échelle sur les catalogues auxquels nous avons accès (TAL, analyse de graphes, visualisations, etc.),
- pouvoir produire, au sein d'applications destinées aux différents publics visés (chercheurs, décideurs, etc.) des visualisations à partir de ces analyses et des environnements de travail permettant de naviguer dans ces corpus : les interroger de manière innovante, présenter les résultats, afficher des articles particuliers dans une application tierce.
- pourvoir mettre à jour le catalogue en continu à des fin d'analyse,
- rester propriétaire des données d'usage ainsi produites.
Pour le moment, nous constatons que le CNRS paie plusieurs fois les accès pour différents usages avec des restrictions différentes à chaque fois (plateforme en ligne, données brut, OST). C'est insatisfaisant du point de vue de l'usage et du point de vue financier.
Par ailleurs, les fournisseurs de données on adopté pour nouvelle stratégie de développer des services d'accès aux données où les utilisateurs sont captifs, ceci afin de vendre le service et utiliser les données d'usages à des fins de valorisation, données auxquelles nous n'avons pas accès bien que générées par nos chercheurs.
Par ailleurs, les fournisseurs de données semblent adopter pour nouvelle stratégie le développement de services d'accès aux données où les utilisateurs sont captifs, ceci afin de vendre le service et utiliser les données d'usages à des fins de valorisation, données auxquelles nous n'avons pas accès bien que générées par nos chercheurs.
Si le CNRS souhaite valoriser les données d'usage de ses chercheurs, il est donc important qu'il puisse développer ses propres plateformes.
--------------
Exemples de situations:
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment