Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
B
beamer
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
gargantext
beamer
Commits
7c6db373
Commit
7c6db373
authored
Jul 22, 2015
by
Administrator
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
écriture draft roadmap
parent
4cdcbd05
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
with
159 additions
and
63 deletions
+159
-63
Ideas.tex
texts/roadmap/Ideas.tex
+65
-0
Roadmap.tex
texts/roadmap/Roadmap.tex
+94
-63
No files found.
texts/roadmap/Ideas.tex
0 → 100644
View file @
7c6db373
\section
{
Introduction
}
A ce jour l'originalité de Gargantext est son assemblage.
Progressivement, nous introduisons des éléments qui nous sont propres
puisque chaque brique peut être améliorée à la suite des tests
comparatifs réalisé entre convergence du questionnement scientifique et
capacité du macroscope.
Nous appelons Macroscope les technologies qui permettent d'accéder à la
masse de données: accessibilité (vue, ouïe),
\section
{
Infrastructure
}
\section
{
Huile alogorithmique
}
Pour
Gestion de la complexité:
- utilisateur
- logiciel
- objet d'étude extérieur
\section
{
Accessibilité
}
\subsection
{
Vues de Gargantext
}
Chaque
\subsection
{
Ouïe de Gargantext
}
Supports visuels oui mais pas seulement. A ce jour, l'accès à
aux analyses Gargantext est essentiellement visuelle. L'audition
pourrait être mobilisée pour veiller à l'évolution con-text-uel
des controverses
\footnote
{
Cette remarque a été faite par Catherine
Robert en cours de réunion au sujet de l'avenir de la plateforme
Gargantext. Elle a suggéré d'introduire des instruments. Cette
partie est donc une réponse à ce problème
}
. C'est le projet
Symphotext.
Chaque ensemble de texte serait jouée par un instrument.
Le rythme dépendrait du nombre d'occurrences par période de temps
(densité textuelle).
L'utilisateur pourrait alors composer sa propre symphonie en choisissant
les instruments pour chaque ensemble textuel.
\subsection
{
Toucher et odorat de Gargantext: une question de goût
}
Cette partie fondamentale consisterait à composer des recettes de
cuisines à partir des ingrédients.
\section
{
Eco-système
}
Les développeurs
Formation
Utilisateurs
CNRS
texts/roadmap/Roadmap.tex
View file @
7c6db373
\author
{
Alexandre Delanoë
}
% J'assume ce projet que je suis prêt à défendre pour obtenir un poste
% au CNRS.
\section
{
Présentation de Gargantext
}
La plateforme Gargantext est une plateforme collaborative de fouille
textuelle pour visualiser, annoter et cartographier de grands corpus
de textes numérisés.
A ce jour, la plateforme comptabilise plus de 60 comptes d'accès
(ce qui correspond à une centaine d'utilisateurs car 30 d'entre
eux sont des comptes collectifs), dont 80
\%
d'étudiants et 20
\%
de
chercheurs en sachant que nous limitons volontairement l'ouverture des
comptes pour en limiter le coût de la maintenance et privilégier les
nouveaux développements.
A ce jour, la plateforme accepte 8 formats de base de données
différents: des sciences académiques à la presse quotidienne en
passant par des outils d'exploration du Web. Elle mobilise 4 taguers
différents pour les opérations de Text-Mining sur 2 langues :
l'anglais et le français. Le backend de la plateforme est écrit
principalement avec un language orienté object (Python) et est
fondée sur la base de données relationnelle PostgreSQL; le frontend
mobilise essentiellement le langage javascript ce qui permet aux
utilisateur de l'utiliser avec un navigateur web installé sur un
ordinateur personnel, une tablette ou un téléphone mobile.
La plateforme permet à ce jour:
\begin{itemize}
\item
L'extraction des documents pour leur sélection (filtrage, lecture,
sélection des doublons);
\item
L'extraction des multitermes (séquences de N entités d'un -- ou
plusieurs -- type grammatical donné) et outils d'aide à la
sélection des listes de termes (que l'on souhaite intégrer à
l'analyse ou non);
\item
L'annotation des documents et de leurs termes associés;
\item
La construction d'histogrammes historiques avec des filtres
permettant différents niveaux de granularité différents.
\item
Lexploration des graphes thématiques permettant un
aller retour entre les analyses statistiques globales et les
document au niveau local.
\end{itemize}
A partir du retour sur expérience nous permettent déjà de faire
apparaître que nous atteignons les opportunités et les limites d'une
telle plateforme pour le CNRS.
\section
{
Objectifs de développement
}
Les objectifs de développement à moyen et long-terme sont les suivants:
\subsection
{
Faciliter l'accès
}
Pour le moment, le site est optimisé pour un usage sur un ordinateur
personnel. Cependant, un accès via tablette ou smartphone devrait être
privilégié.
\subsection
{
Accroître la couverture
}
- développer de nouvelles collaboration (Avec le CERN en ce moment) ce
qui permet la mise en place de synergies: une thèse au CSI sur le CERN ?
- s'ouvrir aux résaux sociaux et à l'exploration du Web
- Les objectifs de développement sont: augmenter le nombre de langues
: Spanish, Italian, Deutsh, Dutch, Português, Polish, Persan
\subsection
{
Accueillir (sereinement) les nouvelles fonctionnalités
}
Les nouvelles fonctionnalités (différents niveaux de granularité des
analyses, diachronie) accroient la complexité logicielle qui doit être
générique: tous les cas possibles des utilisations doivent être pensés
en amont. Or nous atteignons les limites de la programmation impérative
et nous devons passer à la programmation fonctionnelle pour gérer
simplement la complexité. La première version de Gargantext est écrite
dans un langage impératif qui atteint ses limites. La seconde version de
Gargantext devra intégrer des éléments fonctionnels.
\subsection
{
Améliorer la fiabilité des analyses
}
Dans un futur proche, nous pourrons travailler de manière
collaborative sur des graphes bipartites et diachroniques. Cependant,
en termes de maintenance, la plateforme atteint aujourd'hui les 10
000 lignes de codes. La maintenance devient non négligeable et la
compliexité s'accroît corrélativement (avec un facteur multiplicatif
conséquent pour chaque nouvelle implémentation) aux
dépends du développement de l'intégration de nouvelles idées.
Il s'agit donc de promouvoir une stratégie de tests:
- tests à la compilation: c'est la limite selon nous du langage
dynamiquement compilé, et largement utilisé en science: Python.
- tests avec des valeurs aléatoires
- tests utilisateurs avec analyse des logs
\subsection
{
Passer à l'échelle du big data
}
Passer la base de donnée à l'échelle du cluster.
Lancer les calculs en parallèle pour accélérer le temps de réponse.
Gérer dynamiquement la "concurrency" des processus lancés à travers le
réseau.
\section
{
Introduction
}
A ce jour l'originalité de Gargantext est son assemblage.
Progressivement, nous introduisons des éléments qui nous sont propres
puisque chaque brique peut être améliorée à la suite des tests
comparatifs réalisé entre convergence du questionnement scientifique et
capacité du macroscope.
Nous appelons Macroscope les technologies qui permettent d'accéder à la
masse de données: accessibilité (vue, ouïe),
\section
{
Infrastructure
}
\section
{
Huile alogorithmique
}
Pour
Gestion de la complexité:
- utilisateur
- logiciel
- objet d'étude extérieur
\section
{
Accessibilité
}
\subsection
{
Vues de Gargantext
}
Chaque
\subsection
{
Ouïe de Gargantext
}
Supports visules oui mais pas seulement. A ce jour, l'accès à
aux analyses Gargantext est essentiellement visuelle. L'audition
pourrait être mobilisée pour veiller à l'évolution con-text-uel
des controverses
\footnote
{
Cette remarque a été faite par Catherine
Robert en cours de réunion au sujet de l'avenir de la plateforme
Gargantext. Elle a suggéré d'introduire des instruments. Cette
partie est donc une réponse à ce problème
}
. C'est le projet
Symphotext.
Chaque ensemble de texte serait jouée par un instrument.
Le rythme dépendrait du nombre d'occurrences par période de temps
(densité textuelle).
L'utilisateur pourrait alors composer sa propre symphonie en choisissant
les instruments pour chaque ensemble textuel.
\subsection
{
Toucher et odorat de Gargantext: une question de goût
}
Cette partie fondamentale consisterait à composer des recettes de
cuisines à partir des ingrédients.
\section
{
Eco-système
}
Les développeurs
Formation
Utilisateurs
CNRS
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment