écriture draft roadmap

7c6db373 · Administrator · 4cdcbd05 · 7c6db373 · 7c6db373
Commit 7c6db373 authored Jul 22, 2015 by Administrator
Hide whitespace changes
Inline Side-by-side

Showing with 159 additions and 63 deletions

Ideas.tex texts/roadmap/Ideas.tex +65 -0

Roadmap.tex texts/roadmap/Roadmap.tex +94 -63

No files found.
--- a/texts/roadmap/Ideas.tex
+++ b/texts/roadmap/Ideas.tex
+
+\section{Introduction}
+
+A ce jour l'originalité de Gargantext est son assemblage.
+Progressivement, nous introduisons des éléments qui nous sont propres
+puisque chaque brique peut être améliorée à la suite des tests
+comparatifs réalisé entre convergence du questionnement scientifique et
+capacité du macroscope.
+
+Nous appelons Macroscope les technologies qui permettent d'accéder à la
+masse de données: accessibilité (vue, ouïe), 
+
+\section{Infrastructure}
+
+
+\section{Huile alogorithmique}
+
+Pour 
+
+Gestion de la complexité:
+- utilisateur
+- logiciel
+- objet d'étude extérieur
+
+
+\section{Accessibilité}
+
+\subsection{Vues de Gargantext}
+
+Chaque 
+
+
+\subsection{Ouïe de Gargantext}
+
+Supports visuels oui mais pas seulement. A ce jour, l'accès à
+aux analyses Gargantext est essentiellement visuelle. L'audition
+pourrait être mobilisée pour veiller à l'évolution con-text-uel
+des controverses\footnote{Cette remarque a été faite par Catherine
+Robert en cours de réunion au sujet de l'avenir de la plateforme
+Gargantext. Elle a suggéré d'introduire des instruments. Cette
+partie est donc une réponse à ce problème}. C'est le projet
+Symphotext.
+
+Chaque ensemble de texte serait jouée par un instrument.
+Le rythme dépendrait du nombre d'occurrences par période de temps
+(densité textuelle).
+L'utilisateur pourrait alors composer sa propre symphonie en choisissant
+les instruments pour chaque ensemble textuel.
+
+\subsection{Toucher et odorat de Gargantext: une question de goût}
+
+Cette partie fondamentale consisterait à composer des recettes de
+cuisines à partir des ingrédients.
+
+
+
+\section{Eco-système}
+
+Les développeurs
+Formation
+Utilisateurs
+CNRS
+
+
+
--- a/texts/roadmap/Roadmap.tex
+++ b/texts/roadmap/Roadmap.tex

-\author{Alexandre Delanoë}
-% J'assume ce projet que je suis prêt à défendre pour obtenir un poste
-% au CNRS. 
+\section{Présentation de Gargantext}
+La plateforme Gargantext est une plateforme collaborative de fouille
+textuelle pour visualiser, annoter et cartographier de grands corpus
+de textes numérisés.
+
+A ce jour, la plateforme comptabilise plus de 60 comptes d'accès
+(ce qui correspond à une centaine d'utilisateurs car 30 d'entre
+eux sont des comptes collectifs), dont 80\% d'étudiants et 20\% de
+chercheurs en sachant que nous limitons volontairement l'ouverture des
+comptes pour en limiter le coût de la maintenance et privilégier les
+nouveaux développements.
+
+A ce jour, la plateforme accepte 8 formats de base de données
+différents: des sciences académiques à la presse quotidienne en
+passant par des outils d'exploration du Web. Elle mobilise 4 taguers
+différents pour les opérations de Text-Mining sur 2 langues :
+l'anglais et le français. Le backend de la plateforme est écrit
+principalement avec un language orienté object (Python) et est
+fondée sur la base de données relationnelle PostgreSQL; le frontend
+mobilise essentiellement le langage javascript ce qui permet aux
+utilisateur de l'utiliser avec un navigateur web installé sur un
+ordinateur personnel, une tablette ou un téléphone mobile.
+
+La plateforme permet à ce jour:
+
+\begin{itemize}
+    \item L'extraction des documents pour leur sélection (filtrage, lecture,
+sélection des doublons);
+
+    \item L'extraction des multitermes (séquences de N entités d'un -- ou
+    plusieurs -- type grammatical donné) et outils d'aide à la
+    sélection des listes de termes (que l'on souhaite intégrer à
+    l'analyse ou non);
+
+    \item L'annotation des documents et de leurs termes associés;
+
+    \item La construction d'histogrammes historiques avec des filtres
+    permettant différents niveaux de granularité différents.
+
+    \item Lexploration des graphes thématiques permettant un
+        aller retour entre les analyses statistiques globales et les
+        document au niveau local.
+\end{itemize}
+
+A partir du retour sur expérience nous permettent déjà de faire
+apparaître que nous atteignons les opportunités et les limites d'une
+telle plateforme pour le CNRS.
+
+\section{Objectifs de développement}
+Les objectifs de développement à moyen et long-terme sont les suivants:
+
+\subsection{Faciliter l'accès}
+Pour le moment, le site est optimisé pour un usage sur un ordinateur
+personnel. Cependant, un accès via tablette ou smartphone devrait être
+privilégié.
+
+\subsection{Accroître la couverture}
+- développer de nouvelles collaboration (Avec le CERN en ce moment) ce
+qui permet la mise en place de synergies: une thèse au CSI sur le CERN ?
+- s'ouvrir aux résaux sociaux et à l'exploration du Web
+- Les objectifs de développement sont: augmenter le nombre de langues
+: Spanish, Italian, Deutsh, Dutch, Português, Polish, Persan
+
+\subsection{Accueillir (sereinement) les nouvelles fonctionnalités}
+Les nouvelles fonctionnalités (différents niveaux de granularité des
+analyses, diachronie) accroient la complexité logicielle qui doit être
+générique: tous les cas possibles des utilisations doivent être pensés
+en amont. Or nous atteignons les limites de la programmation impérative
+et nous devons passer à la programmation fonctionnelle pour gérer
+simplement la complexité. La première version de Gargantext est écrite
+dans un langage impératif qui atteint ses limites. La seconde version de
+Gargantext devra intégrer des éléments fonctionnels.
+
+
+\subsection{Améliorer la fiabilité des analyses}
+Dans un futur proche, nous pourrons travailler de manière
+collaborative sur des graphes bipartites et diachroniques. Cependant,
+en termes de maintenance, la plateforme atteint aujourd'hui les 10
+000 lignes de codes. La maintenance devient non négligeable et la
+compliexité s'accroît corrélativement (avec un facteur multiplicatif
+conséquent pour chaque nouvelle implémentation) aux
+dépends du développement de l'intégration de nouvelles idées.
+Il s'agit donc de promouvoir une stratégie de tests:
+- tests à la compilation: c'est la limite selon nous du langage
+dynamiquement compilé, et largement utilisé en science: Python.
+- tests avec des valeurs aléatoires
+- tests utilisateurs avec analyse des logs
+
+
+\subsection{Passer à l'échelle du big data}
+Passer la base de donnée à l'échelle du cluster.
+Lancer les calculs en parallèle pour accélérer le temps de réponse.
+Gérer dynamiquement la "concurrency" des processus lancés à travers le
+réseau.


-\section{Introduction}

-A ce jour l'originalité de Gargantext est son assemblage.
-Progressivement, nous introduisons des éléments qui nous sont propres
-puisque chaque brique peut être améliorée à la suite des tests
-comparatifs réalisé entre convergence du questionnement scientifique et
-capacité du macroscope.
-
-Nous appelons Macroscope les technologies qui permettent d'accéder à la
-masse de données: accessibilité (vue, ouïe), 
-
-\section{Infrastructure}
-
-
-\section{Huile alogorithmique}
-
-Pour 
-
-Gestion de la complexité:
- utilisateur
- logiciel
- objet d'étude extérieur
-
-
-\section{Accessibilité}
-
-\subsection{Vues de Gargantext}
-
-Chaque 
-
-
-\subsection{Ouïe de Gargantext}
-
-Supports visules oui mais pas seulement. A ce jour, l'accès à
-aux analyses Gargantext est essentiellement visuelle. L'audition
-pourrait être mobilisée pour veiller à l'évolution con-text-uel
-des controverses\footnote{Cette remarque a été faite par Catherine
-Robert en cours de réunion au sujet de l'avenir de la plateforme
-Gargantext. Elle a suggéré d'introduire des instruments. Cette
-partie est donc une réponse à ce problème}. C'est le projet
-Symphotext.
-
-Chaque ensemble de texte serait jouée par un instrument.
-Le rythme dépendrait du nombre d'occurrences par période de temps
-(densité textuelle).
-L'utilisateur pourrait alors composer sa propre symphonie en choisissant
-les instruments pour chaque ensemble textuel.
-
-\subsection{Toucher et odorat de Gargantext: une question de goût}
-
-Cette partie fondamentale consisterait à composer des recettes de
-cuisines à partir des ingrédients.
-
-
-
-\section{Eco-système}
-
-Les développeurs
-Formation
-Utilisateurs
-CNRS