Merge branch 'roadmap'

3fed7d4c · Administrator · 01d2409f · f0f7bcfd · 01d2409f · 01d2409f
Commit 3fed7d4c authored Jul 22, 2015 by Administrator
20 changed files
--- a/Gargantext.pdf
+++ b/Gargantext.pdf
--- a/PresMDTS11_2.aux
+++ b/PresMDTS11_2.aux
-\relax 
-\providecommand\hyper@newdestlabel[2]{}
-\providecommand\HyperFirstAtBeginDocument{\AtBeginDocument}
-\HyperFirstAtBeginDocument{\ifx\hyper@anchor\@undefined
-\global\let\oldcontentsline\contentsline
-\gdef\contentsline#1#2#3#4{\oldcontentsline{#1}{#2}{#3}}
-\global\let\oldnewlabel\newlabel
-\gdef\newlabel#1#2{\newlabelxx{#1}#2}
-\gdef\newlabelxx#1#2#3#4#5#6{\oldnewlabel{#1}{{#2}{#3}}}
-\AtEndDocument{\ifx\hyper@anchor\@undefined
-\let\contentsline\oldcontentsline
-\let\newlabel\oldnewlabel
-\fi}
-\fi}
-\global\let\hyper@last\relax 
-\gdef\HyperFirstAtBeginDocument#1{#1}
-\providecommand\HyField@AuxAddToFields[1]{}
-\providecommand\HyField@AuxAddToCoFields[2]{}
-\@writefile{toc}{\beamer@endinputifotherversion {3.24pt}}
-\@writefile{nav}{\beamer@endinputifotherversion {3.24pt}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {1}{1}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {2}{6}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {7}{9}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {10}{12}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {13}{17}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {18}{19}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {20}{21}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {22}{22}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {23}{27}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {28}{32}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {33}{36}}}
-\@writefile{nav}{\headcommand {\beamer@partpages {1}{36}}}
-\@writefile{nav}{\headcommand {\beamer@subsectionpages {1}{36}}}
-\@writefile{nav}{\headcommand {\beamer@sectionpages {1}{36}}}
-\@writefile{nav}{\headcommand {\beamer@documentpages {36}}}
-\@writefile{nav}{\headcommand {\def \inserttotalframenumber {11}}}
--- a/PresMDTS11_2.log
+++ b/PresMDTS11_2.log
--- a/PresMDTS11_2.nav
+++ b/PresMDTS11_2.nav
-\beamer@endinputifotherversion {3.24pt}
-\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}
-\headcommand {\beamer@framepages {1}{1}}
-\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}
-\headcommand {\beamer@framepages {2}{6}}
-\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}
-\headcommand {\beamer@framepages {7}{9}}
-\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}
-\headcommand {\beamer@framepages {10}{12}}
-\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}
-\headcommand {\beamer@framepages {13}{17}}
-\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}
-\headcommand {\beamer@framepages {18}{19}}
-\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}
-\headcommand {\beamer@framepages {20}{21}}
-\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}
-\headcommand {\beamer@framepages {22}{22}}
-\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}
-\headcommand {\beamer@framepages {23}{27}}
-\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}
-\headcommand {\beamer@framepages {28}{32}}
-\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}
-\headcommand {\beamer@framepages {33}{36}}
-\headcommand {\beamer@partpages {1}{36}}
-\headcommand {\beamer@subsectionpages {1}{36}}
-\headcommand {\beamer@sectionpages {1}{36}}
-\headcommand {\beamer@documentpages {36}}
-\headcommand {\def \inserttotalframenumber {11}}
--- a/PresMDTS11_2.out
+++ b/PresMDTS11_2.out
--- a/PresMDTS11_2.pdf
+++ b/PresMDTS11_2.pdf
--- a/PresMDTS11_2.snm
+++ b/PresMDTS11_2.snm
--- a/PresMDTS11_2.synctex.gz
+++ b/PresMDTS11_2.synctex.gz
--- a/PresMDTS11_2.toc
+++ b/PresMDTS11_2.toc
-\beamer@endinputifotherversion {3.24pt}
--- a/beamer/Gargantext.mdwn
+++ b/beamer/Gargantext.mdwn
+
+Gargantext:
+Court-Terme: une plateforme fiable de text-mining
+Moyen-Terme: une platforme agile de text-mining
+Long-Terme: une plateforme collaborative de text-mining
+
+
+
+PB: 
+
+
+Gargantext à 5 ans
+Gargantext à 5 ans
+Gargantext à 5 ans
+Gargantext à 5 ans
+
+
+
--- a/Gargantext.tex
+++ b/Gargantext.tex
--- a/PresMDTS11_2.tex
+++ b/PresMDTS11_2.tex
--- a/texts/2017-BigDataSummerSchool.mdwn
+++ b/texts/2017-BigDataSummerSchool.mdwn
+Summer of 2017: Big Data Summer School
+
+Every body can participate:
+- irc chan
+- mailing-list
+
+Legal:
+works are under licence BSD, CECIL or CC: By-SA
+(I would prefer BSD which clear enough others are complicated)
+
+
+3 main steps:
+- Text-Mining Challenge: counting char challenge in 1 gigas files. 
+Winner is a function with best time/line of code and clarity.
+(vote by participants)
+
+- Data Mining Challenge: 
+- Database Challenge: best structure
+- propose challenges for the next challage
+
--- a/textes_divers/EditeurDonneesLogiciels.mdwn
+++ b/textes_divers/EditeurDonneesLogiciels.mdwn
--- a/texts/articles/2016-Lists.tex
+++ b/texts/articles/2016-Lists.tex
+\title{Mini-Data: impact of mini contextual data on big data analysis
+(part 3)}
+
+
+\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic, Elias}
+% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
+% celui de Samuel. On pourrait éventuellement envisager un autre article
+% plus fondé sur la visualisation
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet du
+choix des termes et des listes sur les graphes
+}
+
+
+\section{Protocol}
+
+- prendre n sujets in english language (abeilles, changement climatique, fukushima)
+- N individuals
+
+%- mesurer la distance entre les listes
+%- extraire les termes avec des tags différents
+%
+%- indiquer l'impact sur la structure des ngrams produits
+%- indiquer l'impact sur les axes interprétatifs
+%
+%
+\section{Conclusion}
+Agile data analysis (manage your lists with Gargantext)
+%
+%Note: the user cannot chose its words, so part 3.
+%
+
--- a/texts/articles/2016-TAG.tex
+++ b/texts/articles/2016-TAG.tex
+\title{Mini-Data: impact of mini contextual data on big data analysis
+(part 2)}
+
+
+\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
+Castillo}
+% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
+% celui de Samuel. On pourrait éventuellement envisager un autre article
+% plus fondé sur la visualisation
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet du
+post-tagging sur la fouille textuelle.
+}
+
+
+\section{Protocol}
+
+- prendre n sujets in english language (abeilles, changement climatique, fukushima)
+- N taguers différents
+	- french: TreeTaguer, Nltk, Melt
+	- english: Nltk, TurboParser, Melt (explain why not Stanford (java...))
+
+- mesurer la distance entre les tags
+- extraire les termes avec des tags différents
+
+- indiquer l'impact sur la structure des ngrams produits
+- indiquer l'impact sur les axes interprétatifs
+
+
+\section{Conclusion}
+Agile data analysis (manage your tags with Gargantext)
+
+Note: the user cannot chose its words, so part 3.
+
+
--- a/texts/articles/2016-UCA.tex
+++ b/texts/articles/2016-UCA.tex
+\title{Mini-Data: impact of mini contextual data on the big data
+analysis (part 1)}
+
+\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
+Castillo}
+% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
+% celui de Samuel. On pourrait éventuellement envisager un autre article
+% plus fondé sur la visualisation
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet des
+unités contextuelles d'analyse sur la fouille textuelle.
+}
+
+
+\section{Protocol}
+
+- prendre n sujets in english language (abeilles, changement climatique, fukushima)
+- 3 UCA différentes (8 phrases, 4 phrases, 1 phrases)
+
+- mesurer la distance des matrices de coocurrence
+- extraire les termes avec le plus grand écart
+
+- indiquer l'impact sur la structure des graphs produits % plusieurs alog de culsterisation (louvain, percolation)
+- indiquer l'impact sur les axes interprétatifs
+
+\section{Conclusion}
+Agile data analysis (manage your contexts with Gargantext)
+
+Note: dans cette étape, on n'a pas besoin de faire du tagging d'où le
+part 2.
--- a/texts/articles/2016-VIZ.tex
+++ b/texts/articles/2016-VIZ.tex
+\title{Viz-Data}
+
+
+\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic}
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet de la
+visualisation sur la fouille textuelle.
+}
+
+
+
+
--- a/texts/roadmap/Ideas.tex
+++ b/texts/roadmap/Ideas.tex
+
+\section{Introduction}
+
+A ce jour l'originalité de Gargantext est son assemblage.
+Progressivement, nous introduisons des éléments qui nous sont propres
+puisque chaque brique peut être améliorée à la suite des tests
+comparatifs réalisé entre convergence du questionnement scientifique et
+capacité du macroscope.
+
+Nous appelons Macroscope les technologies qui permettent d'accéder à la
+masse de données: accessibilité (vue, ouïe), 
+
+\section{Infrastructure}
+
+
+\section{Huile alogorithmique}
+
+Pour 
+
+Gestion de la complexité:
+- utilisateur
+- logiciel
+- objet d'étude extérieur
+
+
+\section{Accessibilité}
+
+\subsection{Vues de Gargantext}
+
+Chaque 
+
+
+\subsection{Ouïe de Gargantext}
+
+Supports visuels oui mais pas seulement. A ce jour, l'accès à
+aux analyses Gargantext est essentiellement visuelle. L'audition
+pourrait être mobilisée pour veiller à l'évolution con-text-uel
+des controverses\footnote{Cette remarque a été faite par Catherine
+Robert en cours de réunion au sujet de l'avenir de la plateforme
+Gargantext. Elle a suggéré d'introduire des instruments. Cette
+partie est donc une réponse à ce problème}. C'est le projet
+Symphotext.
+
+Chaque ensemble de texte serait jouée par un instrument.
+Le rythme dépendrait du nombre d'occurrences par période de temps
+(densité textuelle).
+L'utilisateur pourrait alors composer sa propre symphonie en choisissant
+les instruments pour chaque ensemble textuel.
+
+\subsection{Toucher et odorat de Gargantext: une question de goût}
+
+Cette partie fondamentale consisterait à composer des recettes de
+cuisines à partir des ingrédients.
+
+
+
+\section{Eco-système}
+
+Les développeurs
+Formation
+Utilisateurs
+CNRS
+
+
+
--- a/texts/roadmap/Roadmap.tex
+++ b/texts/roadmap/Roadmap.tex
+
+\section{Présentation de Gargantext}
+La plateforme Gargantext est une plateforme collaborative de fouille
+textuelle pour visualiser, annoter et cartographier de grands corpus
+de textes numérisés.
+
+A ce jour, la plateforme comptabilise plus de 60 comptes d'accès
+(ce qui correspond à une centaine d'utilisateurs car 30 d'entre
+eux sont des comptes collectifs), dont 80\% d'étudiants et 20\% de
+chercheurs en sachant que nous limitons volontairement l'ouverture des
+comptes pour en limiter le coût de la maintenance et privilégier les
+nouveaux développements.
+
+A ce jour, la plateforme accepte 8 formats de base de données
+différents: des sciences académiques à la presse quotidienne en
+passant par des outils d'exploration du Web. Elle mobilise 4 taguers
+différents pour les opérations de Text-Mining sur 2 langues :
+l'anglais et le français. Le backend de la plateforme est écrit
+principalement avec un language orienté object (Python) et est
+fondée sur la base de données relationnelle PostgreSQL; le frontend
+mobilise essentiellement le langage javascript ce qui permet aux
+utilisateur de l'utiliser avec un navigateur web installé sur un
+ordinateur personnel, une tablette ou un téléphone mobile.
+
+La plateforme permet à ce jour:
+
+\begin{itemize}
+    \item L'extraction des documents pour leur sélection (filtrage, lecture,
+sélection des doublons);
+
+    \item L'extraction des multitermes (séquences de N entités d'un -- ou
+    plusieurs -- type grammatical donné) et outils d'aide à la
+    sélection des listes de termes (que l'on souhaite intégrer à
+    l'analyse ou non);
+
+    \item L'annotation des documents et de leurs termes associés;
+
+    \item La construction d'histogrammes historiques avec des filtres
+    permettant différents niveaux de granularité différents.
+
+    \item Lexploration des graphes thématiques permettant un
+        aller retour entre les analyses statistiques globales et les
+        document au niveau local.
+\end{itemize}
+
+A partir du retour sur expérience nous permettent déjà de faire
+apparaître que nous atteignons les opportunités et les limites d'une
+telle plateforme pour le CNRS.
+
+\section{Objectifs de développement}
+Les objectifs de développement à moyen et long-terme sont les suivants:
+
+\subsection{Faciliter l'accès}
+Pour le moment, le site est optimisé pour un usage sur un ordinateur
+personnel. Cependant, un accès via tablette ou smartphone devrait être
+privilégié.
+
+\subsection{Accroître la couverture}
+- développer de nouvelles collaboration (Avec le CERN en ce moment) ce
+qui permet la mise en place de synergies: une thèse au CSI sur le CERN ?
+- s'ouvrir aux résaux sociaux et à l'exploration du Web
+- Les objectifs de développement sont: augmenter le nombre de langues
+: Spanish, Italian, Deutsh, Dutch, Português, Polish, Persan
+
+\subsection{Accueillir (sereinement) les nouvelles fonctionnalités}
+Les nouvelles fonctionnalités (différents niveaux de granularité des
+analyses, diachronie) accroient la complexité logicielle qui doit être
+générique: tous les cas possibles des utilisations doivent être pensés
+en amont. Or nous atteignons les limites de la programmation impérative
+et nous devons passer à la programmation fonctionnelle pour gérer
+simplement la complexité. La première version de Gargantext est écrite
+dans un langage impératif qui atteint ses limites. La seconde version de
+Gargantext devra intégrer des éléments fonctionnels.
+
+
+\subsection{Améliorer la fiabilité des analyses}
+Dans un futur proche, nous pourrons travailler de manière
+collaborative sur des graphes bipartites et diachroniques. Cependant,
+en termes de maintenance, la plateforme atteint aujourd'hui les 10
+000 lignes de codes. La maintenance devient non négligeable et la
+compliexité s'accroît corrélativement (avec un facteur multiplicatif
+conséquent pour chaque nouvelle implémentation) aux
+dépends du développement de l'intégration de nouvelles idées.
+Il s'agit donc de promouvoir une stratégie de tests:
+- tests à la compilation: c'est la limite selon nous du langage
+dynamiquement compilé, et largement utilisé en science: Python.
+- tests avec des valeurs aléatoires
+- tests utilisateurs avec analyse des logs
+
+
+\subsection{Passer à l'échelle du big data}
+Passer la base de donnée à l'échelle du cluster.
+Lancer les calculs en parallèle pour accélérer le temps de réponse.
+Gérer dynamiquement la "concurrency" des processus lancés à travers le
+réseau.
+
+
+
+
+
+