images dim

b435c57b · David · 2036aa0b · 3fed7d4c · 2036aa0b · 2036aa0b
Commit b435c57b authored Jul 22, 2015 by David
25 changed files
--- a/Gargantext.pdf
+++ b/Gargantext.pdf
--- a/PresMDTS11_2.aux
+++ b/PresMDTS11_2.aux
-\relax 
-\providecommand\hyper@newdestlabel[2]{}
-\providecommand\HyperFirstAtBeginDocument{\AtBeginDocument}
-\HyperFirstAtBeginDocument{\ifx\hyper@anchor\@undefined
-\global\let\oldcontentsline\contentsline
-\gdef\contentsline#1#2#3#4{\oldcontentsline{#1}{#2}{#3}}
-\global\let\oldnewlabel\newlabel
-\gdef\newlabel#1#2{\newlabelxx{#1}#2}
-\gdef\newlabelxx#1#2#3#4#5#6{\oldnewlabel{#1}{{#2}{#3}}}
-\AtEndDocument{\ifx\hyper@anchor\@undefined
-\let\contentsline\oldcontentsline
-\let\newlabel\oldnewlabel
-\fi}
-\fi}
-\global\let\hyper@last\relax 
-\gdef\HyperFirstAtBeginDocument#1{#1}
-\providecommand\HyField@AuxAddToFields[1]{}
-\providecommand\HyField@AuxAddToCoFields[2]{}
-\@writefile{toc}{\beamer@endinputifotherversion {3.24pt}}
-\@writefile{nav}{\beamer@endinputifotherversion {3.24pt}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {1}{1}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {2}{6}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {7}{9}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {10}{12}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {13}{17}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {18}{19}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {20}{21}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {22}{22}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {23}{27}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {28}{32}}}
-\@writefile{nav}{\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}}
-\@writefile{nav}{\headcommand {\beamer@framepages {33}{36}}}
-\@writefile{nav}{\headcommand {\beamer@partpages {1}{36}}}
-\@writefile{nav}{\headcommand {\beamer@subsectionpages {1}{36}}}
-\@writefile{nav}{\headcommand {\beamer@sectionpages {1}{36}}}
-\@writefile{nav}{\headcommand {\beamer@documentpages {36}}}
-\@writefile{nav}{\headcommand {\def \inserttotalframenumber {11}}}
--- a/PresMDTS11_2.log
+++ b/PresMDTS11_2.log
--- a/PresMDTS11_2.nav
+++ b/PresMDTS11_2.nav
-\beamer@endinputifotherversion {3.24pt}
-\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}
-\headcommand {\beamer@framepages {1}{1}}
-\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}
-\headcommand {\beamer@framepages {2}{6}}
-\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}
-\headcommand {\beamer@framepages {7}{9}}
-\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}
-\headcommand {\beamer@framepages {10}{12}}
-\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}
-\headcommand {\beamer@framepages {13}{17}}
-\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}
-\headcommand {\beamer@framepages {18}{19}}
-\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}
-\headcommand {\beamer@framepages {20}{21}}
-\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}
-\headcommand {\beamer@framepages {22}{22}}
-\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}
-\headcommand {\beamer@framepages {23}{27}}
-\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}
-\headcommand {\beamer@framepages {28}{32}}
-\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}
-\headcommand {\beamer@framepages {33}{36}}
-\headcommand {\beamer@partpages {1}{36}}
-\headcommand {\beamer@subsectionpages {1}{36}}
-\headcommand {\beamer@sectionpages {1}{36}}
-\headcommand {\beamer@documentpages {36}}
-\headcommand {\def \inserttotalframenumber {11}}
--- a/PresMDTS11_2.out
+++ b/PresMDTS11_2.out
--- a/PresMDTS11_2.pdf
+++ b/PresMDTS11_2.pdf
--- a/PresMDTS11_2.snm
+++ b/PresMDTS11_2.snm
--- a/PresMDTS11_2.synctex.gz
+++ b/PresMDTS11_2.synctex.gz
--- a/PresMDTS11_2.toc
+++ b/PresMDTS11_2.toc
-\beamer@endinputifotherversion {3.24pt}
--- a/beamer/Gargantext.mdwn
+++ b/beamer/Gargantext.mdwn
+
+Gargantext:
+Court-Terme: une plateforme fiable de text-mining
+Moyen-Terme: une platforme agile de text-mining
+Long-Terme: une plateforme collaborative de text-mining
+
+
+
+PB: 
+
+
+Gargantext à 5 ans
+Gargantext à 5 ans
+Gargantext à 5 ans
+Gargantext à 5 ans
+
+
+
--- a/Gargantext.tex
+++ b/Gargantext.tex
@@ -176,12 +176,12 @@ px]{images/tinaweb.png}\\ \end{figure}
 	\frametitle{Gargantext is Language agnostic}
 	\begin{itemize}
 		\item English
-		\item French
+		\item Français
 		\item Spanish
 		\item Italian
-		\item German
+		\item Deutsh
 		\item Dutch
-		\item Portugesh
+		\item Português
 		\item Polish
 		\item Persan
 	\end{itemize}

--- a/PresMDTS11_2.tex
+++ b/PresMDTS11_2.tex
--- a/images/GargantextAnnotation.png
+++ b/images/GargantextAnnotation.png
--- a/images/bibliometrics.png
+++ b/images/bibliometrics.png
--- a/images/gargantextProject.png
+++ b/images/gargantextProject.png
--- a/images/logoDIM.png
+++ b/images/logoDIM.png
--- a/textes_divers/MissionCERN.mdwn
+++ b/textes_divers/MissionCERN.mdwn
+Objectifs du projet
+
+- un accès aux chercheurs du CERN: faciliter les états de l'art
+- un accès à des sociologues de sciences
+
+Objectifs généraux d'accès à cette base
+- dynamique de la science en train de se faire
+- analyse croisée ethnographique et quantitative
+- qu'apporte la réflexivité scientifique à la science elle-même ?
+
+
+
--- a/texts/2017-BigDataSummerSchool.mdwn
+++ b/texts/2017-BigDataSummerSchool.mdwn
+Summer of 2017: Big Data Summer School
+
+Every body can participate:
+- irc chan
+- mailing-list
+
+Legal:
+works are under licence BSD, CECIL or CC: By-SA
+(I would prefer BSD which clear enough others are complicated)
+
+
+3 main steps:
+- Text-Mining Challenge: counting char challenge in 1 gigas files. 
+Winner is a function with best time/line of code and clarity.
+(vote by participants)
+
+- Data Mining Challenge: 
+- Database Challenge: best structure
+- propose challenges for the next challage
+
--- a/texts/EditeurDonneesLogiciels.mdwn
+++ b/texts/EditeurDonneesLogiciels.mdwn
+Note pour la DIST.
+
+
+Acteurs dans l'éco-système des bases de données:
+- les éditeurs de données
+- les éditeurs de logiciels d'analyse
+- les fournissuers d'accès aux données
+
+Lorsque ces 3 métiers ne sont pas séparés, une exploitation neutre
+et scientifique des données peut être compromise.
+
+L'Institut des Systèmes Complexes de Paris Ile-de-France (ISC-PIF,
+UPS3611) travaille à la création de logiciels d'analyse de données
+en favorisant autant que possible les approches des données ouvertes
+et des logiciels libres. Le caractère libre et ouvert des logiciels
+d'analyse est pour un pré-requis pour assurer la reproductibilité
+des résultats et l'utilisation de ces analyses dans différents
+contextes avec un niveau d'information suffisant sur les traitements
+effectués et donc sur leur interprétation.
+
+Nous nous sommes spécialisés dans la traitement des grandes masses
+de données textuelles hétérogènes. Ex : tout le WoS, tout MedLine,
+etc.
+
+A cette fin, nous avons besoin de pouvoir traiter l'ensemble d'un
+catalogues en en analysant les principaux champs, de manière massive
+(au minimum analyse des titres, résumés, dates de publication,
+auteurs) et avec une mise à jour du catalogue au fil de l'eau.
+Les outils que nous développons prennent tout leur sens lorsqu'un
+retour au corpus d'origine est possible. Nous implémentons des
+fonctionnalités d'annotation de corpus qui permettent d'ajouter de la
+valeurs aux catalogue de manière cumulative et collaborative. Nous
+avons besoin pour cela de pouvoir faire apparaitre les résultats de
+requête sur les données d'origine dans des applications tierces
+et de donner à l'utilisateur la possibilité de les annoter, ces
+annotations étant stockées dans le logiciel tiers et partagées
+entre les utilisateurs.
+
+Les licences actuelles dont nous disposons via le CNRS ou via notre propre acquisition :
+- soit interdisent l'analyse massive du catalogue,
+- soit interdisent la publication dans des applications tierces des analyses produites;
+- soit interdisent la publication dans des applications tierces des résultat de requêtes ainsi que l'affichage d'éléments particuliers,
+- soit limitent drastiquement le type de champs que l'on peut analyser.
+
+Bien souvent, il y a une combinaison de plusieurs restrictions.
+
+Si l'on veut que le CNRS développe des solutions innovantes pour
+l'analyse de grandes masses de données bibliographiques et de leurs
+usages, il faudrait pouvoir :
+
+- faire du text-mining et de l'analyse de corpus à grande echelle sur
+les cataloques auxquels nous avons accès (TAL, analyse de graphes,
+visualisations, etc.),
+
+- pouvoir produire, au sein d'applications destinées aux différents
+publics visés (chercheurs, décideurs, etc.) des visualisations à
+partir de ces analyses et des environnements de travail permettant
+de naviguer dans ces corpus : les interroger de manière innovante,
+présenter les résultats, afficher des articles particuliers dans une
+application tierce.
+
+- pourvoir mettre à jour le catalogue en continu à des fin d'analyse,
+- rester propriétaire des données d'usage ainsi produites.
+
+
+Pour le moment, nous constatons que le CNRS paie plusieurs fois les
+accès pour différents usages avec des restrictions différentes
+à chaque fois (plateforme en ligne, données brut, OST). C'est
+insatisfaisant du point de vue de l'usage et du point de vue
+financier.
+
+Par ailleurs, les fournisseurs de données on adopté pour nouvelle
+stratégie de développer des services d'accès aux données où les
+utilisateurs sont captifs, ceci afin de vendre le service et utiliser
+les données d'usages à des fins de valorisation, données auxquelles
+nous n'avons pas accès bien que générées par nos chercheurs.
+
--- a/texts/articles/2016-Lists.tex
+++ b/texts/articles/2016-Lists.tex
+\title{Mini-Data: impact of mini contextual data on big data analysis
+(part 3)}
+
+
+\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic, Elias}
+% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
+% celui de Samuel. On pourrait éventuellement envisager un autre article
+% plus fondé sur la visualisation
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet du
+choix des termes et des listes sur les graphes
+}
+
+
+\section{Protocol}
+
+- prendre n sujets in english language (abeilles, changement climatique, fukushima)
+- N individuals
+
+%- mesurer la distance entre les listes
+%- extraire les termes avec des tags différents
+%
+%- indiquer l'impact sur la structure des ngrams produits
+%- indiquer l'impact sur les axes interprétatifs
+%
+%
+\section{Conclusion}
+Agile data analysis (manage your lists with Gargantext)
+%
+%Note: the user cannot chose its words, so part 3.
+%
+
--- a/texts/articles/2016-TAG.tex
+++ b/texts/articles/2016-TAG.tex
+\title{Mini-Data: impact of mini contextual data on big data analysis
+(part 2)}
+
+
+\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
+Castillo}
+% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
+% celui de Samuel. On pourrait éventuellement envisager un autre article
+% plus fondé sur la visualisation
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet du
+post-tagging sur la fouille textuelle.
+}
+
+
+\section{Protocol}
+
+- prendre n sujets in english language (abeilles, changement climatique, fukushima)
+- N taguers différents
+	- french: TreeTaguer, Nltk, Melt
+	- english: Nltk, TurboParser, Melt (explain why not Stanford (java...))
+
+- mesurer la distance entre les tags
+- extraire les termes avec des tags différents
+
+- indiquer l'impact sur la structure des ngrams produits
+- indiquer l'impact sur les axes interprétatifs
+
+
+\section{Conclusion}
+Agile data analysis (manage your tags with Gargantext)
+
+Note: the user cannot chose its words, so part 3.
+
+
--- a/texts/articles/2016-UCA.tex
+++ b/texts/articles/2016-UCA.tex
+\title{Mini-Data: impact of mini contextual data on the big data
+analysis (part 1)}
+
+\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
+Castillo}
+% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
+% celui de Samuel. On pourrait éventuellement envisager un autre article
+% plus fondé sur la visualisation
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet des
+unités contextuelles d'analyse sur la fouille textuelle.
+}
+
+
+\section{Protocol}
+
+- prendre n sujets in english language (abeilles, changement climatique, fukushima)
+- 3 UCA différentes (8 phrases, 4 phrases, 1 phrases)
+
+- mesurer la distance des matrices de coocurrence
+- extraire les termes avec le plus grand écart
+
+- indiquer l'impact sur la structure des graphs produits % plusieurs alog de culsterisation (louvain, percolation)
+- indiquer l'impact sur les axes interprétatifs
+
+\section{Conclusion}
+Agile data analysis (manage your contexts with Gargantext)
+
+Note: dans cette étape, on n'a pas besoin de faire du tagging d'où le
+part 2.
--- a/texts/articles/2016-VIZ.tex
+++ b/texts/articles/2016-VIZ.tex
+\title{Viz-Data}
+
+
+\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic}
+
+\abstract{
+L'objectif de cet article est de mesurer et questionner l'effet de la
+visualisation sur la fouille textuelle.
+}
+
+
+
+
--- a/texts/roadmap/Ideas.tex
+++ b/texts/roadmap/Ideas.tex
+
+\section{Introduction}
+
+A ce jour l'originalité de Gargantext est son assemblage.
+Progressivement, nous introduisons des éléments qui nous sont propres
+puisque chaque brique peut être améliorée à la suite des tests
+comparatifs réalisé entre convergence du questionnement scientifique et
+capacité du macroscope.
+
+Nous appelons Macroscope les technologies qui permettent d'accéder à la
+masse de données: accessibilité (vue, ouïe), 
+
+\section{Infrastructure}
+
+
+\section{Huile alogorithmique}
+
+Pour 
+
+Gestion de la complexité:
+- utilisateur
+- logiciel
+- objet d'étude extérieur
+
+
+\section{Accessibilité}
+
+\subsection{Vues de Gargantext}
+
+Chaque 
+
+
+\subsection{Ouïe de Gargantext}
+
+Supports visuels oui mais pas seulement. A ce jour, l'accès à
+aux analyses Gargantext est essentiellement visuelle. L'audition
+pourrait être mobilisée pour veiller à l'évolution con-text-uel
+des controverses\footnote{Cette remarque a été faite par Catherine
+Robert en cours de réunion au sujet de l'avenir de la plateforme
+Gargantext. Elle a suggéré d'introduire des instruments. Cette
+partie est donc une réponse à ce problème}. C'est le projet
+Symphotext.
+
+Chaque ensemble de texte serait jouée par un instrument.
+Le rythme dépendrait du nombre d'occurrences par période de temps
+(densité textuelle).
+L'utilisateur pourrait alors composer sa propre symphonie en choisissant
+les instruments pour chaque ensemble textuel.
+
+\subsection{Toucher et odorat de Gargantext: une question de goût}
+
+Cette partie fondamentale consisterait à composer des recettes de
+cuisines à partir des ingrédients.
+
+
+
+\section{Eco-système}
+
+Les développeurs
+Formation
+Utilisateurs
+CNRS
+
+
+
--- a/texts/roadmap/Roadmap.tex
+++ b/texts/roadmap/Roadmap.tex
+
+\section{Présentation de Gargantext}
+La plateforme Gargantext est une plateforme collaborative de fouille
+textuelle pour visualiser, annoter et cartographier de grands corpus
+de textes numérisés.
+
+A ce jour, la plateforme comptabilise plus de 60 comptes d'accès
+(ce qui correspond à une centaine d'utilisateurs car 30 d'entre
+eux sont des comptes collectifs), dont 80\% d'étudiants et 20\% de
+chercheurs en sachant que nous limitons volontairement l'ouverture des
+comptes pour en limiter le coût de la maintenance et privilégier les
+nouveaux développements.
+
+A ce jour, la plateforme accepte 8 formats de base de données
+différents: des sciences académiques à la presse quotidienne en
+passant par des outils d'exploration du Web. Elle mobilise 4 taguers
+différents pour les opérations de Text-Mining sur 2 langues :
+l'anglais et le français. Le backend de la plateforme est écrit
+principalement avec un language orienté object (Python) et est
+fondée sur la base de données relationnelle PostgreSQL; le frontend
+mobilise essentiellement le langage javascript ce qui permet aux
+utilisateur de l'utiliser avec un navigateur web installé sur un
+ordinateur personnel, une tablette ou un téléphone mobile.
+
+La plateforme permet à ce jour:
+
+\begin{itemize}
+    \item L'extraction des documents pour leur sélection (filtrage, lecture,
+sélection des doublons);
+
+    \item L'extraction des multitermes (séquences de N entités d'un -- ou
+    plusieurs -- type grammatical donné) et outils d'aide à la
+    sélection des listes de termes (que l'on souhaite intégrer à
+    l'analyse ou non);
+
+    \item L'annotation des documents et de leurs termes associés;
+
+    \item La construction d'histogrammes historiques avec des filtres
+    permettant différents niveaux de granularité différents.
+
+    \item Lexploration des graphes thématiques permettant un
+        aller retour entre les analyses statistiques globales et les
+        document au niveau local.
+\end{itemize}
+
+A partir du retour sur expérience nous permettent déjà de faire
+apparaître que nous atteignons les opportunités et les limites d'une
+telle plateforme pour le CNRS.
+
+\section{Objectifs de développement}
+Les objectifs de développement à moyen et long-terme sont les suivants:
+
+\subsection{Faciliter l'accès}
+Pour le moment, le site est optimisé pour un usage sur un ordinateur
+personnel. Cependant, un accès via tablette ou smartphone devrait être
+privilégié.
+
+\subsection{Accroître la couverture}
+- développer de nouvelles collaboration (Avec le CERN en ce moment) ce
+qui permet la mise en place de synergies: une thèse au CSI sur le CERN ?
+- s'ouvrir aux résaux sociaux et à l'exploration du Web
+- Les objectifs de développement sont: augmenter le nombre de langues
+: Spanish, Italian, Deutsh, Dutch, Português, Polish, Persan
+
+\subsection{Accueillir (sereinement) les nouvelles fonctionnalités}
+Les nouvelles fonctionnalités (différents niveaux de granularité des
+analyses, diachronie) accroient la complexité logicielle qui doit être
+générique: tous les cas possibles des utilisations doivent être pensés
+en amont. Or nous atteignons les limites de la programmation impérative
+et nous devons passer à la programmation fonctionnelle pour gérer
+simplement la complexité. La première version de Gargantext est écrite
+dans un langage impératif qui atteint ses limites. La seconde version de
+Gargantext devra intégrer des éléments fonctionnels.
+
+
+\subsection{Améliorer la fiabilité des analyses}
+Dans un futur proche, nous pourrons travailler de manière
+collaborative sur des graphes bipartites et diachroniques. Cependant,
+en termes de maintenance, la plateforme atteint aujourd'hui les 10
+000 lignes de codes. La maintenance devient non négligeable et la
+compliexité s'accroît corrélativement (avec un facteur multiplicatif
+conséquent pour chaque nouvelle implémentation) aux
+dépends du développement de l'intégration de nouvelles idées.
+Il s'agit donc de promouvoir une stratégie de tests:
+- tests à la compilation: c'est la limite selon nous du langage
+dynamiquement compilé, et largement utilisé en science: Python.
+- tests avec des valeurs aléatoires
+- tests utilisateurs avec analyse des logs
+
+
+\subsection{Passer à l'échelle du big data}
+Passer la base de donnée à l'échelle du cluster.
+Lancer les calculs en parallèle pour accélérer le temps de réponse.
+Gérer dynamiquement la "concurrency" des processus lancés à travers le
+réseau.
+
+
+
+
+
+