Commit 3fed7d4c authored by Administrator's avatar Administrator

Merge branch 'roadmap'

parents 01d2409f f0f7bcfd
\relax
\providecommand\hyper@newdestlabel[2]{}
\providecommand\HyperFirstAtBeginDocument{\AtBeginDocument}
\HyperFirstAtBeginDocument{\ifx\hyper@anchor\@undefined
\global\let\oldcontentsline\contentsline
\gdef\contentsline#1#2#3#4{\oldcontentsline{#1}{#2}{#3}}
\global\let\oldnewlabel\newlabel
\gdef\newlabel#1#2{\newlabelxx{#1}#2}
\gdef\newlabelxx#1#2#3#4#5#6{\oldnewlabel{#1}{{#2}{#3}}}
\AtEndDocument{\ifx\hyper@anchor\@undefined
\let\contentsline\oldcontentsline
\let\newlabel\oldnewlabel
\fi}
\fi}
\global\let\hyper@last\relax
\gdef\HyperFirstAtBeginDocument#1{#1}
\providecommand\HyField@AuxAddToFields[1]{}
\providecommand\HyField@AuxAddToCoFields[2]{}
\@writefile{toc}{\beamer@endinputifotherversion {3.24pt}}
\@writefile{nav}{\beamer@endinputifotherversion {3.24pt}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {1}{1}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {2}{6}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {7}{9}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {10}{12}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {13}{17}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {18}{19}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {20}{21}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {22}{22}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {23}{27}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {28}{32}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {33}{36}}}
\@writefile{nav}{\headcommand {\beamer@partpages {1}{36}}}
\@writefile{nav}{\headcommand {\beamer@subsectionpages {1}{36}}}
\@writefile{nav}{\headcommand {\beamer@sectionpages {1}{36}}}
\@writefile{nav}{\headcommand {\beamer@documentpages {36}}}
\@writefile{nav}{\headcommand {\def \inserttotalframenumber {11}}}
This diff is collapsed.
\beamer@endinputifotherversion {3.24pt}
\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}
\headcommand {\beamer@framepages {1}{1}}
\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}
\headcommand {\beamer@framepages {2}{6}}
\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}
\headcommand {\beamer@framepages {7}{9}}
\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}
\headcommand {\beamer@framepages {10}{12}}
\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}
\headcommand {\beamer@framepages {13}{17}}
\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}
\headcommand {\beamer@framepages {18}{19}}
\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}
\headcommand {\beamer@framepages {20}{21}}
\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}
\headcommand {\beamer@framepages {22}{22}}
\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}
\headcommand {\beamer@framepages {23}{27}}
\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}
\headcommand {\beamer@framepages {28}{32}}
\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}
\headcommand {\beamer@framepages {33}{36}}
\headcommand {\beamer@partpages {1}{36}}
\headcommand {\beamer@subsectionpages {1}{36}}
\headcommand {\beamer@sectionpages {1}{36}}
\headcommand {\beamer@documentpages {36}}
\headcommand {\def \inserttotalframenumber {11}}
\beamer@endinputifotherversion {3.24pt}
Gargantext:
Court-Terme: une plateforme fiable de text-mining
Moyen-Terme: une platforme agile de text-mining
Long-Terme: une plateforme collaborative de text-mining
PB:
Gargantext à 5 ans
Gargantext à 5 ans
Gargantext à 5 ans
Gargantext à 5 ans
Summer of 2017: Big Data Summer School
Every body can participate:
- irc chan
- mailing-list
Legal:
works are under licence BSD, CECIL or CC: By-SA
(I would prefer BSD which clear enough others are complicated)
3 main steps:
- Text-Mining Challenge: counting char challenge in 1 gigas files.
Winner is a function with best time/line of code and clarity.
(vote by participants)
- Data Mining Challenge:
- Database Challenge: best structure
- propose challenges for the next challage
\title{Mini-Data: impact of mini contextual data on big data analysis
(part 3)}
\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic, Elias}
% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
% celui de Samuel. On pourrait éventuellement envisager un autre article
% plus fondé sur la visualisation
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet du
choix des termes et des listes sur les graphes
}
\section{Protocol}
- prendre n sujets in english language (abeilles, changement climatique, fukushima)
- N individuals
%- mesurer la distance entre les listes
%- extraire les termes avec des tags différents
%
%- indiquer l'impact sur la structure des ngrams produits
%- indiquer l'impact sur les axes interprétatifs
%
%
\section{Conclusion}
Agile data analysis (manage your lists with Gargantext)
%
%Note: the user cannot chose its words, so part 3.
%
\title{Mini-Data: impact of mini contextual data on big data analysis
(part 2)}
\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
Castillo}
% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
% celui de Samuel. On pourrait éventuellement envisager un autre article
% plus fondé sur la visualisation
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet du
post-tagging sur la fouille textuelle.
}
\section{Protocol}
- prendre n sujets in english language (abeilles, changement climatique, fukushima)
- N taguers différents
- french: TreeTaguer, Nltk, Melt
- english: Nltk, TurboParser, Melt (explain why not Stanford (java...))
- mesurer la distance entre les tags
- extraire les termes avec des tags différents
- indiquer l'impact sur la structure des ngrams produits
- indiquer l'impact sur les axes interprétatifs
\section{Conclusion}
Agile data analysis (manage your tags with Gargantext)
Note: the user cannot chose its words, so part 3.
\title{Mini-Data: impact of mini contextual data on the big data
analysis (part 1)}
\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
Castillo}
% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
% celui de Samuel. On pourrait éventuellement envisager un autre article
% plus fondé sur la visualisation
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet des
unités contextuelles d'analyse sur la fouille textuelle.
}
\section{Protocol}
- prendre n sujets in english language (abeilles, changement climatique, fukushima)
- 3 UCA différentes (8 phrases, 4 phrases, 1 phrases)
- mesurer la distance des matrices de coocurrence
- extraire les termes avec le plus grand écart
- indiquer l'impact sur la structure des graphs produits % plusieurs alog de culsterisation (louvain, percolation)
- indiquer l'impact sur les axes interprétatifs
\section{Conclusion}
Agile data analysis (manage your contexts with Gargantext)
Note: dans cette étape, on n'a pas besoin de faire du tagging d'où le
part 2.
\title{Viz-Data}
\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic}
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet de la
visualisation sur la fouille textuelle.
}
\section{Introduction}
A ce jour l'originalité de Gargantext est son assemblage.
Progressivement, nous introduisons des éléments qui nous sont propres
puisque chaque brique peut être améliorée à la suite des tests
comparatifs réalisé entre convergence du questionnement scientifique et
capacité du macroscope.
Nous appelons Macroscope les technologies qui permettent d'accéder à la
masse de données: accessibilité (vue, ouïe),
\section{Infrastructure}
\section{Huile alogorithmique}
Pour
Gestion de la complexité:
- utilisateur
- logiciel
- objet d'étude extérieur
\section{Accessibilité}
\subsection{Vues de Gargantext}
Chaque
\subsection{Ouïe de Gargantext}
Supports visuels oui mais pas seulement. A ce jour, l'accès à
aux analyses Gargantext est essentiellement visuelle. L'audition
pourrait être mobilisée pour veiller à l'évolution con-text-uel
des controverses\footnote{Cette remarque a été faite par Catherine
Robert en cours de réunion au sujet de l'avenir de la plateforme
Gargantext. Elle a suggéré d'introduire des instruments. Cette
partie est donc une réponse à ce problème}. C'est le projet
Symphotext.
Chaque ensemble de texte serait jouée par un instrument.
Le rythme dépendrait du nombre d'occurrences par période de temps
(densité textuelle).
L'utilisateur pourrait alors composer sa propre symphonie en choisissant
les instruments pour chaque ensemble textuel.
\subsection{Toucher et odorat de Gargantext: une question de goût}
Cette partie fondamentale consisterait à composer des recettes de
cuisines à partir des ingrédients.
\section{Eco-système}
Les développeurs
Formation
Utilisateurs
CNRS
\section{Présentation de Gargantext}
La plateforme Gargantext est une plateforme collaborative de fouille
textuelle pour visualiser, annoter et cartographier de grands corpus
de textes numérisés.
A ce jour, la plateforme comptabilise plus de 60 comptes d'accès
(ce qui correspond à une centaine d'utilisateurs car 30 d'entre
eux sont des comptes collectifs), dont 80\% d'étudiants et 20\% de
chercheurs en sachant que nous limitons volontairement l'ouverture des
comptes pour en limiter le coût de la maintenance et privilégier les
nouveaux développements.
A ce jour, la plateforme accepte 8 formats de base de données
différents: des sciences académiques à la presse quotidienne en
passant par des outils d'exploration du Web. Elle mobilise 4 taguers
différents pour les opérations de Text-Mining sur 2 langues :
l'anglais et le français. Le backend de la plateforme est écrit
principalement avec un language orienté object (Python) et est
fondée sur la base de données relationnelle PostgreSQL; le frontend
mobilise essentiellement le langage javascript ce qui permet aux
utilisateur de l'utiliser avec un navigateur web installé sur un
ordinateur personnel, une tablette ou un téléphone mobile.
La plateforme permet à ce jour:
\begin{itemize}
\item L'extraction des documents pour leur sélection (filtrage, lecture,
sélection des doublons);
\item L'extraction des multitermes (séquences de N entités d'un -- ou
plusieurs -- type grammatical donné) et outils d'aide à la
sélection des listes de termes (que l'on souhaite intégrer à
l'analyse ou non);
\item L'annotation des documents et de leurs termes associés;
\item La construction d'histogrammes historiques avec des filtres
permettant différents niveaux de granularité différents.
\item Lexploration des graphes thématiques permettant un
aller retour entre les analyses statistiques globales et les
document au niveau local.
\end{itemize}
A partir du retour sur expérience nous permettent déjà de faire
apparaître que nous atteignons les opportunités et les limites d'une
telle plateforme pour le CNRS.
\section{Objectifs de développement}
Les objectifs de développement à moyen et long-terme sont les suivants:
\subsection{Faciliter l'accès}
Pour le moment, le site est optimisé pour un usage sur un ordinateur
personnel. Cependant, un accès via tablette ou smartphone devrait être
privilégié.
\subsection{Accroître la couverture}
- développer de nouvelles collaboration (Avec le CERN en ce moment) ce
qui permet la mise en place de synergies: une thèse au CSI sur le CERN ?
- s'ouvrir aux résaux sociaux et à l'exploration du Web
- Les objectifs de développement sont: augmenter le nombre de langues
: Spanish, Italian, Deutsh, Dutch, Português, Polish, Persan
\subsection{Accueillir (sereinement) les nouvelles fonctionnalités}
Les nouvelles fonctionnalités (différents niveaux de granularité des
analyses, diachronie) accroient la complexité logicielle qui doit être
générique: tous les cas possibles des utilisations doivent être pensés
en amont. Or nous atteignons les limites de la programmation impérative
et nous devons passer à la programmation fonctionnelle pour gérer
simplement la complexité. La première version de Gargantext est écrite
dans un langage impératif qui atteint ses limites. La seconde version de
Gargantext devra intégrer des éléments fonctionnels.
\subsection{Améliorer la fiabilité des analyses}
Dans un futur proche, nous pourrons travailler de manière
collaborative sur des graphes bipartites et diachroniques. Cependant,
en termes de maintenance, la plateforme atteint aujourd'hui les 10
000 lignes de codes. La maintenance devient non négligeable et la
compliexité s'accroît corrélativement (avec un facteur multiplicatif
conséquent pour chaque nouvelle implémentation) aux
dépends du développement de l'intégration de nouvelles idées.
Il s'agit donc de promouvoir une stratégie de tests:
- tests à la compilation: c'est la limite selon nous du langage
dynamiquement compilé, et largement utilisé en science: Python.
- tests avec des valeurs aléatoires
- tests utilisateurs avec analyse des logs
\subsection{Passer à l'échelle du big data}
Passer la base de donnée à l'échelle du cluster.
Lancer les calculs en parallèle pour accélérer le temps de réponse.
Gérer dynamiquement la "concurrency" des processus lancés à travers le
réseau.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment