Commit b435c57b authored by David's avatar David

images dim

parents 2036aa0b 3fed7d4c
\relax
\providecommand\hyper@newdestlabel[2]{}
\providecommand\HyperFirstAtBeginDocument{\AtBeginDocument}
\HyperFirstAtBeginDocument{\ifx\hyper@anchor\@undefined
\global\let\oldcontentsline\contentsline
\gdef\contentsline#1#2#3#4{\oldcontentsline{#1}{#2}{#3}}
\global\let\oldnewlabel\newlabel
\gdef\newlabel#1#2{\newlabelxx{#1}#2}
\gdef\newlabelxx#1#2#3#4#5#6{\oldnewlabel{#1}{{#2}{#3}}}
\AtEndDocument{\ifx\hyper@anchor\@undefined
\let\contentsline\oldcontentsline
\let\newlabel\oldnewlabel
\fi}
\fi}
\global\let\hyper@last\relax
\gdef\HyperFirstAtBeginDocument#1{#1}
\providecommand\HyField@AuxAddToFields[1]{}
\providecommand\HyField@AuxAddToCoFields[2]{}
\@writefile{toc}{\beamer@endinputifotherversion {3.24pt}}
\@writefile{nav}{\beamer@endinputifotherversion {3.24pt}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {1}{1}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {2}{6}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {7}{9}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {10}{12}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {13}{17}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {18}{19}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {20}{21}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {22}{22}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {23}{27}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {28}{32}}}
\@writefile{nav}{\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}}
\@writefile{nav}{\headcommand {\beamer@framepages {33}{36}}}
\@writefile{nav}{\headcommand {\beamer@partpages {1}{36}}}
\@writefile{nav}{\headcommand {\beamer@subsectionpages {1}{36}}}
\@writefile{nav}{\headcommand {\beamer@sectionpages {1}{36}}}
\@writefile{nav}{\headcommand {\beamer@documentpages {36}}}
\@writefile{nav}{\headcommand {\def \inserttotalframenumber {11}}}
This diff is collapsed.
\beamer@endinputifotherversion {3.24pt}
\headcommand {\slideentry {0}{0}{1}{1/1}{}{0}}
\headcommand {\beamer@framepages {1}{1}}
\headcommand {\slideentry {0}{0}{2}{2/6}{}{0}}
\headcommand {\beamer@framepages {2}{6}}
\headcommand {\slideentry {0}{0}{3}{7/9}{}{0}}
\headcommand {\beamer@framepages {7}{9}}
\headcommand {\slideentry {0}{0}{4}{10/12}{}{0}}
\headcommand {\beamer@framepages {10}{12}}
\headcommand {\slideentry {0}{0}{5}{13/17}{}{0}}
\headcommand {\beamer@framepages {13}{17}}
\headcommand {\slideentry {0}{0}{6}{18/19}{}{0}}
\headcommand {\beamer@framepages {18}{19}}
\headcommand {\slideentry {0}{0}{7}{20/21}{}{0}}
\headcommand {\beamer@framepages {20}{21}}
\headcommand {\slideentry {0}{0}{8}{22/22}{}{0}}
\headcommand {\beamer@framepages {22}{22}}
\headcommand {\slideentry {0}{0}{9}{23/27}{}{0}}
\headcommand {\beamer@framepages {23}{27}}
\headcommand {\slideentry {0}{0}{10}{28/32}{}{0}}
\headcommand {\beamer@framepages {28}{32}}
\headcommand {\slideentry {0}{0}{11}{33/36}{}{0}}
\headcommand {\beamer@framepages {33}{36}}
\headcommand {\beamer@partpages {1}{36}}
\headcommand {\beamer@subsectionpages {1}{36}}
\headcommand {\beamer@sectionpages {1}{36}}
\headcommand {\beamer@documentpages {36}}
\headcommand {\def \inserttotalframenumber {11}}
\beamer@endinputifotherversion {3.24pt}
Gargantext:
Court-Terme: une plateforme fiable de text-mining
Moyen-Terme: une platforme agile de text-mining
Long-Terme: une plateforme collaborative de text-mining
PB:
Gargantext à 5 ans
Gargantext à 5 ans
Gargantext à 5 ans
Gargantext à 5 ans
......@@ -176,12 +176,12 @@ px]{images/tinaweb.png}\\ \end{figure}
\frametitle{Gargantext is Language agnostic}
\begin{itemize}
\item English
\item French
\item Français
\item Spanish
\item Italian
\item German
\item Deutsh
\item Dutch
\item Portugesh
\item Português
\item Polish
\item Persan
\end{itemize}
......
Objectifs du projet
- un accès aux chercheurs du CERN: faciliter les états de l'art
- un accès à des sociologues de sciences
Objectifs généraux d'accès à cette base
- dynamique de la science en train de se faire
- analyse croisée ethnographique et quantitative
- qu'apporte la réflexivité scientifique à la science elle-même ?
Summer of 2017: Big Data Summer School
Every body can participate:
- irc chan
- mailing-list
Legal:
works are under licence BSD, CECIL or CC: By-SA
(I would prefer BSD which clear enough others are complicated)
3 main steps:
- Text-Mining Challenge: counting char challenge in 1 gigas files.
Winner is a function with best time/line of code and clarity.
(vote by participants)
- Data Mining Challenge:
- Database Challenge: best structure
- propose challenges for the next challage
Note pour la DIST.
Acteurs dans l'éco-système des bases de données:
- les éditeurs de données
- les éditeurs de logiciels d'analyse
- les fournissuers d'accès aux données
Lorsque ces 3 métiers ne sont pas séparés, une exploitation neutre
et scientifique des données peut être compromise.
L'Institut des Systèmes Complexes de Paris Ile-de-France (ISC-PIF,
UPS3611) travaille à la création de logiciels d'analyse de données
en favorisant autant que possible les approches des données ouvertes
et des logiciels libres. Le caractère libre et ouvert des logiciels
d'analyse est pour un pré-requis pour assurer la reproductibilité
des résultats et l'utilisation de ces analyses dans différents
contextes avec un niveau d'information suffisant sur les traitements
effectués et donc sur leur interprétation.
Nous nous sommes spécialisés dans la traitement des grandes masses
de données textuelles hétérogènes. Ex : tout le WoS, tout MedLine,
etc.
A cette fin, nous avons besoin de pouvoir traiter l'ensemble d'un
catalogues en en analysant les principaux champs, de manière massive
(au minimum analyse des titres, résumés, dates de publication,
auteurs) et avec une mise à jour du catalogue au fil de l'eau.
Les outils que nous développons prennent tout leur sens lorsqu'un
retour au corpus d'origine est possible. Nous implémentons des
fonctionnalités d'annotation de corpus qui permettent d'ajouter de la
valeurs aux catalogue de manière cumulative et collaborative. Nous
avons besoin pour cela de pouvoir faire apparaitre les résultats de
requête sur les données d'origine dans des applications tierces
et de donner à l'utilisateur la possibilité de les annoter, ces
annotations étant stockées dans le logiciel tiers et partagées
entre les utilisateurs.
Les licences actuelles dont nous disposons via le CNRS ou via notre propre acquisition :
- soit interdisent l'analyse massive du catalogue,
- soit interdisent la publication dans des applications tierces des analyses produites;
- soit interdisent la publication dans des applications tierces des résultat de requêtes ainsi que l'affichage d'éléments particuliers,
- soit limitent drastiquement le type de champs que l'on peut analyser.
Bien souvent, il y a une combinaison de plusieurs restrictions.
Si l'on veut que le CNRS développe des solutions innovantes pour
l'analyse de grandes masses de données bibliographiques et de leurs
usages, il faudrait pouvoir :
- faire du text-mining et de l'analyse de corpus à grande echelle sur
les cataloques auxquels nous avons accès (TAL, analyse de graphes,
visualisations, etc.),
- pouvoir produire, au sein d'applications destinées aux différents
publics visés (chercheurs, décideurs, etc.) des visualisations à
partir de ces analyses et des environnements de travail permettant
de naviguer dans ces corpus : les interroger de manière innovante,
présenter les résultats, afficher des articles particuliers dans une
application tierce.
- pourvoir mettre à jour le catalogue en continu à des fin d'analyse,
- rester propriétaire des données d'usage ainsi produites.
Pour le moment, nous constatons que le CNRS paie plusieurs fois les
accès pour différents usages avec des restrictions différentes
à chaque fois (plateforme en ligne, données brut, OST). C'est
insatisfaisant du point de vue de l'usage et du point de vue
financier.
Par ailleurs, les fournisseurs de données on adopté pour nouvelle
stratégie de développer des services d'accès aux données où les
utilisateurs sont captifs, ceci afin de vendre le service et utiliser
les données d'usages à des fins de valorisation, données auxquelles
nous n'avons pas accès bien que générées par nos chercheurs.
\title{Mini-Data: impact of mini contextual data on big data analysis
(part 3)}
\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic, Elias}
% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
% celui de Samuel. On pourrait éventuellement envisager un autre article
% plus fondé sur la visualisation
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet du
choix des termes et des listes sur les graphes
}
\section{Protocol}
- prendre n sujets in english language (abeilles, changement climatique, fukushima)
- N individuals
%- mesurer la distance entre les listes
%- extraire les termes avec des tags différents
%
%- indiquer l'impact sur la structure des ngrams produits
%- indiquer l'impact sur les axes interprétatifs
%
%
\section{Conclusion}
Agile data analysis (manage your lists with Gargantext)
%
%Note: the user cannot chose its words, so part 3.
%
\title{Mini-Data: impact of mini contextual data on big data analysis
(part 2)}
\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
Castillo}
% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
% celui de Samuel. On pourrait éventuellement envisager un autre article
% plus fondé sur la visualisation
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet du
post-tagging sur la fouille textuelle.
}
\section{Protocol}
- prendre n sujets in english language (abeilles, changement climatique, fukushima)
- N taguers différents
- french: TreeTaguer, Nltk, Melt
- english: Nltk, TurboParser, Melt (explain why not Stanford (java...))
- mesurer la distance entre les tags
- extraire les termes avec des tags différents
- indiquer l'impact sur la structure des ngrams produits
- indiquer l'impact sur les axes interprétatifs
\section{Conclusion}
Agile data analysis (manage your tags with Gargantext)
Note: the user cannot chose its words, so part 3.
\title{Mini-Data: impact of mini contextual data on the big data
analysis (part 1)}
\authors{Alexandre Delanoë, David Chavalarias, Mathieu Rodic, Samuel
Castillo}
% pour moi le travail de Mathieu est plus mobilisé dans ce travail que
% celui de Samuel. On pourrait éventuellement envisager un autre article
% plus fondé sur la visualisation
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet des
unités contextuelles d'analyse sur la fouille textuelle.
}
\section{Protocol}
- prendre n sujets in english language (abeilles, changement climatique, fukushima)
- 3 UCA différentes (8 phrases, 4 phrases, 1 phrases)
- mesurer la distance des matrices de coocurrence
- extraire les termes avec le plus grand écart
- indiquer l'impact sur la structure des graphs produits % plusieurs alog de culsterisation (louvain, percolation)
- indiquer l'impact sur les axes interprétatifs
\section{Conclusion}
Agile data analysis (manage your contexts with Gargantext)
Note: dans cette étape, on n'a pas besoin de faire du tagging d'où le
part 2.
\title{Viz-Data}
\authors{David Chavalarias, Alexandre Delanoë, Samuel Castillo, Mathieu Rodic}
\abstract{
L'objectif de cet article est de mesurer et questionner l'effet de la
visualisation sur la fouille textuelle.
}
\section{Introduction}
A ce jour l'originalité de Gargantext est son assemblage.
Progressivement, nous introduisons des éléments qui nous sont propres
puisque chaque brique peut être améliorée à la suite des tests
comparatifs réalisé entre convergence du questionnement scientifique et
capacité du macroscope.
Nous appelons Macroscope les technologies qui permettent d'accéder à la
masse de données: accessibilité (vue, ouïe),
\section{Infrastructure}
\section{Huile alogorithmique}
Pour
Gestion de la complexité:
- utilisateur
- logiciel
- objet d'étude extérieur
\section{Accessibilité}
\subsection{Vues de Gargantext}
Chaque
\subsection{Ouïe de Gargantext}
Supports visuels oui mais pas seulement. A ce jour, l'accès à
aux analyses Gargantext est essentiellement visuelle. L'audition
pourrait être mobilisée pour veiller à l'évolution con-text-uel
des controverses\footnote{Cette remarque a été faite par Catherine
Robert en cours de réunion au sujet de l'avenir de la plateforme
Gargantext. Elle a suggéré d'introduire des instruments. Cette
partie est donc une réponse à ce problème}. C'est le projet
Symphotext.
Chaque ensemble de texte serait jouée par un instrument.
Le rythme dépendrait du nombre d'occurrences par période de temps
(densité textuelle).
L'utilisateur pourrait alors composer sa propre symphonie en choisissant
les instruments pour chaque ensemble textuel.
\subsection{Toucher et odorat de Gargantext: une question de goût}
Cette partie fondamentale consisterait à composer des recettes de
cuisines à partir des ingrédients.
\section{Eco-système}
Les développeurs
Formation
Utilisateurs
CNRS
\section{Présentation de Gargantext}
La plateforme Gargantext est une plateforme collaborative de fouille
textuelle pour visualiser, annoter et cartographier de grands corpus
de textes numérisés.
A ce jour, la plateforme comptabilise plus de 60 comptes d'accès
(ce qui correspond à une centaine d'utilisateurs car 30 d'entre
eux sont des comptes collectifs), dont 80\% d'étudiants et 20\% de
chercheurs en sachant que nous limitons volontairement l'ouverture des
comptes pour en limiter le coût de la maintenance et privilégier les
nouveaux développements.
A ce jour, la plateforme accepte 8 formats de base de données
différents: des sciences académiques à la presse quotidienne en
passant par des outils d'exploration du Web. Elle mobilise 4 taguers
différents pour les opérations de Text-Mining sur 2 langues :
l'anglais et le français. Le backend de la plateforme est écrit
principalement avec un language orienté object (Python) et est
fondée sur la base de données relationnelle PostgreSQL; le frontend
mobilise essentiellement le langage javascript ce qui permet aux
utilisateur de l'utiliser avec un navigateur web installé sur un
ordinateur personnel, une tablette ou un téléphone mobile.
La plateforme permet à ce jour:
\begin{itemize}
\item L'extraction des documents pour leur sélection (filtrage, lecture,
sélection des doublons);
\item L'extraction des multitermes (séquences de N entités d'un -- ou
plusieurs -- type grammatical donné) et outils d'aide à la
sélection des listes de termes (que l'on souhaite intégrer à
l'analyse ou non);
\item L'annotation des documents et de leurs termes associés;
\item La construction d'histogrammes historiques avec des filtres
permettant différents niveaux de granularité différents.
\item Lexploration des graphes thématiques permettant un
aller retour entre les analyses statistiques globales et les
document au niveau local.
\end{itemize}
A partir du retour sur expérience nous permettent déjà de faire
apparaître que nous atteignons les opportunités et les limites d'une
telle plateforme pour le CNRS.
\section{Objectifs de développement}
Les objectifs de développement à moyen et long-terme sont les suivants:
\subsection{Faciliter l'accès}
Pour le moment, le site est optimisé pour un usage sur un ordinateur
personnel. Cependant, un accès via tablette ou smartphone devrait être
privilégié.
\subsection{Accroître la couverture}
- développer de nouvelles collaboration (Avec le CERN en ce moment) ce
qui permet la mise en place de synergies: une thèse au CSI sur le CERN ?
- s'ouvrir aux résaux sociaux et à l'exploration du Web
- Les objectifs de développement sont: augmenter le nombre de langues
: Spanish, Italian, Deutsh, Dutch, Português, Polish, Persan
\subsection{Accueillir (sereinement) les nouvelles fonctionnalités}
Les nouvelles fonctionnalités (différents niveaux de granularité des
analyses, diachronie) accroient la complexité logicielle qui doit être
générique: tous les cas possibles des utilisations doivent être pensés
en amont. Or nous atteignons les limites de la programmation impérative
et nous devons passer à la programmation fonctionnelle pour gérer
simplement la complexité. La première version de Gargantext est écrite
dans un langage impératif qui atteint ses limites. La seconde version de
Gargantext devra intégrer des éléments fonctionnels.
\subsection{Améliorer la fiabilité des analyses}
Dans un futur proche, nous pourrons travailler de manière
collaborative sur des graphes bipartites et diachroniques. Cependant,
en termes de maintenance, la plateforme atteint aujourd'hui les 10
000 lignes de codes. La maintenance devient non négligeable et la
compliexité s'accroît corrélativement (avec un facteur multiplicatif
conséquent pour chaque nouvelle implémentation) aux
dépends du développement de l'intégration de nouvelles idées.
Il s'agit donc de promouvoir une stratégie de tests:
- tests à la compilation: c'est la limite selon nous du langage
dynamiquement compilé, et largement utilisé en science: Python.
- tests avec des valeurs aléatoires
- tests utilisateurs avec analyse des logs
\subsection{Passer à l'échelle du big data}
Passer la base de donnée à l'échelle du cluster.
Lancer les calculs en parallèle pour accélérer le temps de réponse.
Gérer dynamiquement la "concurrency" des processus lancés à travers le
réseau.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment