Corpus generation from framawrite
Here are some feedback on the corpus generation from framawrite :
- Some sentences seems to have been artificially cut with a punctuation. Example, the word "intelligence.artificielle" in "connexion à l’ensemble des réservoirs de données en libre accès.via des API..Chaque utilisateur contribue à l’enrichissement de l’intelligence.artificielle par des actions"
- The title is the first sentence of a document but should be repeated in the abstract so that we could read the abstract entirely.
- [improvement] it would be gread to give the direct link to the pad as the source and put the current source as author ; or or append the link at the top of the text, just below title
Current version :
## Les documents peuvent être issus de l’espace collaboratif ou par. Authors Source : Documentation Date 2021-10-12 Abstract connexion à l’ensemble des réservoirs de données en libre accès.via des API..Chaque utilisateur contribue à l’enrichissement de l’intelligence.artificielle par des actions d’annotation et de classification des..concepts, termes et expressions..GarganText est un logiciel libre ((AGPL, CECILL) développé par le.CNRS à l’Institut des Systèmes Complexes de Paris Île-de-France.(ISC-PIF) et ses partenaires...# Documentation GarganText.
Would look like :
## Les documents peuvent être issus de l’espace collaboratif ou par [...] Authors Documentation Source : [https://write.frame.gargantext.org/50ffa5be7f7c10c4e8152a48cfb7c298ed5c2e80ba77c76aa451bca3ba98a842?view] Date 2021-10-12 Abstract Les documents peuvent être issus de l’espace collaboratif ou par connexion à l’ensemble des réservoirs de données en libre accès.via des API..Chaque utilisateur contribue à l’enrichissement de l’intelligence.artificielle par des actions d’annotation et de classification des..concepts, termes et expressions..GarganText est un logiciel libre ((AGPL, CECILL) développé par le.CNRS à l’Institut des Systèmes Complexes de Paris Île-de-France.(ISC-PIF) et ses partenaires...# Documentation GarganText.