Lang corpus
-
wget lang-wikimedia.xml.bz2 : https://dumps.wikimedia.org/backup-index.html
-
bunzip2 lang-wikimedia.xml.bz2
-
fonction extraire les articles avec un format spécifique
Fonction attendue:
wiki2text :: FilePath -> [Article]
data Article = Article { title :: Text , abstract :: Text , text :: Text}