[FIX] merge correction import.

76f35de3 · delanoe · 2ab53773 · 90bbffd7 · 76f35de3 · 76f35de3
Commit 76f35de3 authored Dec 15, 2015 by delanoe
4 changed files
--- a/annotations/static/annotations/document.js
+++ b/annotations/static/annotations/document.js
@@ -2,10 +2,13 @@
  'use strict';

  var annotationsAppDocument = angular.module('annotationsAppDocument', ['annotationsAppHttp']);
-
  annotationsAppDocument.controller('DocController',
    ['$scope', '$rootScope', '$timeout', 'NgramListHttpService', 'DocumentHttpService',
    function ($scope, $rootScope, $timeout, NgramListHttpService, DocumentHttpService) {
+
+      // dataLoading = signal pour afficher wait
+      $scope.dataLoading = true ;
+
      $rootScope.documentResource = DocumentHttpService.get(
        {'docId': $rootScope.docId},
        function(data, responseHeaders) {
@@ -27,6 +30,7 @@
            function(data) {
              $rootScope.annotations = data[$rootScope.corpusId.toString()][$rootScope.docId.toString()];
              $rootScope.lists = data[$rootScope.corpusId.toString()].lists;
+              $scope.dataLoading = false ;
            },
            function(data) {
              console.error("unable to get the list of ngrams");
@@ -34,6 +38,7 @@
          );

      });
+
      // TODO setup article pagination
      $scope.onPreviousClick = function () {
        DocumentHttpService.get($scope.docId - 1);

--- a/annotations/templates/annotations/main.html
+++ b/annotations/templates/annotations/main.html
@@ -86,6 +86,16 @@
                <li class="list-group-item small"><span class="badge">date</span>{[{publication_date}]}</li>
              </ul>
            </div>
+
+            <div ng-if="dataLoading">
+                Loading text...
+                <br>
+                  <center>
+                    <img width="10%" src="{% static 'img/ajax-loader.gif'%}"></img>
+                  </center>
+                <br>
+            </div>
+
            <div ng-if="abstract_text != null">
                <span class="badge">abstract</span>
            </div>

--- a/parsing/FileParsers/EuropressFileParser.py
+++ b/parsing/FileParsers/EuropressFileParser.py
--- a/parsing/NgramsExtractors/NgramsExtractor.py
+++ b/parsing/NgramsExtractors/NgramsExtractor.py
 # from ..Taggers import NltkTagger
 from ..Taggers import TurboTagger
 import nltk
+from re import sub


 """Base class for all ngrams extractors.
@@ -33,9 +34,21 @@ class NgramsExtractor:
    Returns a list of the ngrams found in the given text.
    """
    def extract_ngrams(self, contents):
-        tagged_tokens = list(self.tagger.tag_text(contents))
+        clean_contents = self._prepare_text(contents)
+
+        # ici tagging
+        tagged_tokens = list(self.tagger.tag_text(clean_contents))
+
        if len(tagged_tokens):
            grammar_parsed = self._grammar.parse(tagged_tokens)
            for subtree in grammar_parsed.subtrees():
                if subtree.label() == self._label:
                    yield subtree.leaves()
+
+    @staticmethod
+    def _prepare_text(text_contents):
+        """
+        Clean the text for better POS tagging
+        """
+        # strip xml tags
+        return sub(r"<[^>]{0,45}>","",text_contents)