[DEBUG] trying to fit 'MElt FR' as a tagger

dde756c1 · Mathieu Rodic · 3b565087 · dde756c1 · dde756c1 · dde756c1
Commit dde756c1 authored Sep 04, 2015 by Mathieu Rodic
Showing with 7 additions and 7 deletions

EnglishNgramsExtractor.py parsing/NgramsExtractors/EnglishNgramsExtractor.py +3 -3

NgramsExtractor.py parsing/NgramsExtractors/NgramsExtractor.py +3 -3

MeltTagger.py parsing/Taggers/MeltTagger.py +1 -1

No files found.
--- a/parsing/NgramsExtractors/EnglishNgramsExtractor.py
+++ b/parsing/NgramsExtractors/EnglishNgramsExtractor.py
 from .NgramsExtractor import NgramsExtractor
-from ..Taggers import NltkTagger
+from ..Taggers import NltkTagger, MeltTagger


 class EnglishNgramsExtractor(NgramsExtractor):

    def start(self):
-        self.tagger = NltkTagger()
-        # self.tagger = MeltTagger(language='en')
+        # self.tagger = NltkTagger()
+        self.tagger = MeltTagger(language='en')
    
\ No newline at end of file
--- a/parsing/NgramsExtractors/NgramsExtractor.py
+++ b/parsing/NgramsExtractors/NgramsExtractor.py
@@ -29,9 +29,9 @@ class NgramsExtractor:
    Returns a list of the ngrams found in the given text.
    """
    def extract_ngrams(self, contents):
-        tagged_ngrams = list(self.tagger.tag_text(contents))
-        if len(tagged_ngrams):
-            grammar_parsed = self._grammar.parse(tagged_ngrams)
+        tagged_tokens = list(self.tagger.tag_text(contents))
+        if len(tagged_tokens):
+            grammar_parsed = self._grammar.parse(tagged_tokens)
            for subtree in grammar_parsed.subtrees():
                if subtree.label() == self._label:
                    yield subtree.leaves()
--- a/parsing/Taggers/MeltTagger.py
+++ b/parsing/Taggers/MeltTagger.py
@@ -102,7 +102,7 @@ class MeltTagger(Tagger):
                if len(token.string):
                    yield (token.string, token.label, )

-    def tag_text(self, text, lemmatize=True):
+    def tag_text(self, text, lemmatize=False):
        tagged_tokens = self._tag(text)
        # without lemmatization
        if not lemmatize: