Minor corrections on the FileParser class

07a6f374 · Mathieu Rodic · be8928f9 · 07a6f374
Commit 07a6f374 authored Oct 19, 2014 by Mathieu Rodic
Hide whitespace changes
Inline Side-by-side

Showing with 11 additions and 3 deletions

FileParser.py mat-parsing/FileParsers/FileParser.py +11 -3

No files found.
--- a/mat-parsing/FileParsers/FileParser.py
+++ b/mat-parsing/FileParsers/FileParser.py
@@ -20,6 +20,14 @@ class NgramCache:
            self._cache[terms] = ngram
        return self._cache[terms]
+class NgramCaches(collections.defaultdict):
+    def __missing__(self, language):
+        self[language] = NgramCache(language)
+        return self[language]
 """Base class for performing files parsing depending on their type.
 """
@@ -32,7 +40,7 @@ class FileParser:
        else:
            self._file = file
        # cache for ngrams
-        self._ngramcaches = collections.defaultdicts(NgramCache)
+        self._ngramcaches = NgramCaches()
        # extractors
        self._extractors = {}
        self._document_nodetype = NodeType.get(label='document')
@@ -90,8 +98,8 @@ class FileParser:
        # parse it!
        ngrams = self.extract_ngrams(contents, language)
-        # we should already be in a transaction, so no use doing another one (or is there?)
+        # we are already in a transaction, so no use doing another one (or is there?)
-        ngramcache = self._ngramcaches[language.iso3]
+        ngramcache = self._ngramcaches[language]
        for terms, occurences in ngrams.items():
            ngram_text = ' '.join([term[0] for term in terms])
            ngram = ngramcache[ngram_text]