More corrections

e6f6eca9 · Mathieu Rodic · 07a6f374 · e6f6eca9 · e6f6eca9 · e6f6eca9
Commit e6f6eca9 authored Oct 19, 2014 by Mathieu Rodic
4 changed files
--- a/mat-parsing/FileParsers/EuropressFileParser.py
+++ b/mat-parsing/FileParsers/EuropressFileParser.py
+from django.db import transaction
+from FileParser import FileParser
-class EuropressFileParser(FileParser, contents):
+class EuropressFileParser(FileParser):
-    def parse:
+    def parse(self, parentNode):
        pass
\ No newline at end of file
--- a/mat-parsing/FileParsers/FileParser.py
+++ b/mat-parsing/FileParsers/FileParser.py
@@ -84,7 +84,8 @@ class FileParser:
                resource = Resource(guid=guid)
        # If the parent node already has a child with this resource, pass
        # (is it a good thing?)
-        if parentNode.get_descendants().
+        if parentNode.get_descendants().filter(resource=resource).exists():
+            return None
        # create the document itself
        childNode = Node(
            user        = parentNode.pk,

--- a/mat-parsing/FileParsers/IsiFileParser.py
+++ b/mat-parsing/FileParsers/IsiFileParser.py
+from django.db import transaction
+from FileParser import FileParser
+class IsiFileParser(FileParser):
+    def parse(self, parentNode):
+        # read the file, line by line
+        for line in self.__file:
+        # open the file as XML
+        xml_parser = etree.XMLParser(resolve_entities=False, recover=True)
+        xml = etree.parse(self._file, parser=xml_parser)
+        # parse all the articles, one by one
+        # all database operations should be performed within one transaction
+        xml_articles = xml.findall('PubmedArticle')
+        with transaction.atomic():
+            for xml_article in xml_articles:
+                # extract data from the document
+                date_year   = int(xml_article.find('MedlineCitation/DateCreated/Year').text)
+                date_month  = int(xml_article.find('MedlineCitation/DateCreated/Month').text)
+                date_day    = int(xml_article.find('MedlineCitation/DateCreated/Day').text)
+                metadata    = {
+                    # other metadata should also be included:
+                    # authors, submission date, etc.
+                    "date_pub":      datetime.date(year, month, day),
+                    "journal":       xml_article.find('MedlineCitation/Article/Journal/Title').text
+                    "title":         xml_article.find('MedlineCitation/Article/ArticleTitle').text
+                    "language_iso3": xml_article.find('MedlineCitation/Article/Language').text
+                    "doi":           xml_article.find('PubmedData/ArticleIdList/ArticleId[type=doi]').text
+                }
+                contents    = xml_article.find('MedlineCitation/Article/Abstract/AbstractText').text
+                # create the document in the database
+                yield self.create_document(
+                    parentNode  = parentNode
+                    title       = metadata["title"],
+                    contents    = contents,
+                    language    = self._languages_iso3[metadata["language"].lower()]
+                    metadata    = metadata,
+                    guid        = metadata["doi"],
+                )
--- a/mat-parsing/FileParsers/PubmedFileParser.py
+++ b/mat-parsing/FileParsers/PubmedFileParser.py
@@ -6,11 +6,12 @@ class PubmedFileParser(FileParser):
    def parse(self, parentNode):
        # open the file as XML
-        xml_parser = etree.XMLParser(resolve_entities=False,recover=True)
+        xml_parser = etree.XMLParser(resolve_entities=False, recover=True)
        xml = etree.parse(self._file, parser=xml_parser)
        # parse all the articles, one by one
        # all database operations should be performed within one transaction
        xml_articles = xml.findall('PubmedArticle')
+        documents = []
        with transaction.atomic():
            for xml_article in xml_articles:
                # extract data from the document
@@ -28,7 +29,7 @@ class PubmedFileParser(FileParser):
                }
                contents    = xml_article.find('MedlineCitation/Article/Abstract/AbstractText').text
                # create the document in the database
-                yield self.create_document(
+                document    = self.create_document(
                    parentNode  = parentNode
                    title       = metadata["title"],
                    contents    = contents,
@@ -36,3 +37,6 @@ class PubmedFileParser(FileParser):
                    metadata    = metadata,
                    guid        = metadata["doi"],
                )
+                if document:
+                    documents.append(document)
+        return documents