[FEAT] Adding Zotero date parser.

2b482bec · Administrator · 407b96ab · 2b482bec · 2b482bec
Commit 2b482bec authored 10 years ago by Administrator
Hide whitespace changes
Inline Side-by-side

Showing with 31 additions and 17 deletions

FileParser.py parsing/FileParsers/FileParser.py +30 -16

ZoteroFileParser.py parsing/FileParsers/ZoteroFileParser.py +1 -1

No files found.
--- a/parsing/FileParsers/FileParser.py
+++ b/parsing/FileParsers/FileParser.py
 import collections
+import datetime
 import dateutil.parser
 import zipfile
 import chardet
+import re
 from ..Caches import LanguagesCache
+DEFAULT_DATE = datetime.datetime(datetime.MINYEAR, 1, 1)
 class FileParser:
    """Base class for performing files parsing depending on their type.
    """
@@ -29,34 +34,43 @@ class FileParser:
        """
        # First, check the split dates...
-        prefixes = [key[:-5] for key in hyperdata.keys() if key[-5:] == "_year"]
+        date_to_parse = hyperdata.get('publication_date_to_parse', None)
-        for prefix in prefixes:
+        if date_to_parse is not None:
-            date_string = hyperdata[prefix + "_year"]
+            date_string = re.sub('\/+', '', date_to_parse)
-            key = prefix + "_month"
+            hyperdata['publication' + "_date"] = dateutil.parser.parse(
-            if key in hyperdata:
+                date_string,
-                date_string += " " + hyperdata[key]
+                default=DEFAULT_DATE
-                key = prefix + "_day"
+            ).strftime("%Y-%m-%d %H:%M:%S")
+        else:
+            prefixes = [key[:-5] for key in hyperdata.keys() if key[-5:] == "_year"]
+            for prefix in prefixes:
+                date_string = hyperdata[prefix + "_year"]
+                key = prefix + "_month"
                if key in hyperdata:
                    date_string += " " + hyperdata[key]
-                    key = prefix + "_hour"
+                    key = prefix + "_day"
                    if key in hyperdata:
                        date_string += " " + hyperdata[key]
-                        key = prefix + "_minute"
+                        key = prefix + "_hour"
                        if key in hyperdata:
-                            date_string += ":" + hyperdata[key]
+                            date_string += " " + hyperdata[key]
-                            key = prefix + "_second"
+                            key = prefix + "_minute"
                            if key in hyperdata:
                                date_string += ":" + hyperdata[key]
-            try:
+                                key = prefix + "_second"
-                hyperdata[prefix + "_date"] = dateutil.parser.parse(date_string).strftime("%Y-%m-%d %H:%M:%S")
+                                if key in hyperdata:
-            except:
+                                    date_string += ":" + hyperdata[key]
-                pass
+                try:
+                    hyperdata[prefix + "_date"] = dateutil.parser.parse(date_string).strftime("%Y-%m-%d %H:%M:%S")
+                except:
+                    pass
        # ...then parse all the "date" fields, to parse it into separate elements
        prefixes = [key[:-5] for key in hyperdata.keys() if key[-5:] == "_date"]
        for prefix in prefixes:
            date = dateutil.parser.parse(hyperdata[prefix + "_date"])
-            print('date')
+            #print(date)
            hyperdata[prefix + "_year"]      = date.strftime("%Y")
            hyperdata[prefix + "_month"]     = date.strftime("%m")

--- a/parsing/FileParsers/ZoteroFileParser.py
+++ b/parsing/FileParsers/ZoteroFileParser.py
@@ -13,7 +13,7 @@ class ZoteroFileParser(RisFileParser):
            b"TI":  {"type": "hyperdata", "key": "title", "separator": " "},
            b"AU":  {"type": "hyperdata", "key": "authors", "separator": ", "},
            b"UR":  {"type": "hyperdata", "key": "doi"},
-            b"DA":  {"type": "hyperdata", "key": "publication_date"},
+            b"DA":  {"type": "hyperdata", "key": "publication_date_to_parse"},
            b"PY":  {"type": "hyperdata", "key": "publication_year"},
            b"PD":  {"type": "hyperdata", "key": "publication_month"},
            b"LA":  {"type": "hyperdata", "key": "language_iso2"},