[FIX] SQL fix to select field1 only.

831b933b · delanoe · 1eefcce9 · 831b933b · 831b933b
Commit 831b933b authored Oct 19, 2015 by delanoe
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 13 deletions

cooccurrences.py analysis/cooccurrences.py +2 -10

corpustools.py parsing/corpustools.py +6 -3

No files found.
--- a/analysis/cooccurrences.py
+++ b/analysis/cooccurrences.py
@@ -66,13 +66,6 @@ def do_cooc(corpus=None

    doc_id = cache.NodeType['Document'].id
   
-    hyperdata_id = session.query(Hyperdata).filter(Hyperdata.name=='source').first().id
-    test_query = (session.query(NodeHyperdataNgram)
-                 .join(Node, Node.id == NodeHyperdataNgram.node_id)
-                 .filter(Node.parent_id==corpus.id, Node.type_id==doc_id)
-                 .filter(NodeHyperdataNgram.hyperdata_id==hyperdata_id)
-                 )
-    
    #print([n for n in test_query])
    if isMonopartite :
        NodeNgramX = aliased(NodeNgram)
@@ -91,9 +84,8 @@ def do_cooc(corpus=None
        cooc_query = (session.query(NodeHyperdataNgram.ngram_id, NodeNgramY.ngram_id, cooc_score)
                 .join(Node, Node.id == NodeHyperdataNgram.node_id)
                 .join(NodeNgramY, NodeNgramY.node_id == Node.id)
-                 .join(NodeHyperdata, NodeHyperdata.node_id==Node.id)
-                 .join(Hyperdata, Hyperdata.id == NodeHyperdata.hyperdata_id)
-                 .filter(Node.parent_id==corpus.id, Node.type_id==doc_id)
+                 .join(Hyperdata, Hyperdata.id == NodeHyperdataNgram.hyperdata_id)
+                 .filter(Node.parent_id == corpus.id, Node.type_id == doc_id)
                 .filter(Hyperdata.name == field1)
                    )


--- a/parsing/corpustools.py
+++ b/parsing/corpustools.py
@@ -147,7 +147,8 @@ def parse_resources(corpus, user=None, user_id=None):
    hyperdata_set = set()
    hyperdata_ngrams = set()
    node_hyperdata_ngrams = set()
-    for field in ['source', 'authors', 'journal']:
+    #for field in ['source', 'authors', 'journal']:
+    for field in ['journal', 'authors']:
        hyperdata_set.add(session.query(Hyperdata.id).filter(Hyperdata.name==field).first()[0])
    
    #print("hyperdata_set", hyperdata_set)
@@ -155,16 +156,18 @@ def parse_resources(corpus, user=None, user_id=None):
    for key, values in node_hyperdata_lists.items():
        #print('here', key, values)
        bulk_insert(Node_Hyperdata, ['node_id', 'hyperdata_id', 'value_'+key], values)
-        if key == 'string':
+        if key == 'string' :
            for value in values:
+                print('value', value)
                if value[1] in hyperdata_set:
+                    print('value_1', value[1])
                    for val in value[2].split(', '):
                        hyperdata_ngrams.add((val, len(val.split(' '))))
                        node_hyperdata_ngrams.add((value[0], value[1], val))
    
    #print(hyperdata_ngrams)
    terms_id = insert_ngrams(list(hyperdata_ngrams))
-        
+    
    bulk_insert(NodeHyperdataNgram
               , ['node_id', 'hyperdata_id', 'ngram_id', 'score']
               , [(node_id, hyperdata_id, terms_id[terms], 1)