From ad6212da067fdc05a8564e79943692fd9d466110 Mon Sep 17 00:00:00 2001
From: neodarz <neodarz@neodarz.net>
Date: Sun, 3 Feb 2019 20:02:18 +0100
Subject: Add ability to update a page in db if updated

---
 crawler/nevrax/pipelines.py      | 5 +++--
 crawler/nevrax/spiders/scrape.py | 3 ++-
 2 files changed, 5 insertions(+), 3 deletions(-)

(limited to 'crawler/nevrax')

diff --git a/crawler/nevrax/pipelines.py b/crawler/nevrax/pipelines.py
index 775d5df..dbbb782 100644
--- a/crawler/nevrax/pipelines.py
+++ b/crawler/nevrax/pipelines.py
@@ -9,8 +9,9 @@ class NevraxPipeline(object):
     def process_item(self, item, spider):
         try:
             page = Nevrax.get(Nevrax.url == item['url'])
-            q = Nevrax.update(**item).where(Nevrax.url == item['url'])
-            q.execute()
+            if page.content_length != item['content_length']:
+                q = Nevrax.update(**item).where(Nevrax.url == item['url'])
+                q.execute()
             logging.info("Update item {}".format(page))
         except Nevrax.DoesNotExist:
             page = Nevrax.create(**item)
diff --git a/crawler/nevrax/spiders/scrape.py b/crawler/nevrax/spiders/scrape.py
index 8a7b8ec..785ec3f 100644
--- a/crawler/nevrax/spiders/scrape.py
+++ b/crawler/nevrax/spiders/scrape.py
@@ -41,5 +41,6 @@ class NevraxSpider(CrawlSpider):
         yield {
                 'url': response.url,
                 'title': response.css('title::text').extract_first(),
-                'content': ''.join(sel.select("//body//text()").extract()).strip()
+                'content': ''.join(sel.select("//body//text()").extract()).strip(),
+                'content_length': len(response.body)
         }
-- 
cgit v1.2.1