Scrapy Spinne nicht speichern Zustand (persistenten Zustand)

Hallo habe eine grundlegende Spinne, die läuft, um alle Links auf einer bestimmten Domain zu holen. Ich möchte sicherstellen, dass es seinen Zustand fortsetzt, damit er wieder von dort abnehmen kann. Ich habe die gegebene URL gefolgt. Http://doc.scrapy.org/de/latest/topics/jobs.html. Aber wenn ich es versuche das erste Mal läuft es gut und ich beende es mit Strg + C und wenn ich versuche Fortsetzen Sie das Crawl stoppt auf der ersten URL selbst.

Unten ist das Protokoll, wenn es endet:

2016-08-29 16:51:08 [scrapy] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 896, 'downloader/request_count': 4, 'downloader/request_method_count/GET': 4, 'downloader/response_bytes': 35320, 'downloader/response_count': 4, 'downloader/response_status_count/200': 4, 'dupefilter/filtered': 149, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2016, 8, 29, 16, 51, 8, 837853), 'log_count/DEBUG': 28, 'log_count/INFO': 7, 'offsite/domains': 22, 'offsite/filtered': 23, 'request_depth_max': 1, 'response_received_count': 4, 'scheduler/dequeued': 2, 'scheduler/dequeued/disk': 2, 'scheduler/enqueued': 2, 'scheduler/enqueued/disk': 2, 'start_time': datetime.datetime(2016, 8, 29, 16, 51, 7, 821974)} 2016-08-29 16:51:08 [scrapy] INFO: Spider closed (finished) 

Hier ist meine Spinne:

 from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from Something.items import SomethingItem class maxSpider(CrawlSpider): name = 'something' allowed_domains = ['thecheckeredflag.com', 'inautonews.com'] start_urls = ['http://www.thecheckeredflag.com/', 'http://www.inautonews.com/'] rules = (Rule(LinkExtractor(allow=()), callback='parse_obj', follow=True),) def parse_obj(self,response): for link in LinkExtractor(allow=self.allowed_domains,deny =() ).extract_links(response): item = SomethingItem() item['url'] = link.url yield item #print item 

Scrapy Version: Scrapy 1.1.2

Python Version: 2.7

Ich bin neu zu scrapy, wenn ich noch weitere Infos posten muss, lass es mich wissen.

One Solution collect form web for “Scrapy Spinne nicht speichern Zustand (persistenten Zustand)”

Der Grund dafür war, dass der Spinnenprozess abrupt getötet wurde.

Die Spinne war nicht richtig heruntergefahren, als ich die Strg + C traf. Jetzt, wenn der Crawler das erste Mal richtig heruntergefahren wird, wird es auch richtig wieder aufgenommen.

Also im Grunde, stellen Sie sicher, dass Sie die Crawler-Enden sehen / heruntergefahren ordnungsgemäß für sie wieder aufzunehmen.

  • Webseitenzugang bei der Verwendung von Scrapy
  • Wie kann ich mit dem ersten Ausbruch einen kratzigen Crawling brechen und beenden?
  • Scrapy Installations- / Versionsfehler
  • Scrapy Sellerie und mehrere Spinnen
  • Scrapy - Scraping verschiedene Web-Seiten in einem scrapy Skript
  • Wie kann kratzig mehr Wollen kriechen?
  • Verwenden von Scrapy mit authentifizierter (angemeldeter) Benutzersitzung
  • Crawling mehrere Domains mit Scrapy ohne kreuz und quer
  • Wie man scrapy Spinnen aus Skript zu protokollieren
  • Installiere Scrapy auf OS X El Capitan
  • Mit einer Scrapy Spinne für mehrere Webseiten
  • Python ist die beste Programmiersprache der Welt.