Scrapy Spinne nicht speichern Zustand (persistenten Zustand)

Hallo habe eine grundlegende Spinne, die läuft, um alle Links auf einer bestimmten Domain zu holen. Ich möchte sicherstellen, dass es seinen Zustand fortsetzt, damit er wieder von dort abnehmen kann. Ich habe die gegebene URL gefolgt. Http://doc.scrapy.org/de/latest/topics/jobs.html. Aber wenn ich es versuche das erste Mal läuft es gut und ich beende es mit Strg + C und wenn ich versuche Fortsetzen Sie das Crawl stoppt auf der ersten URL selbst.

Unten ist das Protokoll, wenn es endet:

2016-08-29 16:51:08 [scrapy] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 896, 'downloader/request_count': 4, 'downloader/request_method_count/GET': 4, 'downloader/response_bytes': 35320, 'downloader/response_count': 4, 'downloader/response_status_count/200': 4, 'dupefilter/filtered': 149, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2016, 8, 29, 16, 51, 8, 837853), 'log_count/DEBUG': 28, 'log_count/INFO': 7, 'offsite/domains': 22, 'offsite/filtered': 23, 'request_depth_max': 1, 'response_received_count': 4, 'scheduler/dequeued': 2, 'scheduler/dequeued/disk': 2, 'scheduler/enqueued': 2, 'scheduler/enqueued/disk': 2, 'start_time': datetime.datetime(2016, 8, 29, 16, 51, 7, 821974)} 2016-08-29 16:51:08 [scrapy] INFO: Spider closed (finished) 

Hier ist meine Spinne:

 from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from Something.items import SomethingItem class maxSpider(CrawlSpider): name = 'something' allowed_domains = ['thecheckeredflag.com', 'inautonews.com'] start_urls = ['http://www.thecheckeredflag.com/', 'http://www.inautonews.com/'] rules = (Rule(LinkExtractor(allow=()), callback='parse_obj', follow=True),) def parse_obj(self,response): for link in LinkExtractor(allow=self.allowed_domains,deny =() ).extract_links(response): item = SomethingItem() item['url'] = link.url yield item #print item 

Scrapy Version: Scrapy 1.1.2

Python Version: 2.7

Ich bin neu zu scrapy, wenn ich noch weitere Infos posten muss, lass es mich wissen.

One Solution collect form web for “Scrapy Spinne nicht speichern Zustand (persistenten Zustand)”

Der Grund dafür war, dass der Spinnenprozess abrupt getötet wurde.

Die Spinne war nicht richtig heruntergefahren, als ich die Strg + C traf. Jetzt, wenn der Crawler das erste Mal richtig heruntergefahren wird, wird es auch richtig wieder aufgenommen.

Also im Grunde, stellen Sie sicher, dass Sie die Crawler-Enden sehen / heruntergefahren ordnungsgemäß für sie wieder aufzunehmen.

  • Scrapy python Anfrage ist nicht definiert
  • Wie man die Bewertung eines Films in imdb aus einem Bildelement mit scrapy in python extrahiert
  • Scrapy installiert, wird aber nicht von der Kommandozeile aus laufen
  • Folgende Links, Scrapy Web Crawler Framework
  • Unterdrückung Scrapy Item in Protokollen nach Pipeline gedruckt
  • Scrapy Ansatz zum Schaben von mehreren URLs
  • TypeError beim Einlegen von kratzigen Daten aus Schrott in Elastiksuche
  • Der einfachste Weg, um scrapy Crawler laufen, so dass es nicht blockiert das Skript
  • Scrapy erlauben alle Domains
  • Übergeben Sie zusätzliche Werte zusammen mit urls zu scrapy Spinne
  • Scrapy - Wie man html String in open_in_browser Funktion lädt
  • Python ist die beste Programmiersprache der Welt.