Tag: xpath

Wie bekomme ich den Titel von class attribute in XPath (Python / scrapy)

Ich arbeite daran, die Daten von Tripadvisor zu bekommen, aber die meisten der ersten sind das relative Datum und der Rest sind normal MM / TT / JJJJ, aber bei genauerer Betrachtung sehe ich, dass das relative Datum dies hat <span class="ratingDate relativeDate" title="20 June 2015">Reviewed 4 weeks ago </span> Ich benutze diesen Xpath, um […]

Python-xpath-Abfrage, die keinen Textwert zurückgibt

Ich versuche, Daten von der folgenden Seite mit dem lxml-Modul in Python zu kratzen: http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece . Ich möchte den Text im ersten Absatz bekommen, aber der folgende Code gibt den Nullwert zurück from lxml import html import requests page = requests.get('http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece') tree = html.fromstring(page.text) data = tree.xpath('//*[@id="left-column"]/div[6]/p[1]/text()') print data Ich verstehe nicht, was ich hier […]

Python lxml.html XPath "Attribut nicht gleich" Betreiber funktioniert nicht wie erwartet

Ich versuche, das folgende Skript auszuführen: #!python from urllib import urlopen #urllib.request for python3 from lxml import html url = 'http://mpk.lodz.pl/rozklady/1_11_D2D3/00d2/00d2t001.htm?r=KOZINY'+\ '%20-%20Srebrzy%F1ska,%20Cmentarna,%20Legion%F3w,%20pl.%20Wolno%B6ci'+\ ',%20Pomorska,%20Kili%F1skiego,%20Przybyszewskiego%20-%20LODOWA' raw_html = urlopen(url).read() tree = html.fromstring(raw_html) #need to .decode('windows-1250') in python3 ret = tree.xpath('//td [@class!="naglczas"]') print ret assert(len(ret)==1) Ich erwarte, dass es das eine td auswählt, das seine Klasse nicht auf "naglczas" […]

Das Scraping von Webinhalten mit xpath funktioniert nicht

Ich bin mit xpath zu kratzen eine amazon Webseite besonders, aber es funktioniert nicht. Kann mir jemand einen Rat geben? Hier ist der Link zu dieser Seite: ein Link Ich möchte diese kratzen: "Fun, Kreditkarten-Drucke" Der Code, den ich verwende, ist hier: from lxml import html import requests url = 'http://www.amazon.co.uk/dp/B009CX5VN2' page = requests.get(url) tree […]

Probleme beim Zugriff auf das xpath-Attribut mit scrapy

Ich versuche derzeit, die folgende URL zu kratzen: http://www.bedbathandbeyond.com/store/product/dyson-dc59-motorhead-cordless-vacuum/1042997979?categoryId=10562 Auf dieser Seite möchte ich die Anzahl der aufgeführten Bewertungen extrahieren. Das heißt, ich möchte die Nummer 693 extrahieren. Dies ist meine aktuelle xpath: sel.xpath('//*[@id="BVRRRatingSummaryLinkReadID"]/a/span/span') Es scheint nur ein leeres Array zurückzugeben, kann jemand einen korrekten xpath vorschlagen?

Python lxml (objektivieren): Xpath Probleme

Ich versuche, ein XML-Dokument zu analysieren, indem ich Daten mit lxml objectify und xpath extrahiere. Hier ist ein Snip des Dokuments: <?xml version="1.0" encoding="UTF-8"?> <Assets> <asset name="Adham"> <pos> <x>27913.769923</x> <y>5174.627773</y> </pos> <description>Ba bla bla</description> <bar>(null)</bar> </general> </asset> <asset name="Adrian"> <pos> <x>-179.477707</x> <y>5286.959359</y> </pos> <commodities/> <description>test test test</description> <bar>more bla</bar> </general> </asset> </Assets> Ich habe die […]

Finden Sie ein Element in einem XML-Baum mit ElementTree

Ich versuche, ein bestimmtes Element in einer XML-Datei zu finden, mit ElementTree. Hier ist das XML: <documentRoot> <?version="1.0" encoding="UTF-8" standalone="yes"?> <n:CallFinished xmlns="http://api.callfire.com/data" xmlns:n="http://api.callfire.com/notification/xsd"> <n:SubscriptionId>96763001</n:SubscriptionId> <Call id="158864460001"> <FromNumber>5129618605</FromNumber> <ToNumber>15122537666</ToNumber> <State>FINISHED</State> <ContactId>125069153001</ContactId> <Inbound>true</Inbound> <Created>2014-01-15T00:15:05Z</Created> <Modified>2014-01-15T00:15:18Z</Modified> <FinalResult>LA</FinalResult> <CallRecord id="94732950001"> <Result>LA</Result> <FinishTime>2014-01-15T00:15:15Z</FinishTime> <BilledAmount>1.0</BilledAmount> <AnswerTime>2014-01-15T00:15:06Z</AnswerTime> <Duration>9</Duration> </CallRecord> </Call> </n:CallFinished> </documentRoot> Ich interessiere mich für das <Created> Item. Hier ist der […]

Parsing XPath in Nicht-Standard-XML mit lxml Python

Ich versuche, eine Datenbank aller Patentinformationen von Google Patente zu erstellen. Ein Großteil meiner bisherigen Arbeit hat diese sehr gute Antwort von MattH in Python benutzt, um nicht standardmäßige XML-Datei zu analysieren . Mein Python ist zu groß, um so zu sehen, dass es hier verknüpft ist . Die Quelldateien sind hier : ein Bündel […]

Parsing xml von python lxml tree.xpath

Ich versuche, eine riesige Datei zu analysieren. Die Probe ist unten. Ich versuche, <Name> zu nehmen, aber ich kann nicht Es funktioniert nur ohne diesen String <LevelLayout xmlns="http://schemas.datacontract.org/2004/07/ArcherTech.Common.Domain" xmlns:i="http://www.w3.org/2001/XMLSchema-instance"> xml2 = '''<?xml version="1.0" encoding="UTF-8"?> <PackageLevelLayout> <LevelLayouts> <LevelLayout levelGuid="4a54f032-325e-4988-8621-2cb7b49d8432"> <LevelLayout xmlns="http://schemas.datacontract.org/2004/07/ArcherTech.Common.Domain" xmlns:i="http://www.w3.org/2001/XMLSchema-instance"> <LevelLayoutSectionBase> <LevelLayoutItemBase> <Name>Tracking ID</Name> </LevelLayoutItemBase> </LevelLayoutSectionBase> </LevelLayout> </LevelLayout> </LevelLayouts> </PackageLevelLayout>''' from lxml import etree […]

Python und libxml2: wie man in xml-Knoten mit XPATH iterieren kann

Ich habe ein Problem mit dem Abrufen von Informationen aus einem XML-Baum. Mein XML hat diese Form: <?xml version="1.0"?> <records xmlns="http://www.mysyte.com/foo"> <record> <id>first</id> <name>john</name> <papers> <paper>john_1</paper> <paper>john_2</paper> </papers> </record> <record> <id>second</id> <name>mike</name> <papers> <paper>mike_a</paper> <paper>mike_b</paper> </papers> </record> <record> <id>third</id> <name>albert</name> <papers> <paper>paper of al</paper> <paper>other paper</paper> </papers> </record> </records> Was ich tun möchte, ist, Tupel […]

Python ist die beste Programmiersprache der Welt.