Tag: lxml

Streifen Sie alle Namespace Deklarationen, Tags und Attribute aus SVG-Datei mit Python / lxml

Ich habe dieses Skript zum Aufräumen von SVG-Dateien mit Python und lxml. Es entfernt unsichtbare Elemente und versucht , einige ausgewählte Namespace-Probleme zu lösen: from lxml import etree path = '/image.svg' svg_xml = open(path, 'r').read() # resolve problematic namespace issues # remove specific and undefined Illustrator tags if '<i:pgf></i:pgf>' in svg_xml: svg_xml = svg_xml.replace('<i:pgf></i:pgf>', '') […]

Extrahieren des verschachtelten Namensraums aus einer xml mit lxml

Ich bin neu in Python und lerne gerade, XML zu analysieren. Alles scheint gut zu gehen, bis ich eine Wand mit verschachtelten Namensräumen traf. Unten ist ein Snippet von meinem xml (mit einem Anfang und Kind Element, das ich versuche zu analysieren: <?xml version="1.0" encoding="UTF-8"?> -<CompositionPlaylist xmlns="http://www.digicine.com/PROTO-ASDCP-CPL-20040511#"> <!– Generated by orca_wrapping version 3.8.3-0 –> <Id>urn:uuid:e0e43007-ca9b-4ed8-97b9-3ac9b272be7a</Id> […]

Was ist nötig, um BeautifulSoup4 + lxml zu bekommen, um mit cx_freeze zu arbeiten?

Zusammenfassung: Ich habe eine wxPython / bs4 app, die ich in eine exe mit cx_freeze baue. Es baut gelingt ohne Fehler, aber versuchen, die EXE Ergebnisse ein FeatureNotFound Fehler von BeautifulSoup4 laufen. Es ist beschwert, dass ich meine lxml-Bibliothek nicht installiert habe. Ich habe seitdem das Programm auf den Minimalzustand gestrippt und bekomme immer noch […]

Python-xpath-Abfrage, die keinen Textwert zurückgibt

Ich versuche, Daten von der folgenden Seite mit dem lxml-Modul in Python zu kratzen: http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece . Ich möchte den Text im ersten Absatz bekommen, aber der folgende Code gibt den Nullwert zurück from lxml import html import requests page = requests.get('http://www.thehindu.com/todays-paper/with-afspa-india-has-failed-statute-amnesty/article7376286.ece') tree = html.fromstring(page.text) data = tree.xpath('//*[@id="left-column"]/div[6]/p[1]/text()') print data Ich verstehe nicht, was ich hier […]

Python lxml.html XPath "Attribut nicht gleich" Betreiber funktioniert nicht wie erwartet

Ich versuche, das folgende Skript auszuführen: #!python from urllib import urlopen #urllib.request for python3 from lxml import html url = 'http://mpk.lodz.pl/rozklady/1_11_D2D3/00d2/00d2t001.htm?r=KOZINY'+\ '%20-%20Srebrzy%F1ska,%20Cmentarna,%20Legion%F3w,%20pl.%20Wolno%B6ci'+\ ',%20Pomorska,%20Kili%F1skiego,%20Przybyszewskiego%20-%20LODOWA' raw_html = urlopen(url).read() tree = html.fromstring(raw_html) #need to .decode('windows-1250') in python3 ret = tree.xpath('//td [@class!="naglczas"]') print ret assert(len(ret)==1) Ich erwarte, dass es das eine td auswählt, das seine Klasse nicht auf "naglczas" […]

Python lxml schreiben in Datei in vordefinierter Reihenfolge

Ich möchte folgende lxml etree subelements schreiben: <ElementProtocolat0x3803048>, <ElementStudyEventDefat0x3803108>, <ElementFormDefat0x3803248>, <ElementItemGroupDefat0x38032c8>, <ElementClinicalDataat0x3803408>, <ElementItemGroupDataat0x38035c8>, <ElementFormDefat0x38036c8>, Zu meiner odm xml-Datei in einer vordefinierten Reihenfolge . Dh <ElementProtocolat0x3803048>, <ElementStudyEventDefat0x3803108>, <ElementFormDefat0x3803248>, <ElementFormDefat0x38036c8>, <ElementItemGroupDefat0x38032c8>, <ElementItemGroupDataat0x38035c8>, <ElementClinicalDataat0x3803408>, …. Gibt es irgendeine Möglichkeit, die Elemente dh mit einer vordefinierten Liste zu sortieren? predefined_order = ['Protocol', 'StudyEventDef','FormDef','ItemGroupDef','ItemDef','CodeList']

Abrufen von Daten mit Python & lxml

Ich habe ein HTML, das wie unten aussieht. Ich möchte den Text, der in der <span class="zzAggregateRatingStat"> . Nach dem zitierten unten würde ich 3 und 5 bekommen. Für diese Arbeit verwende ich Python2.7 & lxml <div class="pp-meta-review"> <span class="zrvwidget" style=""> <span g:inline="true" g:type="NumUsersFoundThisHelpful" g:hideonnoratings="true" g:entity.annotation.groups="maps" g:entity.annotation.id="http://maps.google.com/?q=Central+Kia+of+Irving++(972)+659-2204+loc:+1600+East+Airport+Freeway,+Irving,+TX+75062&gl=US&sll=32.83624,-96.92526" g:entity.annotation.author="AIe9_BH8MR-1JD_4BhwsKrGCazUyU5siqCtjchckDcg5BAl5rOLd9nvhJJDTrtjL-xFI8D42bD_7"> <span class="zzNumUsersFoundThisHelpfulActive" zzlabel="helpful"> <span> <span class="zzAggregateRatingStat">3</span> </span> […]

RuntimeWarning: Compiletime Version 2.6 des Moduls 'lxml.etree' entspricht nicht der Laufzeitversion 2.7

Ich benutze Python 2.7 und ich versuche, lxml verwenden, aber wenn ich versuche, mit lxml.etree Ich bekomme diese Fehler: RuntimeWarning: Compiletime Version 2.6 des Moduls 'lxml.etree' entspricht nicht der Laufzeitversion 2.7 Und dann dieser Fehler: Datei "lxml.etree.pyx", Zeile 123, in init lxml.etree (src / lxml / lxml.etree.c: 160385) TypeError: encode () Argument 1 muss String […]

Das Scraping von Webinhalten mit xpath funktioniert nicht

Ich bin mit xpath zu kratzen eine amazon Webseite besonders, aber es funktioniert nicht. Kann mir jemand einen Rat geben? Hier ist der Link zu dieser Seite: ein Link Ich möchte diese kratzen: "Fun, Kreditkarten-Drucke" Der Code, den ich verwende, ist hier: from lxml import html import requests url = 'http://www.amazon.co.uk/dp/B009CX5VN2' page = requests.get(url) tree […]

Python lxml (objektivieren): Xpath Probleme

Ich versuche, ein XML-Dokument zu analysieren, indem ich Daten mit lxml objectify und xpath extrahiere. Hier ist ein Snip des Dokuments: <?xml version="1.0" encoding="UTF-8"?> <Assets> <asset name="Adham"> <pos> <x>27913.769923</x> <y>5174.627773</y> </pos> <description>Ba bla bla</description> <bar>(null)</bar> </general> </asset> <asset name="Adrian"> <pos> <x>-179.477707</x> <y>5286.959359</y> </pos> <commodities/> <description>test test test</description> <bar>more bla</bar> </general> </asset> </Assets> Ich habe die […]

Python ist die beste Programmiersprache der Welt.