Tag: utf8

Erhöhtes Verständnis von Unicode in Python (2.7)

Ich beobachte das im Programm # -*- coding: utf-8 -*- words = ['artists', 'Künstler', '艺术家', 'Митець'] for word in words: print word, type(word) Es ist nicht zwingend notwendig, die Saiten als Unicode-Strings vollständig zu qualifizieren: words = ['artist', u'Künstler', u'艺术家', u'Митець'] Die verschiedenen Alphabete werden einfach ohne das 'u' Präfix behandelt. Und so scheint es, […]

Türkische Zeichenkodierung

Ich versuche, einen neuen Satz aus verschiedenen Listenposten zu erstellen. Sein geben Fehler, wenn ich es durch Unicode ausdrucke. Ich kann es normal drucken (ohne Unicode). Wenn ich versuche, es auf die Website zu veröffentlichen, ist es ein Fehler. Ich habe das getan, wenn ich es mit Unicode reparieren kann, wird es funktionieren, wenn es […]

Wie bekomme ich email.Header.decode_header, um mit Nicht-ASCII-Zeichen zu arbeiten?

Ich leihe den folgenden Code, um E-Mail-Header zu analysieren und zusätzlich einen Header weiter unten auf der Linie hinzuzufügen. Zugegeben, ich verstehe nicht ganz den Grund für all das Gerüst um was sollte einfacher Gebrauch des email.Headers Modul sein. Bemerkenswert ist, dass Headers nicht instanziiert wird. Eher seine decode_header Funktion heißt: class DecodedHeader(object): def __init__(self, […]

Python, scrapy: schlechtes utf8 Zeichen in Datei geschrieben von gekratzten HTML-Seite mit Zeichensatz iso-8859-1

Ich möchte eine Webseite mit charset iso-8859-1 mit Scrapy, in python 2.7 schrotten. Der Text, den ich interessant bin auf der Webseite ist: tempête Scrapy gibt Antwort als UTF8 Unicode mit Zeichen zurück, die korrekt codiert sind: >>> response u'temp\xc3\xaate' Nun möchte ich das Wort tempête in einer Datei schreiben, also mache ich folgendes: >>> […]

Python Rückgängig Unicode Frage

Angenommen, ich habe die folgenden zwei Variablen: bob1 = u'bob\xf0\xa4\xad\xa2' und bob2 = 'bob\xf0\xa4\xad\xa2' Wie bekomme ich den Wert von bob1, um den Wert von bob2 zu sein. AKA, wie löse ich die Unicode-Formatierung, aber behalte den Escapped Hex-Wert? Wenn ich das mache: bob1.encode('utf8') 'bob\xc3\xb0\xc2\xa4\xc2\xad\xc2\xa2' Das ist nicht richtig… Hilfe!

Python utf-8 japanisch

Ich habe einige japanische Wörter, die ich in utf-8 umwandeln möchte, wie unten gezeigt: jap_word1 = u'中山' jap_word2 = u'小倉' print jap_word1.encode('utf-8') # Doesn't work print jap_word2.encode('utf-8') # Prints properly Warum ist es so, dass ein Wort richtig in utf-8 umgewandelt werden kann und gedruckt wird, um die gleichen Charaktere zu zeigen, aber nicht das […]

UTF-8 Kodierung in Python

Ich habe ein UTF-8 Zeichen, das mit `_ 'dazwischen codiert ist, zB' _ea_b4_80 '. Ich versuche es in UTF-8 Zeichen mit Replace-Methode zu konvertieren, aber ich kann nicht die richtige Codierung. Dies ist ein Codebeispiel: import sys reload(sys) sys.setdefaultencoding('utf8') r = '_ea_b4_80' r2 = '\xea\xb4\x80' r = r.replace('_', '\\x') print r print r.encode("utf-8") print r2 […]

Warum Zeichen ID 160 wird nicht als Unicode in PDFMiner erkannt?

Ich konvertiere .pdf-Dateien in .xml-Dateien mit PDFMiner . Für jedes Wort in der .pdf-Datei prüft PDFMiner, ob es Unicode ist oder nicht (unter vielen anderen Dingen). Wenn es ist, gibt es das Zeichen zurück, wenn es nicht ist, es hebt eine Ausnahme und gibt die Zeichenfolge "(cid:% d)" wo% d ist die Zeichen-ID, die ich […]

Trotz utf8 Kodierung einige Zeichen nicht erkannt werden

Ich versuche, einen RSS mit einem News-Titel wie folgt zu kratzen: <title>Photo of iceberg that is believed to have sunk Titanic sold at auction for £21,000 alongside &amp;#039;world&amp;#039;s most valuable biscuit&amp;#039;</title> Dies ist effektiv, wie ich mit schönen Suppe zu kratzen: soup = BeautifulSoup(xml, 'xml') start = soup.findAll('item') for i in start: news, is_created = […]

Verarbeiten von nicht-englischen Text

Ich habe eine Python-Datei, die eine Datei liest, die vom Benutzer gegeben wird, verarbeitet sie und stellt Fragen im Flash-Kartenformat. Das Programm funktioniert gut mit einer englischen txt-Datei, aber ich begegne Fehlern beim Versuch, eine französische Datei zu verarbeiten. Als ich zum ersten Mal auf den Fehler stieß, benutzte ich das Windows-Eingabeaufforderungsfenster und python cards.py […]

Python ist die beste Programmiersprache der Welt.