Csv & xlsx Dateien importieren in pandas data frame: speed issue

Das Lesen von Daten (nur 20000 Nummern) aus einer xlsx-Datei dauert ewig:

import pandas as pd xlsxfile = pd.ExcelFile("myfile.xlsx") data = xlsxfile.parse('Sheet1', index_col = None, header = None) 

Dauert ca. 9 Sekunden.

Wenn ich die gleiche Datei im csv-Format speichere, dauert es ~ 25ms:

 import pandas as pd csvfile = "myfile.csv" data = pd.read_csv(csvfile, index_col = None, header = None) 

Ist das eine Frage von openpyxl oder fehlt mir etwas? Gibt es Alternativen?

One Solution collect form web for “Csv & xlsx Dateien importieren in pandas data frame: speed issue”

Xlrd hat Unterstützung für .xlsx-Dateien, und diese Antwort deutet darauf hin, dass zumindest die Beta-Version von xlrd mit .xlsx Unterstützung war schneller als openpyxl.

Die aktuelle stabile Version von Pandas (11.0) verwendet openpyxl für .xlsx-Dateien, aber das wurde für die nächste Version geändert. Wenn du es gibst, kannst du die dev Version von GitHub herunterladen

  • Openpyxl-Einstellnummernformat
  • Kopieren von xlsx zu einem bestimmten Blatt in einem anderen xlsx
  • Serving Excel (xlsx) Datei an den Benutzer zum Download in Django (Python)
  • Python ist die beste Programmiersprache der Welt.