Tag: pandas

Eliminiere whitespaces in pd.read_csv

Sagen wir, ich habe eine csv-Datei mit Zeilen im folgenden Format. 89.96.146.2 # Einige String Related, To, 45.53,11.0 Ich möchte diese Zeilen in einem Pandas-Dataframe lesen und eine Suchfunktion basierend auf der IP-Adresse (89.96.146.2) durchführen. df = pd.read_csv('test.csv', sep='#\s+', header=None).set_index(0) Das hat einen weißen Platz mit IP ?. Ich kann nur die Suchfunktion ausführen, wenn […]

Umordnen einer nicht aufeinanderfolgenden Reihenfolge von Spalten in pandas dataframe

Ich habe einen Pandas-Datenrahmen (Ergebnis) df mit n (Variable) Spalten, die ich mit dem Zusammenführen von zwei anderen Datenrahmen erzeugt habe: result1 = df1.merge(df2, on='ID', how='left') Result1 dataframe wird erwartet, dass eine variable Anzahl von Spalten (dies ist Teil eines größeren Skripts). Ich möchte die Spalten so anordnen, dass die letzten 2 Spalten die zweite […]

Vergleichen Sie PandaS DataFrames und geben Sie Zeilen zurück, die vom ersten fehlen

Ich habe 2 dataFrames und möchte sie vergleichen und die Zeilen aus dem ersten (df1) zurückgeben, die nicht im zweiten (df2) sind. Ich fand einen Weg, um sie zu vergleichen und die Unterschiede zurückzugeben, aber kann nicht herausfinden, wie man nur fehlende von df1 zurückgibt. import pandas as pd from pandas import Series, DataFrame df1 […]

Legen Sie fehlende Wochentage in Pandas Dataframe und füllen Sie sie mit NaN

Ich versuche, fehlende Wochentage in einer Zeitreihe einzufügen, die dataframe so hat import pandas as pd from pandas.tseries.offsets import * df = pd.DataFrame([['2016-09-30', 10, 2020], ['2016-10-03', 20, 2424], ['2016-10-05', 5, 232]], columns=['date', 'price', 'vol']).set_index('date') df['date'] = pd.to_datetime(df['date']) df = df.set_index('date') Daten sehen so aus: Out[300]: price vol date 2016-09-30 10 2020 2016-10-03 20 2424 2016-10-05 […]

Lesen der CSV-Datei in Pandas mit historischen Daten

Ich versuche, eine Datei mit Daten im (UK) Format 13/01/1800 zu lesen, aber einige der Daten sind vor 1667, die nicht durch den Nanosekunden-Zeitstempel dargestellt werden können (siehe http: //pandas.pydata. Org / pandas-docs / stable / gotchas.html # gotchas-timestamp-limit ). Ich verstehe von dieser Seite muss ich meinen eigenen PeriodIndex erstellen, um die Reichweite zu […]

Pandas.DataFrame setzt alle String-Werte auf nan

Ich habe ein pandas.DataFrame , das pandas.DataFrame , pandas.DataFrame und int-Typen enthält. Gibt es eine Möglichkeit, alle Streicher zu setzen, die nicht umgewandelt werden können, um zu NaN zu schwimmen? Beispielsweise: ABCD 0 1 2 5 7 1 0 4 NaN 15 2 4 8 9 10 3 11 5 8 0 4 11 5 […]

Pandas – filtern und regex den Index von DataFrame durchsuchen

Ich habe ein DataFrame, in dem die Spalten MultiIndex sind und der Index eine Liste von Namen ist, dh index=['Andrew', 'Bob', 'Calvin',…] . Ich möchte eine Funktion erstellen, um alle Zeilen des Dataframs zurückzugeben, die den Namen 'Bob' verwenden oder vielleicht mit dem Buchstaben 'A' beginnen oder mit Kleinbuchstaben beginnen. Wie kann man das machen? […]

Pandas: wenn die Daten sind NaN-Logik Operationen können nicht durchgeführt werden

Ich habe eine große DataFrame in Pandas und 2 Spalten können Werte haben oder NaN (Null) sein, wenn sie keinem Wert zugeordnet sind. Ich möchte eine 3. Spalte auf der Grundlage dieser 2. Wenn nicht NaN es nimmt etwas Wert. Dies funktioniert wie folgt: In [16]: import pandas as pd In [17]: import numpy as […]

Hervorhebung des letzten Datenpunktes im Pandas-Plot

Ich habe eine Anzahl von Grafiken ähnlich wie diese: import pandas as pd dates = pd.date_range('2012-01-01','2013-02-22') y = np.random.randn(len(dates))/365 Y = pd.Series(y, index=dates) Y.plot() Die Grafik ist ideal für die Darstellung der Form der Daten, aber ich möchte den neuesten Wert auch abheben. Ich möchte den letzten Datenpunkt mit einer Markierung 'x' und mit einer […]

Die Anwendung der benutzerdefinierten Funktion während der Gruppierung gibt NaN zurück

Angesichts eines Diktats, performances , Lagerung Art der Art: 2015-02-28 NaN 2015-03-02 100.000000 2015-03-03 98.997117 2015-03-04 98.909215 2015-03-05 99.909979 2015-03-06 100.161486 2015-03-09 100.502772 2015-03-10 101.685314 2015-03-11 102.518433 2015-03-12 102.427237 2015-03-13 103.424257 2015-03-16 102.669184 2015-03-17 102.181841 2015-03-18 102.436339 2015-03-19 102.672482 2015-03-20 102.238386 2015-03-23 101.460082 … Ich möchte sie nach Monat gruppieren, aber nur den ersten Wert […]

Python ist die beste Programmiersprache der Welt.