Pandas: Drop () int64 basierend auf value returns object

Ich muss alle Zeilen fallen lassen, wo eine Spalte unter einem bestimmten Wert liegt. Ich habe den Befehl unten verwendet, aber das gibt die Spalte als Objekt zurück. Ich muss es als int64 behalten:

 df["customer_id"] = df.drop(df["customer_id"][df["customer_id"] < 9999999].index) df = df.dropna() 

Ich habe versucht, das Feld als int64 , aber das verursacht den folgenden Fehler mit Daten aus einer völlig anderen Spalte:

 invalid literal for long() with base 10: '2014/03/09 11:12:27' 

2 Solutions collect form web for “Pandas: Drop () int64 basierend auf value returns object”

Ich glaube du brauchst boolean indexing reset_index mit reset_index :

 import pandas as pd df = pd.DataFrame({'a': ['s', 'd', 'f', 'g'], 'customer_id':[99999990, 99999997, 1000, 8888]}) print (df) a customer_id 0 s 99999990 1 d 99999997 2 f 1000 3 g 8888 df1 = df[df["customer_id"] > 9999999].reset_index(drop=True) print (df1) a customer_id 0 s 99999990 1 d 99999997 

Lösung mit drop , aber ist langsam:

 df2 = (df.drop(df.loc[df["customer_id"] < 9999999, 'customer_id'].index)) print (df2) a customer_id 0 s 99999990 1 d 99999997 

Zeitpunkte :

 In [12]: %timeit df[df["customer_id"] > 9999999].reset_index(drop=True) 1000 loops, best of 3: 676 µs per loop In [13]: %timeit (df.drop(df.loc[df["customer_id"] < 9999999, 'customer_id'].index)) 1000 loops, best of 3: 921 µs per loop 

Was ist los mit dem schneiden des ganzen rahmens (und reindexing wenn nötig)?

 df = df[df["customer_id"] < 9999999] df.index = range(0,len(df)) 
  • Anwenden der kumulativen Mittelfunktion auf ein gruppiertes Objekt
  • Pandas - FillNa mit einer anderen Spalte
  • Python und Pandas: Sortierung jeder Zeile in einem Multi-Index DataFrame
  • Kombinieren Sie die Pandas-Datenrahmenspaltenwerte in eine neue Spalte
  • Was macht Pandas hier, dass meine Indizes [0] und [1] den gleichen Wert beziehen?
  • Groupby eine Spalte von einem anderen (gleiche Anzahl von Zeilen) Dataframe
  • Effizienteste I / O-Einstellung zwischen Stata und Python (Pandas)
  • Median einer Liste mit NaN-Werten entfernt, in Python
  • Rückgabe von Zeilen in einem Datenfeld, das einer benutzerdefinierten Nummer am nächsten liegt
  • Pandas: Wie kann man den Algorithmus schneller machen?
  • Schreiben von Pandas / matplotlib Bild direkt in XLSX-Datei
  • Python ist die beste Programmiersprache der Welt.