Listing alle Dateien in Spark Cluster auf Hadoop HDFS mit Scala oder Python gespeichert?

Was ist der effizienteste Weg, um alle Dateinamen aufzulisten, die lokal in Spark verfügbar sind? Ich benutze Scala API, aber Python sollte auch gut sein.

One Solution collect form web for “Listing alle Dateien in Spark Cluster auf Hadoop HDFS mit Scala oder Python gespeichert?”

 import org.apache.hadoop.fs.{FileSystem, FileUtil, Path} import scala.collection.mutable.Stack val fs = FileSystem.get( sc.hadoopConfiguration ) var dirs = Stack[String]() val files = scala.collection.mutable.ListBuffer.empty[String] val fs = FileSystem.get(sc.hadoopConfiguration) dirs.push("/user/username/") while(!dirs.isEmpty){ val status = fs.listStatus(new Path(dirs.pop())) status.foreach(x=> if(x.isDirectory) dirs.push(x.getPath.toString) else files+= x.getPath.toString) } files.foreach(println) 
  • Wenn du Python als Unterprozeß anrufst, kann ich es zwingen, im interaktiven Modus zu laufen?
  • Zebra-Puzzle in der Scala
  • Filter auf der Grundlage einer anderen RDD in Spark
  • Einfache, problemlose, null-boilerplate serialisierung in Scala / Java ähnlich wie Python's Pickle?
  • Starten Sie HiveThriftServer programmgesteuert in Python
  • Welche Programmiersprachen kann ich auf Android Dalvik verwenden?
  • Wie man zwei Dataframes vergleicht und zusätzliche Zeilen in einem der beiden Dataframs druckt und auch Spalten druckt, die sich in der Scala unterscheiden
  • Was bedeutet dieser Fehler (SimpleHttpConnectionManager wird falsch verwendet)?
  • Interpretation einer Benchmark in C, Clojure, Python, Ruby, Scala und andere
  • Wie benutzt man Java / Scala-Funktion aus einer Aktion oder einer Transformation?
  • Wie benutzt man eine Scala-Klasse in Pyspark
  • Python ist die beste Programmiersprache der Welt.