Listing alle Dateien in Spark Cluster auf Hadoop HDFS mit Scala oder Python gespeichert?

Was ist der effizienteste Weg, um alle Dateinamen aufzulisten, die lokal in Spark verfügbar sind? Ich benutze Scala API, aber Python sollte auch gut sein.

One Solution collect form web for “Listing alle Dateien in Spark Cluster auf Hadoop HDFS mit Scala oder Python gespeichert?”

 import org.apache.hadoop.fs.{FileSystem, FileUtil, Path} import scala.collection.mutable.Stack val fs = FileSystem.get( sc.hadoopConfiguration ) var dirs = Stack[String]() val files = scala.collection.mutable.ListBuffer.empty[String] val fs = FileSystem.get(sc.hadoopConfiguration) dirs.push("/user/username/") while(!dirs.isEmpty){ val status = fs.listStatus(new Path(dirs.pop())) status.foreach(x=> if(x.isDirectory) dirs.push(x.getPath.toString) else files+= x.getPath.toString) } files.foreach(println) 
  • Mehrfach-Funken-Bewerbungsunterlagen im Standalone-Modus
  • Was ist das Äquivalent zu scala.util.Try in pyspark?
  • Bootstrapping eines Webservers in Scala
  • Eine Liste oder Karte als Funktionsargumente in Scala einpacken
  • Gibt es ein Scala / Java-Äquivalent von Python 3's Sammlungen.Counter
  • Python: Umleitung des Teilprozesses Popen stdout zur Protokolldatei
  • Welche Programmiersprachen kann ich auf Android Dalvik verwenden?
  • Wenn du Python als Unterprozeß anrufst, kann ich es zwingen, im interaktiven Modus zu laufen?
  • Wie benutzt man eine Scala-Klasse in Pyspark
  • Was sind die Spark-Transformationen, die einen Shuffle verursachen?
  • Abstrakte Attribute in Python
  • Python ist die beste Programmiersprache der Welt.