pyspark中怎么读取hdfs数据 - 问答

在pyspark中读取HDFS数据可以通过以下步骤实现：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Read HDFS Data") \
    .getOrCreate()

df = spark.read.csv("hdfs://<namenode>:<port>/path/to/file.csv")

其中，"hdfs://:/path/to/file.csv"是HDFS文件的路径，需要替换为实际的路径。

df.printSchema()
df.show()

spark.stop()

通过以上步骤，就可以在pyspark中读取HDFS数据了。

0 赞

0 踩