Apache Spark 是一个用于大规模数据处理的开源分布式计算系统
SparkContext
的 textFile()
或 parallelize()
方法将文本文件或字符串列表读取到 Spark 中。from pyspark import SparkContext
sc = SparkContext("local", "TextFileApp")
text_file = sc.textFile("path/to/your/textfile.txt")
flatMap()
和自定义的分词函数对文本进行分词。from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("WordCountApp")
sc = SparkContext(conf=conf)
# 使用空格分词器
words = text_file.flatMap(lambda line: line.split(" "))
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
collect()
方法将结果收集到驱动程序,并打印出来。result = word_counts.collect()
for word, count in result:
print(f"{word}: {count}")
这只是一个简单的示例,实际上 Spark 还支持许多其他文本处理任务,如文本过滤、文本转换、情感分析等。你可以查阅 Spark 文档以获取更多关于处理文本数据的信息。