Linux Kafka与Spark Streaming协同工作,首先要确保Kafka服务正常运行,然后在Spark Streaming应用中配置Kafka连接参数,创建输入DStream来接收Kafka数据,最后对数据进行处理。具体如下:
pom.xml中添加spark-streaming-kafka-0-10依赖。SparkContext和StreamingContext创建Spark Streaming应用,设置批处理间隔等参数。bootstrap.servers、group.id等,使用KafkaUtils.createDirectStream方法创建从Kafka接收数据的DStream。