标题:
Spark数据操作—RDD操作(2)
[打印本页]
作者:
look_w
时间:
2019-2-19 15:41
标题:
Spark数据操作—RDD操作(2)
二、Spark RDD转换操作
1. map
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一关系。
scala> val mrdd = sc.parallelize(1 to 9, 3)
//mrdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at parallelize at <console>:27
scala> val mrdd2 = mrdd.map(x => x*2)
//mrdd2: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[6] at map at <console>:29
scala> mrdd2.collect
//res5: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)
2.filter
对RDD元素进行过滤,返回一个新的数据集,由经过func函数后返回值为true的原元素组成。
scala> val frdd = mrdd2.filter(x => x>10)
//frdd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[7] at filter at <console>:31
scala> frdd.collect
//res7: Array[Int] = Array(12, 14, 16, 18)
欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)
Powered by Discuz! 7.0.0