首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Spark数据操作—RDD操作(2)

Spark数据操作—RDD操作(2)

二、Spark RDD转换操作
1. map

    map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一关系。

    scala> val mrdd = sc.parallelize(1 to 9, 3)
    //mrdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at parallelize at <console>:27
     
    scala> val mrdd2 = mrdd.map(x => x*2)
    //mrdd2: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[6] at map at <console>:29
     
    scala> mrdd2.collect
    //res5: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

2.filter

    对RDD元素进行过滤,返回一个新的数据集,由经过func函数后返回值为true的原元素组成。

    scala> val frdd = mrdd2.filter(x => x>10)
    //frdd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[7] at filter at <console>:31
     
    scala> frdd.collect
    //res7: Array[Int] = Array(12, 14, 16, 18)

返回列表