Scala实战高手****第8课：零基础实战Scala最常用数据结构Map和Tuple及Spark源码鉴赏...-白红宇

Scala实战高手****第8课：零基础实战Scala最常用数据结构Map和Tuple及Spark源码鉴赏...

阅读量：5143 次

发布时间：2019-06-13

本文共 1475 字，大约阅读时间需要 4 分钟。

本课内容

1.Map和Tuple在Spark源码中的鉴赏

2.Map和Tuple代码操作实战

------------------------------------------------------------------------------------------------------------------------

/**

* Scala中最常见的两种数据结构：Map 和 Tuple

* Map初步感受就是key,value方式，key即是值的索引，排列非常规按照Hash的方式，

* 不是说插入了3个元素后第4个就在第3个后面。它可能第4个元素就在第2个后面(因为hashcode排在第2后面)

* 为什么说Map的key,value类型非常重要：最原始，最基础，最常用的数据结构。map中的key就是内容

* value的名字,如有有海量的数据，基于map检索速度非常快（数组则非常慢，尤其是修改的时候），从计算机

* 运行的效率来讲，我们也需要这种数据结构

* Tuple是Scala相比JAVA中特有的一种数据结构，前面无论谈什么数据结构（Map,数组，list）这些都有

* 具体的数据类型，但在现实社会中我们要表达一种观点，这个观点就是有不同的数据类类型放在一个集合里面。

* Array数组它的类型必须是一致的，要么是这个类型或者这个类型的子类型实例。而Tuple是不拘一格的，非常大

* 的跃进。

* 1.默认情况下Map构造的是不可变的集合，里面的内容不可修改，一旦修改就变成新的Map,原有的Map内容保持不变

* 2.Map的实例是调用工厂模式apply来构造Map实例，而需要注意的是Map是接口，在apply中使用了具体的实现

* 3.如果想直接new出Map实例，则需要使用HashMap等具体的Map子类

* 4.查询一个Map中的值一定是采用getOrElse的语法的，一方面是在key不存在的情况下不报异常，另外还有一个

* 神奇的作用就是提供默认值，而关于默认值提供在实际开发中至关重要，在Spark中很多默认的配置都是通过getOrElse

* 的方式来实现的

* 5.使用SortedMap可以得到排序的Map集合

* 6.LinkedHashMap可以记住插入的数据的顺序，

* 7.Tuple中可以有很多不同的数据("zhangs","male",30)

* 8.在企业级实际开发大数据的时候一定会反复的使用Tuple来表达数据结构，以及使用Tuple来处理业务逻辑

* 9.Tuple的另外一个非常重要的使用时作为函数的返回值，在Tuple中返回若干个值，以SparkContext源码为例来说明

* // Create and start the scheduler

* val (sched,ts) = SparkContext.createTaskScheduler(this,master)

* _schedulerBackend = sched

* _taskScheduler = ts

---------------------

作者：张涵钧

来源：CSDN

原文：https://blog.csdn.net/shunhack/article/details/52587837

转载于:https://www.cnblogs.com/sunrunzhi/p/9988569.html

你可能感兴趣的文章

nginx --rhel6.5

查看>>

Eclipse Python插件 PyDev

查看>>

selenium+python3模拟键盘实现粘贴、复制

Iroha and a Grid AtCoder - 1974（思维水题）

java代码编译与C/C++代码编译的区别

查看>>

Bitmap 算法

查看>>

转载 C#文件中GetCommandLineArgs()

查看>>

list control控件的一些操作

查看>>