以下文字与答案无关
提示:有些试题内容 显示不完整,文字错误 或者 答案显示错误等问题,这是由于我们在扫描录入过程中 机器识别错误导致,人工逐条矫正总有遗漏,所以恳请 广大网友理解。
show()
B:map() C:toDF()
D:printSchema()
dataframe数据处理不在内存中
B:dataframe有表头
C:dataframe的创建接口不同
D:dataframe可以使用sql语言
RDD在Spark中运行时,将作业的DAG划分成不同的Stage的阶段是()。 -----------
选项: A:RDD Objects
B:DAGScheduler
C:TaskScheduler
D:Worker
RDD在Spark中运行时,将作业的DAG划分成不同的Stage的阶段是()。 -----------
选项: A:RDD Objects
B:DAGScheduler
C:DAGScheduler
D:TaskScheduler
E:WorkerSQL
B:Shark
C:Spark RDD
D:MapReduce
在RDD编程中需要生成一个SparkContext对象
在Spark SQL编程中需要生成一个SparkSession对象
C:运行一个Spark Streaming程序,就需要首先生成一个StreamingContext对象
D:在Spark SQL编程中需要生成一个StreamingContext对象
map
B:reduce
C:maven
D:Partitioner
select()
B:show()
C:filter()
D:map()
printSchema()
B:select()
C:filter()
D:sendto()
MEMORY_ONLY
B:MEMORY_AND_DISK
C:DISK_ONLY
D:MEMORY_ONLY_SER
A、persist(MEMORY_ONLY):表示将RDD作为反序列化的对象存储于JVM中,如果内存不足,就要按照LRU原则替换缓存中的内容
B、persist(MEMORY_AND_DISK):表示将RDD作为反序列化的对象存储在JVM中,如果内存不足,超出的分区将会被存放在硬盘上
C、通过持久化(缓存)机制可以避免重复计算的开销
D、使用cache()方法时,会调用persist(MEMORY_ONLY)