学习假设检验

假设检验根据一定假设条件,由样本推断总体的一种统计学方法。基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝假设。假设检验的方法有很多,如卡方检验,T检验等。spark实现的是皮尔森卡方检验,它可以实现...

学习相关系数

相关性度量是一种研究变量之间线性相关程度的量我们主要介绍皮尔逊相关系数皮尔逊相关系数例子皮尔逊系数绝对值越大,线性相关程度越高。正负号代表正相关或负相关。实践皮尔逊相关系数对北京市历年降水量进行相关性统计,看看年份与降水量之间的相关程...

DataFrame的基本使用

官网链接实践API编程import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameAPIApp { def main(args: Array[Str...

学习SQLContext

与Spark Core一样,Spark SQL也有SparkContextSpark 2.x以后 Spark SQL编程的入口是SparkSession。Spark2.x 以前 Spark SQL编程的入口是SQLContext和Hi...

学习SparkSession

SparkSession介绍官网链接Spark 2.x中所有功能的入口点是SparkSession类。要创建一个基本的SparkSession,只需使用SparkSession.builder():import org.apache....

Spark SQL快速入门

Spark SQL is Apache Spark's module for working with structured data. Spark SQL是Apache Spark中用于处理结构化数据的一个模块...