一颗蔬菜

我虽是只猫却也常常思考

Spark提供的机器学习算法

  • 通用算法:分类,回归,聚类等
  • 特征工程类:降维,转换,选择,特征抽取等
  • 数学工具:概率统计,矩阵运算等
  • 以及pipeline等

MLlib与ml的区别

  • MLlib采用RDD形式的数据格式,而ml使用DataFrame的结构
  • Spark官方希望用ml逐步替换MLlib

MLlib的应用场景

海量数据的分析和挖掘
  • 例如对海量的房租出租,出售信息进行挖掘,预测房价价格和租金
  • 典型数据集:波士顿房价数据集
  • 主要用到的传统的数据挖掘算法,例如使用逻辑回归算法
大数据机器学习系统
  • 例如自然语言处理类的系统,推荐系统等
  • 推荐系统,需要实时进行数据的收集,统计,任务调度,定期更新训练模型
  • 核心实现:Spark Streaming + MLlib

发表评论

正在加载 Emoji