电子书: |  中文书: |  英文书: |  今日新增: |  用户: |  欢迎新用户:
 最新动态:
网站已完美运行了:
交流群1
936073884
联系我
948870341@qq.com
点击这里给我发消息
原创

Spark机器学习.pdf(pdf+代码包) 超清文字版

2019-11-11 11:20:36 rejoice 103 0
下载方式: 百度网盘下载 类别: 电子书 中文电子书,中文编程电子书 大小:未知
QQ截图20191111111844.png

目 录

第 1 章 Spark 的环境搭建与运行 ................. 1

1.1 Spark 的本地安装与配置 ........................... 2

1.2 Spark 集群 .................................................. 3

1.3 Spark 编程模型 .......................................... 4

1.3.1  SparkContext 类与

SparkConf 类 ............................... 4

1.3.2 Spark shell ...................................... 5

1.3.3 弹性分布式数据集 ......................... 6

1.3.4 广播变量和累加器 ....................... 10

1.4 Spark Scala 编程入门 .............................. 11

1.5 Spark Java 编程入门 ................................ 14

1.6 Spark Python 编程入门 ............................ 17

1.7 在 Amazon EC2 上运行 Spark ................. 18

1.8 小结 ......................................................... 23

第 2 章 设计机器学习系统 ........................... 24

2.1 MovieStream 介绍 ................................... 24

2.2 机器学习系统商业用例 ........................... 25

2.2.1 个性化 .......................................... 26

2.2.2 目标营销和客户细分 ................... 26

2.2.3 预测建模与分析 ........................... 26

2.3 机器学习模型的种类 ............................... 27

2.4 数据驱动的机器学习系统的组成 ............ 27

2.4.1 数据获取与存储 ........................... 28

2.4.2 数据清理与转换 ........................... 28

2.4.3 模型训练与测试回路 ................... 29

2.4.4 模型部署与整合 ........................... 30

2.4.5 模型监控与反馈 ........................... 30

2.4.6 批处理或实时方案的选择 ........... 31

2.5 机器学习系统架构 .................................. 31

2.6 小结 ......................................................... 33

第 3 章 Spark 上数据的获取、处理与

准备 .................................................... 34

3.1 获取公开数据集 ...................................... 35

3.2 探索与可视化数据 .................................. 37

3.2.1 探索用户数据 .............................. 38

3.2.2 探索电影数据 .............................. 41

3.2.3 探索评级数据 .............................. 43

3.3 处理与转换数据 ...................................... 46

3.4 从数据中提取有用特征 ........................... 48

3.4.1 数值特征 ...................................... 48

3.4.2 类别特征 ...................................... 49

3.4.3 派生特征 ...................................... 50

3.4.4 文本特征 ...................................... 51

3.4.5 正则化特征 .................................. 55

3.4.6 用软件包提取特征 ....................... 56

3.5 小结 ......................................................... 57

第 4 章 构建基于 Spark 的推荐引擎 .......... 58

4.1 推荐模型的分类 ...................................... 59

4.1.1 基于内容的过滤 .......................... 59

4.1.2 协同过滤 ...................................... 59

4.1.3 矩阵分解 ...................................... 60

4.2 提取有效特征 .......................................... 64

4.3 训练推荐模型 .......................................... 67

4.3.1 使用 MovieLens 100k 数据集

训练模型 ...................................... 67

4.3.2 使用隐式反馈数据训练模型 ....... 68

4.4 使用推荐模型 .......................................... 69

4.4.1 用户推荐 ...................................... 69

4.4.2 物品推荐 ...................................... 72

4.5 推荐模型效果的评估 .............................. 75

4.5.1 均方差 .......................................... 75

4.5.2 K 值平均准确率 ........................... 77

4.5.3 使用 MLlib 内置的评估函数 ....... 81

4.6 小结 ......................................................... 82

第 5 章 Spark 构建分类模型 ....................... 83

5.1 分类模型的种类 ...................................... 85

5.1.1 线性模型 ...................................... 85

5.1.2 朴素贝叶斯模型 .......................... 89

5.1.3 决策树 .......................................... 90

5.2 从数据中抽取合适的特征 ....................... 91

5.3 训练分类模型 .......................................... 93

5.4 使用分类模型 .......................................... 95

5.5 评估分类模型的性能 .............................. 96

5.5.1 预测的正确率和错误率 ............... 96

5.5.2 准确率和召回率 .......................... 97

5.5.3 ROC 曲线和 AUC ........................ 99

5.6 改进模型性能以及参数调优 ................. 101

5.6.1 特征标准化 ................................ 101

5.6.2 其他特征 .................................... 104

5.6.3 使用正确的数据格式 ................. 106

5.6.4 模型参数调优 ............................ 107

5.7 小结 ....................................................... 115

第 6 章 Spark 构建回归模型 ..................... 116

6.1 回归模型的种类 .................................... 116

6.1.1 最小二乘回归 ............................ 117

6.1.2 决策树回归 ................................ 117

6.2 从数据中抽取合适的特征 ..................... 118

6.3 回归模型的训练和应用 ......................... 123

6.4 评估回归模型的性能 ............................ 125

6.4.1 均方误差和均方根误差 ............. 125

6.4.2 平均绝对误差 ............................ 126

6.4.3 均方根对数误差 ........................ 126

6.4.4 R-平方系数 ................................ 126

6.4.5 计算不同度量下的性能 ............. 126

6.5 改进模型性能和参数调优 ..................... 127

6.5.1 变换目标变量 ............................ 128

6.5.2 模型参数调优 ............................ 132

6.6 小结 ....................................................... 140

第 7 章 Spark 构建聚类模型 ..................... 141

7.1 聚类模型的类型 .................................... 142

7.1.1 K-均值聚类 ................................ 142

7.1.2 混合模型 .................................... 146

7.1.3 层次聚类 .................................... 146

7.2 从数据中提取正确的特征 ..................... 146

7.3 训练聚类模型 ........................................ 150

7.4 使用聚类模型进行预测 ........................ 151

7.5 评估聚类模型的性能 ............................ 155

7.5.1 内部评价指标 ............................ 155

7.5.2 外部评价指标 ............................ 156

7.5.3 在 MovieLens 数据集计算

性能 ........................................... 156

7.6 聚类模型参数调优 ................................ 156

7.7 小结 ....................................................... 158

第 8 章 Spark 应用于数据降维 ................. 159

8.1 降维方法的种类 .................................... 160

8.1.1 主成分分析 ................................ 160

8.1.2 奇异值分解 ................................ 160

8.1.3 和矩阵分解的关系 .................... 161

8.1.4 聚类作为降维的方法 ................. 161

8.2 从数据中抽取合适的特征 ..................... 162

8.3 训练降维模型 ........................................ 169

8.4 使用降维模型 ........................................ 172

8.4.1 在 LFW 数据集上使用 PCA

投影数据 .................................... 172

8.4.2 PCA 和 SVD 模型的关系 .......... 173

8.5 评价降维模型 ........................................ 174

8.6 小结 ....................................................... 176

第 9 章 Spark 高级文本处理技术 ............. 177

9.1 处理文本数据有什么特别之处 ............. 177

9.2 从数据中抽取合适的特征 ..................... 177

9.2.1 短语加权表示 ............................ 178

9.2.2 特征哈希 .................................... 179

9.2.3 从 20 新闻组数据集中提取

TF-IDF 特征 .............................. 180

9.3 使用 TF-IDF 模型 ................................. 192

9.3.1 20 Newsgroups 数据集的文本

相似度和 TF-IDF 特征 ............... 192

9.3.2 基于 20 Newsgroups 数据集使

用 TF-IDF 训练文本分类器 ....... 194

9.4 评估文本处理技术的作用 ..................... 196

9.5 Word2Vec 模型 ...................................... 197

9.6 小结 ....................................................... 200

第 10 章 Spark Streaming 在实时机器

学习上的应用 ............................... 201

10.1 在线学习 .............................................. 201

10.2 流处理 .................................................. 202

10.2.1 Spark Streaming 介绍 ............. 202

10.2.2 使用 Spark Streaming 缓存和

容错 .......................................... 205

10.3 创建 Spark Streaming 应用 .................. 206

10.3.1 消息生成端 ............................ 207

10.3.2 创建简单的流处理程序 ......... 209

10.3.3 流式分析 ................................ 211

10.3.4 有状态的流计算 ..................... 213

10.4 使用 Spark Streaming 进行在线学习 ... 215

10.4.1 流回归 .................................... 215

10.4.2 一个简单的流回归程序 ......... 216

10.4.3 流 K-均值 ............................... 220

10.5 在线模型评估 ...................................... 221

10.6 小结 ..................................................... 224

下载地址:已隐藏,需要2.88积分
方式1(在线支付):点击购买支付成功后,会自动刷新页面显示下载地址,
同时可以在右上角 昵称--个人中心--购买记录中查看且若资源不满意可申请退款
方式2(推荐):升级VIP
0     0     0    
猜您喜欢
地缘政治三部曲系列:一部全面分析地缘对人类历史、政治影响的集大成作品! 《即将到来的地缘战争》、《欧洲新燃点》和《弗里德曼说,下一个一百年地缘大冲突[www.rejoiceblog.com].epub 电子书
当下的力量(白金版) A Guide to Spiritual Enlightenment 德埃克哈特•托利 [www.rejoiceblog.com].pdf 电子书
2019-01《做二休五:钱少事少的都市生活指南》[www.rejoiceblog.com].pdf
《破茧成蝶2--以产品为中心的设计革命》 刘津等[www.rejoiceblog.com].pdf 电子书
洞见未来商业(《认识商业》《理解未来的7个原则》《畅销的原理》《 威廉·尼克尔斯 & 吉姆·麦克修 & 苏珊·麦克修 & 丹尼尔·[www.rejoiceblog.com].pdf 电子书
条评论
助力榜
更多>>