电子书: |  中文书: |  英文书: |  今日新增: |  用户: |  欢迎新用户:
 最新动态:
网站已完美运行了:
交流群1
936073884
联系我
948870341@qq.com
点击这里给我发消息
原创

数据科学实战.pdf 超清文字版

2019-11-11 15:09:52 rejoice 125 0
下载方式: 百度网盘下载 类别: 电子书 中文电子书,中文编程电子书 大小:未知
QQ截图20191111150831.png

目录

作者介绍 .............................................................................................................................................. XII

关于封面图 ........................................................................................................................................ XIII

前言 ...................................................................................................................................................... XIV

第 1 章 简介:什么是数据科学 ..................................................................................................... 1

1.1 大数据和数据科学的喧嚣 ......................................................................................................... 1

1.2 冲出迷雾 ..................................................................................................................................... 2

1.3 为什么是现在 ............................................................................................................................. 3

1.4 数据科学的现状和历史 ............................................................................................................. 5

1.5 数据科学的知识结构 ................................................................................................................. 8

1.6 思维实验:元定义 ................................................................................................................... 10

1.7 什么是数据科学家 ................................................................................................................... 11

1.7.1 学术界对数据科学家的定义 ...................................................................................... 12

1.7.2 工业界对数据科学家的定义 ...................................................................................... 12

第 2 章 统计推断、探索性数据分析和数据科学工作流程 .................................................. 14

2.1 大数据时代的统计学思考 ....................................................................................................... 14

2.1.1 统计推断 ...................................................................................................................... 15

2.1.2 总体和样本 .................................................................................................................. 16

2.1.3 大数据的总体和样本 .................................................................................................. 17

2.1.4 大数据意味着大胆的假设 .......................................................................................... 19

2.1.5 建模 .............................................................................................................................. 21

2.2 探索性数据分析 ....................................................................................................................... 26

2.2.1 探索性数据分析的哲学 .............................................................................................. 27

VI | 目录

2.2.2 练习:探索性数据分析 .............................................................................................. 29

2.3 数据科学的工作流程 ............................................................................................................... 31

2.4 思维实验:如何模拟混沌 ....................................................................................................... 34

2.5 案例学习:RealDirect .............................................................................................................. 35

2.5.1 RealDirect 是如何赚钱的 ............................................................................................ 36

2.5.2 练一练:RealDirect 公司的数据策略 ........................................................................ 36

第 3 章 算法 ....................................................................................................................................... 39

3.1 机器学习算法 ........................................................................................................................... 40

3.2 三大基本算法 ........................................................................................................................... 41

3.2.1 线性回归模型 .............................................................................................................. 42

3.2.2 k 近邻模型(k-NN)

.................................................................................................... 55

3.2.3 k 均值算法 ................................................................................................................... 64

3.3 练习:机器学习算法基础 ....................................................................................................... 68

3.4 总结 ........................................................................................................................................... 72

3.5 思维实验:关于统计学家的自动化 ....................................................................................... 73

第 4 章 垃圾邮件过滤器、朴素贝叶斯与数据清理 ................................................................ 74

4.1 思维实验:从实例中学习 ....................................................................................................... 74

4.1.1 线性回归为何不适用 .................................................................................................. 75

4.1.2 k 近邻效果如何 ........................................................................................................... 77

4.2 朴素贝叶斯模型 ....................................................................................................................... 78

4.2.1 贝叶斯法则 .................................................................................................................. 79

4.2.2 个别单词的过滤器 ...................................................................................................... 80

4.2.3 直通朴素贝叶斯 .......................................................................................................... 82

4.3 拉普拉斯平滑法 ....................................................................................................................... 83

4.4 对比朴素贝叶斯和 k 近邻 ....................................................................................................... 85

4.5 Bash 代码示例 .......................................................................................................................... 85

4.6 网页抓取:API 和其他工具 ................................................................................................... 87

4.7 Jake 的练习题:文章分类问题中的朴素贝叶斯模型 ........................................................... 88

第 5 章 逻辑回归 .............................................................................................................................. 92

5.1 思维实验 ................................................................................................................................... 93

5.2 分类器 ....................................................................................................................................... 94

5.2.1 运行时间 ...................................................................................................................... 95

5.2.2 你自己 .......................................................................................................................... 95

5.2.3 模型的可解释性 .......................................................................................................... 95

5.2.4 可扩展性 ...................................................................................................................... 96

目录 | VII

5.3 逻辑回归:一个来自 M6D 的真实案例研究 ........................................................................ 96

5.3.1 点击模型 ...................................................................................................................... 96

5.3.2 模型背后 ...................................................................................................................... 97

5.3.3 α 和 β 的参数估计 ....................................................................................................... 99

5.3.4 牛顿法 ........................................................................................................................ 101

5.3.5 随机梯度下降法 ........................................................................................................ 101

5.3.6 操练 ............................................................................................................................ 101

5.3.7 模型评价 .................................................................................................................... 102

5.4 练习题 ..................................................................................................................................... 105

第 6 章 时间戳数据与金融建模 ................................................................................................. 110

6.1 Kyle Teague 与 GetGlue 公司 ................................................................................................ 110

6.2 时间戳 ..................................................................................................................................... 112

6.2.1 探索性数据分析(EDA)

.......................................................................................... 113

6.2.2 指标和新变量 ............................................................................................................ 117

6.2.3 下一步怎么做 ............................................................................................................ 117

6.3 轮到 Cathy O’Neill 了 ............................................................................................................. 118

6.4 思维实验 ................................................................................................................................. 118

6.5 金融建模 ................................................................................................................................. 119

6.5.1 样本期内外以及因果关系 ........................................................................................ 120

6.5.2 金融数据处理 ............................................................................................................ 121

6.5.3 对数收益率 ................................................................................................................ 123

6.5.4 实例:标准普尔指数 ................................................................................................ 124

6.5.5 如何衡量波动率 ........................................................................................................ 126

6.5.6 指数平滑法 ................................................................................................................ 128

6.5.7 金融模型的反馈 ........................................................................................................ 128

6.5.8 聊聊回归模型 ............................................................................................................ 130

6.5.9 先验信息量 ................................................................................................................ 130

6.5.10 一个小例子 .............................................................................................................. 131

6.6 练习:GetGlue 提供的时间戳数据 ...................................................................................... 134

第 7 章 从数据到结论 ................................................................................................................... 136

7.1 William Cukierski ................................................................................................................... 136

7.1.1 背景介绍:数据科学竞赛 ........................................................................................ 136

7.1.2 背景介绍:众包模式 ................................................................................................ 137

7.2 Kaggle 模式 ............................................................................................................................ 139

7.2.1 Kaggle 的参赛者 ........................................................................................................ 140

7.2.2 Kaggle 的客户 ............................................................................................................ 141

VIII | 目录

7.3 思维实验:关于作业自动评分系统 ..................................................................................... 143

7.4 特征选择 ................................................................................................................................. 145

7.4.1 例子:留住用户 ........................................................................................................ 146

7.4.2 过滤型 ........................................................................................................................ 149

7.4.3 包装型 ........................................................................................................................ 149

7.4.4 决策树与嵌入型变量选择 ........................................................................................ 151

7.4.5 熵 ................................................................................................................................ 153

7.4.6 决策树算法 ................................................................................................................ 155

7.4.7 如何在决策树模型中处理连续性变量 .................................................................... 156

7.4.8 随机森林 .................................................................................................................... 157

7.4.9 用户黏性:模型的预测能力与可解释性 ................................................................ 159

7.5 David Huffaker:谷歌社会学研究的新方法 ........................................................................ 160

7.5.1 从描述性统计到预测模型 ........................................................................................ 161

7.5.2 谷歌的社交研究 ........................................................................................................ 163

7.5.3 隐私保护 .................................................................................................................... 163

7.5.4 思维实验:如何消除用户的顾虑 ............................................................................ 164

第 8 章 构建面向大量用户的推荐引擎 .................................................................................... 165

8.1 一个真实的推荐引擎 ............................................................................................................. 166

8.1.1 最近邻算法回顾 ........................................................................................................ 167

8.1.2 最近邻模型的已知问题 ............................................................................................ 168

8.1.3 超越近邻模型:基于机器学习的分类模型 ............................................................ 169

8.1.4 高维度问题 ................................................................................................................ 171

8.1.5 奇异值分解(SVD)

.................................................................................................. 172

8.1.6 关于 SVD 的重要特性 .............................................................................................. 172

8.1.7 主成分分析(PCA)

................................................................................................... 173

8.1.8 交替最小二乘法 ........................................................................................................ 174

8.1.9 固定矩阵 V,更新矩阵 U ......................................................................................... 175

8.1.10 关于这些算法的一点思考 ...................................................................................... 176

8.2 思维实验:如何过滤模型中的泡沫 ..................................................................................... 176

8.3 练习:搭建自己的推荐系统 ................................................................................................. 176

第 9 章 数据可视化与欺诈侦测 ................................................................................................. 179

9.1 数据可视化的历史 ................................................................................................................. 179

9.1.1 Gabriel Tarde .............................................................................................................. 180

9.1.2 Mark 的思维实验 ....................................................................................................... 181

9.2 到底什么是数据科学 ............................................................................................................. 181

9.2.1 Processing ................................................................................................................... 182

目录 | IX

9.2.2 Franco Moretti ............................................................................................................ 182

9.3 一个数据可视化的方案实例 ................................................................................................. 183

9.4 Mark 的数据可视化项目 ....................................................................................................... 186

9.4.1 《纽约时报》大厅里的可视化:Moveable Type ...................................................... 186

9.4.2 屏幕上的生命:Cascade 可视化项目 ...................................................................... 188

9.4.3 Cronkite 广场项目 ..................................................................................................... 189

9.4.4 eBay 与图书网购 ....................................................................................................... 190

9.4.5 公共剧场里的“莎士比亚机”

.................................................................................. 192

9.4.6 这些展览的目的是什么 ............................................................................................ 193

9.5 数据科学和风险 ..................................................................................................................... 193

9.5.1 关于 Square 公司 ....................................................................................................... 194

9.5.2 支付风险 .................................................................................................................... 194

9.5.3 模型效果的评估问题 ................................................................................................ 197

9.5.4 建模小贴士 ................................................................................................................ 200

9.6 数据可视化在 Square ............................................................................................................. 203

9.7 Ian 的思维实验 ....................................................................................................................... 204

9.8 关于数据可视化 ..................................................................................................................... 204

第 10 章 社交网络与数据新闻学 ............................................................................................... 207

10.1 Morning Analytics 与社交网络 ............................................................................................ 207

10.2 社交网络分析 ....................................................................................................................... 209

10.3 关于社交网络分析的相关术语 ........................................................................................... 209

10.3.1 如何衡量向心性 ..................................................................................................... 210

10.3.2 使用哪种向心性测度 ............................................................................................. 211

10.4 思维实验 ............................................................................................................................... 212

10.5 Morningside Analytics .......................................................................................................... 212

10.6 从统计学的角度看社交网络分析 ....................................................................................... 215

10.6.1 网络的表示方法与特征值向心度 ......................................................................... 215

10.6.2 随机网络的第一个例子:Erdos-Renyi 模型 ........................................................ 217

10.6.3 随机网络的第二个例子:指数随机网络图模型 ................................................. 217

10.7 数据新闻学 ........................................................................................................................... 220

10.7.1 关于数据新闻学的历史回顾 ................................................................................. 220

10.7.2 数据新闻报告的写作:来自专家的建议 ............................................................. 220

第 11 章 因果关系研究 ................................................................................................................ 222

11.1 相关性并不代表因果关系 ................................................................................................... 223

11.1.1 对因果关系提问 ..................................................................................................... 223

11.1.2 干扰因子:一个关于在线约会网站的例子 ......................................................... 224

X | 目录

11.2 OK Cupid 的发现 ................................................................................................................. 225

11.3 黄金准则:随机化临床实验 ............................................................................................... 226

11.4 A/B 测试 ............................................................................................................................... 228

11.5 退一步求其次:关于观察性研究 ....................................................................................... 229

11.5.1 辛普森悖论 ............................................................................................................. 230

11.5.2 鲁宾因果关系模型 ................................................................................................. 231

11.5.3 因果关系的可视化 ................................................................................................. 232

11.5.4 定义:因果关系 ..................................................................................................... 233

11.6 三个小建议 ........................................................................................................................... 235

第 12 章 流行病学 ......................................................................................................................... 236

12.1 Madigan 的学术背景 ............................................................................................................ 236

12.2 思维实验 ............................................................................................................................... 237

12.3 统计学在现代 ....................................................................................................................... 238

12.4 医学文献与观察性研究 ....................................................................................................... 238

12.5 分层法不解决干扰因子的问题 ........................................................................................... 239

12.6 就没有更好的办法吗 ........................................................................................................... 241

12.7 研究性实验(OMOP)

......................................................................................................... 242

12.8 最后的思维实验 ................................................................................................................... 246

第 13 章 从竞赛中学到的:数据泄漏和模型评价 ............................................................... 247

13.1 Claudia 作为数据科学家的知识结构 ................................................................................. 247

13.1.1 首席数据科学家的生活 ......................................................................................... 248

13.1.2 作为一名女数据科学家 ......................................................................................... 248

13.2 数据挖掘竞赛 ....................................................................................................................... 249

13.3 如何成为出色的建模者 ....................................................................................................... 250

13.4 数据泄漏 ............................................................................................................................... 250

13.4.1 市场预测 ................................................................................................................. 251

13.4.2 亚马逊案例学习:出手阔绰的顾客 ..................................................................... 251

13.4.3 珠宝抽样问题 ......................................................................................................... 251

13.4.4 IBM 客户锁定 ........................................................................................................ 252

13.4.5 乳腺癌检测 ............................................................................................................. 253

13.4.6 预测肺炎 ................................................................................................................. 253

13.5 如何避免数据泄漏 ............................................................................................................... 254

13.6 模型评价 ............................................................................................................................... 255

13.6.1 准确度重要吗 ......................................................................................................... 256

13.6.2 概率的重要性,不是非 0 即 1 .............................................................................. 256

13.7 如何选择算法 ....................................................................................................................... 259

目录 |

XI

13.8 最后一个例子 ....................................................................................................................... 259

13.9 临别感言 ............................................................................................................................... 260

第 14 章 数据工程:MapReduce、Pregel、Hadoop ........................................................ 261

14.1 关于 David Crawshaw .......................................................................................................... 262

14.2 思维实验 ............................................................................................................................... 262

14.3 MapReduce ............................................................................................................................ 263

14.4 单词频率问题 ....................................................................................................................... 264

14.5 其他 MapReduce 案例 .......................................................................................................... 267

14.6 Pregel ..................................................................................................................................... 268

14.7 关于 Josh Wills ..................................................................................................................... 269

14.8 思维实验 ............................................................................................................................... 269

14.9 给数据科学家的话 ............................................................................................................... 269

14.9.1 数据丰富和数据匮乏 ............................................................................................. 270

14.9.2 设计模型 ................................................................................................................. 270

14.10 算算 Hadoop 的经济账 ...................................................................................................... 270

14.10.1 Hadoop 简介 ....................................................................................................... 271

14.10.2 Cloudera .............................................................................................................. 271

14.11 Josh 的工作流程 ................................................................................................................. 272

14.12 如何开始使用 Hadoop ....................................................................................................... 272

第 15 章 听听学生们怎么说 ....................................................................................................... 273

15.1 重在过程 ............................................................................................................................... 273

15.2 不再简单 ............................................................................................................................... 274

15.3 援助之手 ............................................................................................................................... 275

15.4 殊途同归 ............................................................................................................................... 277

15.5 逢山开路,遇水架桥 ........................................................................................................... 279

15.6 作品展示 ............................................................................................................................... 279

第 16 章 下一代数据科学家、自大狂和职业道德 ............................................................... 281

16.1 前面都讲了些什么 ............................................................................................................... 281

16.2 什么是数据科学(再问一次)

............................................................................................. 282

16.3 谁是下一代的数据科学家 ................................................................................................... 283

16.3.1 成为解决问题的人 ................................................................................................. 284

16.3.2 培养软技能 ............................................................................................................. 284

16.3.3 成为提问者 ............................................................................................................. 285

16.4 做一个有道德感的数据科学家 ........................................................................................... 286

16.5 对于职业生涯的建议 ........................................................................................................... 289

下载地址:已隐藏,需要3.88积分
方式1(在线支付):点击购买支付成功后,会自动刷新页面显示下载地址,
同时可以在右上角 昵称--个人中心--购买记录中查看且若资源不满意可申请退款
方式2(推荐):升级VIP
0     0     0    
猜您喜欢
不吼不叫,妈妈这样做,孩子一定喜欢(套装三册)[www.rejoiceblog.com].mobi 电子书
货币里的中国史 - 任双伟[www.rejoiceblog.com].pdf 电子书
07铸钟[www.rejoiceblog.com].pdf
增长危机当前,贸易保护主义、逆全球化思潮抬头,全球经济增长面临的逆风加剧,不确定性风险加大)2019-07[www.rejoiceblog.com].epub 电子书
解读华尔街(原书第5版) 华章经典·金融投资系列)[www.rejoiceblog.com].pdf 电子书
条评论
助力榜
更多>>