我爱电子书-《特征工程入门与实践》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 云计算&大数据计算机基础

简介

特征工程入门与实践豆 7.5分

资源最后更新于 2020-07-25 14:10:07

作者：Sinan Ozdemir

译者：[中]庄嘉盛

出版社：人民邮电出版社

出版日期：2019-01

ISBN：9787115511645

文件格式： pdf

标签：机器学习特征工程数据处理数据科学数据挖掘编程数据分析与机器学习数据分析

简介· · · · · ·

特征工程是数据科学和机器学习流水线上的重要一环，包括识别、清洗、构建和发掘数据的特征，为进一步解释数据并进行预测性分析做准备。

本书囊括了特征工程的全流程，从数据检查到可视化，再到转换和进一步处理等，并给出了大量数学工具，帮助读者掌握如何将数据处理、转换成适当的形式，以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言，循序渐进，通俗易懂。

- 识别和利用不同类型的特征

- 清洗数据中的特征，提升预测能力

- 为何、如何进行特征选择和模型误差分析

- 利用领域知识构建新特征

- 基于数学知识交付特征

- 使用机器学习算法构建特征

- 掌握特征工程与特征优化

- 在现实应用中利用特征工程

直接下载

第 1章　特征工程简介　　1
1.1　激动人心的例子：AI驱动的聊天　1
1.2　特征工程的重要性　2
1.3　特征工程是什么　5
1.4　机器学习算法和特征工程的评估　9
1.4.1　特征工程的例子：真的有人能预测天气吗　10
1.4.2　特征工程的评估步骤　10
1.4.3　评估监督学习算法　11
1.4.4　评估无监督学习算法　11
1.5　特征理解：我的数据集里有什么　12
1.6　特征增强：清洗数据　13
1.7　特征选择：对坏属性说不　14
1.8　特征构建：能生成新特征吗　14
1.9　特征转换：数学显神通　15
1.10　特征学习：以AI促AI　16
1.11　小结　17
第　2章特征理解：我的数据集里有什么　19
2.1　数据结构的有无　19
2.2　定量数据和定性数据　20
2.3　数据的4个等级　25
2.3.1　定类等级　26
2.3.2　定序等级　27
2.3.3　定距等级　30
2.3.4　定比等级　36
2.4　数据等级总结　38
2.5　小结　40
第3章　特征增强：清洗数据　41
3.1　识别数据中的缺失值　41
3.1.1　皮马印第安人糖尿病预测数据集　42
3.1.2　探索性数据分析　42
3.2　处理数据集中的缺失值　48
3.2.1　删除有害的行　50
3.2.2　填充缺失值　54
3.2.3　在机器学习流水线中填充值　57
3.3　标准化和归一化　61
3.3.1　z分数标准化　63
3.3.2　min-max标准化　67
3.3.3　行归一化　68
3.3.4　整合起来　69
3.4　小结　70
第4章　特征构建：我能生成新特征吗　71
4.2　填充分类特征　72
4.2.1　自定义填充器　74
4.2.2　自定义分类填充器　74
4.2.3　自定义定量填充器　76
4.3　编码分类变量　77
4.3.1　定类等级的编码　77
4.3.2　定序等级的编码　79
4.3.3　将连续特征分箱　80
4.3.4　创建流水线　82
4.4　扩展数值特征　83
4.4.1　根据胸部加速度计识别动作的数据集　83
4.4.2　多项式特征　86
4.5　针对文本的特征构建　89
4.5.1　词袋法　89
4.5.2　CountVectorizer　90
4.5.3　TF-IDF向量化器　94
4.5.4　在机器学习流水线中使用文本　95
4.6　小结　97
第5章　特征选择：对坏属性说不　98
5.1　在特征工程中实现更好的性能　99
5.2　创建基准机器学习流水线　103
5.3　特征选择的类型　106
5.3.1　基于统计的特征选择　106
5.3.2　基于模型的特征选择　117
5.4　选用正确的特征选择方法　125
5.5　小结　125
第6章　特征转换：数学显神通　127
6.1　维度缩减：特征转换、特征选择与特征构建　129
6.2　主成分分析　130
6.2.1　PCA的工作原理　131
6.2.2　鸢尾花数据集的PCA——手动处理　131
6.2.3　scikit-learn的PCA　137
6.2.4　中心化和缩放对PCA的影响　144
6.3　线性判别分析　148
6.3.1　LDA的工作原理　149
6.3.2　在scikit-learn中使用LDA　152
6.4　LDA与PCA：使用鸢尾花数据集　157
6.5　小结　160
第7章　特征学习：以AI促AI　161
7.1　数据的参数假设　161
7.1.1　非参数谬误　163
7.1.2　本章的算法　163
7.2　受限玻尔兹曼机　163
7.2.1　不一定降维　164
7.2.2　受限玻尔兹曼机的图　164
7.2.3　玻尔兹曼机的限制　166
7.2.4　数据重建　166
7.2.5　MNIST数据集　167
7.3　伯努利受限玻尔兹曼机　169
7.3.1　从MNIST中提取PCA主成分　170
7.3.2　从MNIST中提取RBM特征　177
7.4.1　对原始像素值应用线性模型　178
7.4.3　对提取的RBM特征应用线性模型　179
7.5　学习文本特征：词向量　180
7.5.1　词嵌入　180
7.5.2　两种词嵌入方法：Word2vec和GloVe　182
7.5.3　Word2vec：另一个浅层神经网络　182
7.5.4　创建Word2vec词嵌入的gensim包　183
7.5.5　词嵌入的应用：信息检索　186
7.6　小结　190
第8章　案例分析　191
8.1　案例1：面部识别　191
8.1.1　面部识别的应用　191
8.1.2　数据　192
8.1.3　数据探索　193
8.1.4　应用面部识别　195
8.2　案例2：预测酒店评论数据的主题　200
8.2.1　文本聚类的应用　200
8.2.2　酒店评论数据　200
8.2.3　数据探索　201
8.2.4　聚类模型　203
8.2.5　SVD与PCA主成分　204
8.2.6　潜在语义分析　206
8.3　小结　210

简介

特征工程入门与实践 豆 7.5分

简介· · · · · ·

目录

猜你喜欢

Swift语言实战晋级

PyTorch机器学习从入门到实战

R的极客理想：工具篇

Python3爬虫、数据清洗与可视化实战

AngularJS入门与进阶

Java EE架构设计与开发实践

特征工程入门与实践豆 7.5分