我爱电子书-《机器学习系统设计》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 计算机基础互联网人工智能

简介

机器学习系统设计豆 7.5分

资源最后更新于 2020-03-29 04:14:15

作者：〔美〕 Willi Richert〔美〕Luis Pedro Coelho

译者：刘峰

出版社：出版社人民邮电出版社

出版日期：2014-07

ISBN：9787115356826

文件格式： pdf

标签：网络计算机人工智能

简介· · · · · ·

如今，机器学习正在互联网上下掀起热潮，而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言，它支持快速探索和实验，并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色，就是结合实例分析教会读者如何通过机器学习解决实际问题。本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。举几个例子，我们会介绍怎么把StackOverflow的回答按质量高低进行分类，怎么知道某个音乐文件是爵士风格，还是重金属摇滚风格。另外，本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之，通过学习本书，读者可以掌握构建自己所需系统的各方面知识，并且学以致用，解决自己面临的现实问题。读者只要具有一定的Python编程经验，能够自己安装和使用开源库，就足够了，即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。Willi Richert（作者），机器学习和机器人学博士，目前任职于微软Bing搜索核心研发团队。他从事多种机器学习领域的研究，包括主动学习和统计机器翻译。Luis Pedro Coelho（作者），计算生物学家，主要关注生物图像信息学和大规模图像数据的处理，致力于生物标本图像分析中机器学习技术的应用，他还是Python计算机视觉库mahotas的主要开发人员。他于1998年开始开发开源软件，2004年起从事Python开发，并为多个Python开源库贡献了代码。另外，Luis拥有机器学习领域世界领先的卡内基-梅隆大学的博士学位，并发表过多篇科学论文。刘峰（译者），百度LBS地图基础业务部资深研发工程师，新加坡南洋理工大学计算机工程系博士，研究领域包括机器学习、模糊神经网络等。2010年加入百度，主要从事大数据分析和挖掘方面的工作，近年来专注于无线定位、用户轨迹等LBS大数据的挖掘及机器学习应用。

直接下载

简介

机器学习系统设计 豆 7.5分

简介· · · · · ·

目录

译者序

作者致谢

关于作者

关于审校者

前言

本书内容

阅读需知

读者对象

排版约定

读者反馈

客户支持

下载代码

勘误

举报盗版

疑难解答

第1章 Python机器学习入门

1.1 梦之队：机器学习与Python

1.2 这本书将教给你什么（以及不会教什么）

1.3 遇到困难的时候怎么办

1.4 开始

1.4.1 NumPy、SciPy和Matplotlib简介

1.4.2 安装Python

1.4.3 使用NumPy和SciPy智能高效地处理数据

1.4.4 学习NumPy

1. 索引

2. 处理不存在的值

3. 运行时行为比较

1.4.5 学习SciPy

1.5 我们第一个（极小的）机器学习应用

1.5.1 读取数据

1.5.2 预处理和清洗数据

1.5.3 选择正确的模型和学习算法

1. 在构建第一个模型之前

2. 从一条简单的直线开始

3. 一些高级话题

4. 以退为进——另眼看数据

5. 训练与测试

6. 回答最初的问题

1.6 小结

第2章 如何对真实样本分类

2.1 Iris数据集

2.1.1 第一步是可视化

2.1.2 构建第一个分类模型

评估：留存数据和交叉验证

2.2 构建更复杂的分类器

2.3 更复杂的数据集和更复杂的分类器

2.3.1 从Seeds数据集中学习

2.3.2 特征和特征工程

2.3.3 最邻近分类

2.4 二分类和多分类

2.5 小结

第3章 聚类：寻找相关的帖子

3.1 评估帖子的关联性

3.1.1 不应该怎样

3.1.2 应该怎样

3.2 预处理：用相近的公共词语个数来衡量相似性

3.2.1 将原始文本转化为词袋

3.2.2 统计词语

3.2.3 词语频次向量的归一化

3.2.4 删除不重要的词语

3.2.5 词干处理

1. 安装和使用NLTK

2. 用NLTK词干处理器拓展词向量

3.2.6 停用词兴奋剂

3.2.7 我们的成果和目标

3.3 聚类

3.3.1 K均值

3.3.2 让测试数据评估我们的想法

3.3.3 对帖子聚类

3.4 解决我们最初的难题

换个角度看噪声

3.5 调整参数

3.6 小结

第4章 主题模型

4.1 潜在狄利克雷分配（LDA）

构建主题模型

机器学习系统设计豆 7.5分

第1章　Python机器学习入门

1.1　梦之队：机器学习与Python

1.2　这本书将教给你什么（以及不会教什么）

1.3　遇到困难的时候怎么办

1.4　开始

1.4.1　NumPy、SciPy和Matplotlib简介

1.4.2　安装Python

1.4.3　使用NumPy和SciPy智能高效地处理数据

1.4.4　学习NumPy

1.4.5　学习SciPy

1.5　我们第一个（极小的）机器学习应用

1.5.1　读取数据

1.5.2　预处理和清洗数据

1.5.3　选择正确的模型和学习算法

1.6　小结

第2章　如何对真实样本分类

2.1　Iris数据集

2.1.1　第一步是可视化

2.1.2　构建第一个分类模型

2.2　构建更复杂的分类器

2.3　更复杂的数据集和更复杂的分类器

2.3.1　从Seeds数据集中学习

2.3.2　特征和特征工程

2.3.3　最邻近分类

2.4　二分类和多分类

2.5　小结

第3章　聚类：寻找相关的帖子

3.1　评估帖子的关联性

3.1.1　不应该怎样

3.1.2　应该怎样

3.2　预处理：用相近的公共词语个数来衡量相似性

3.2.1　将原始文本转化为词袋

3.2.2　统计词语

3.2.3　词语频次向量的归一化

3.2.4　删除不重要的词语

3.2.5　词干处理

3.2.6　停用词兴奋剂

3.2.7　我们的成果和目标

3.3　聚类

3.3.1　K均值

3.3.2　让测试数据评估我们的想法

3.3.3　对帖子聚类

3.4　解决我们最初的难题

3.5　调整参数

3.6　小结

第4章　主题模型

4.1　潜在狄利克雷分配（LDA）

4.2　在主题空间比较相似度

4.3　选择主题个数

4.4　小结

第5章　分类：检测劣质答案

5.1　路线图概述

5.2　学习如何区分出优秀的答案

5.2.1　调整样本

5.2.2　调整分类器

5.3　获取数据

5.3.1　将数据消减到可处理的程度

5.3.2　对属性进行预选择和处理

5.3.3　定义什么是优质答案

5.4　创建第一个分类器

5.4.1　从k邻近（kNN）算法开始

5.4.2　特征工程

5.4.3　训练分类器

5.4.4　评估分类器的性能

5.4.5　设计更多的特征

5.5　决定怎样提升效果

5.5.1　偏差-方差及其折中

5.5.2　解决高偏差

5.5.3　解决高方差

5.5.4　高偏差或低偏差

5.6　采用逻辑回归

5.6.1　一点数学和一个小例子

5.6.2　在帖子分类问题上应用逻辑回归

5.7　观察正确率的背后：准确率和召回率

5.8　为分类器瘦身

5.9　出货

5.10　小结

第6章　分类II：情感分析

6.1　路线图概述