logo
分类于: 职场办公 编程语言

简介

Python数据预处理技术与实践

Python数据预处理技术与实践 0.0分

资源最后更新于 2020-10-05 18:43:43

作者:白宁超

出版社:清华大学出版社

出版日期:2019-01

ISBN:9787302539711

文件格式: pdf

标签: 数据分析 Python 编程

简介· · · · · ·

《Python数据预处理技术与实践》基础理论和工程应用相结合,循序渐进地介绍了数据预处理的基本概念、基础知识、工具应用和相关案例,包括网络爬虫、数据抽取、数据清洗、数据集成、数据变换、数据向量化、数据规约等知识,书中针对每个知识点,都给出了丰富的教学实例和实现代码,最后,通过一个新闻文本分类的实际项目讲解了数据预处理技术在实际中的应用。

《Python数据预处理技术与实践》的特点是几乎涵盖了数据预处理的各种常用技术及主流工具应用,示例代码很丰富,适合于大数据从业者、AI技术开发人员以及高校大数据专业的学生使用。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

第1章 概述
1.1 Python数据预处理
1.1.1 什么是数据预处理
1.1.2 为什么要做数据预处理
1.1.3 数据预处理的工作流程
1.1.4 数据预处理的应用场景
1.2 开发工具与环境
1.2.1 Anaconda介绍与安装
1.2.2 SUblimeTeXt
1.3 实战案例:第一个中文分词程序
1.3.1 中文分词
1.3.2 实例介绍
1.3.3 结巴实现中文分词
1.4 本章小结
第2章 Python科学计算工具
2.1 NumPy
2.1.1 NumPy的安装和特点
2.1.2 NumPy数组
2.1.3 Numpy的数学函数
2.1.4 NumPy线性代数运算
2.1.5 NumPyIO操作
2.2 SCiPy
2.2.1 SciPy的安装和特点
2.2.2 SciPyLinalg
2.2.3 SciPy文件操作
2.2.4 SciPy插值
2.2.5 SCiPyNdimage
2.2.6 SciPy优化算法
2.3 Pandas
2.3.1 Pandas的安装和特点
2.3.2 Pandas的数据结构
2.3.3 Pandas的数据统计
2.3.4 Pandas处理丢失值
2.3.5 Pandas处理稀疏数据
2.3.6 Pandas的文件操作
2.3.7 Pandas可视化
2.4 本章小结
第3章 数据采集与存储
3.1 数据与数据采集
3.2 数据类型与采集方法
3.2.1 结构化数据
3.2.2 半结构化数据
3.2.3 非结构化数据
3.3 网络爬虫技术
3.3 .1前置条件
3.3.2 Scrapy技术原理
3.3.3 Scrapy新建爬虫项目
3.3.4 爬取网站内容
3.4 爬取数据以JSON格式进行存储
3.5 爬取数据的MySQL存储
3.5.1 MySQL与Navicat部署
3.5.2 MySQL存储爬虫数据
3.6 网络爬虫技术扩展
3.7 本章小结
……
第4章 文本信息抽取
第5章 文本数据清洗
第6章 中文分词技术
第7章 文本特征向量化
第8章 Gensim文本向量化
第9章 PCA降维技术
第10章 数据可视化
第11章 竞赛神器XGBoost
第12章 XGBoost实现新闻文本分类
参考文献