logo
分类于: 编程语言 计算机基础 云计算&大数据

简介

命令行中的数据科学

命令行中的数据科学 7.6分

资源最后更新于 2020-03-29 02:59:23

作者:〔荷〕Jeroen Janssens

译者:王晓伟刘峰

出版社:出版社人民邮电出版社

出版日期:2015-06

ISBN:9787115391681

文件格式: pdf

标签: 计算机 大数据 数据库

简介· · · · · ·

本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。Jeroen Janssens,爱思唯尔(世界领先的科技及医学出版公司)首席数据科学家,曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位,在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具,个人网站是http://jeroenjanssens.com/。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. O'Reilly Media, Inc.介绍
  2. 业界评论
  3. 前言
  4. 从本书可以学到的
  5. 怎样阅读本书
  6. 本书面向的读者
  7. 使用代码示例
  8. Safari® Books Online
  9. 联系我们
  10. 致谢
  11. 第1章 简介
  12. 1.1 概述
  13. 1.2 数据科学就是OSEMN
  14. 1.2.1 数据获取
  15. 1.2.2 数据清洗
  16. 1.2.3 数据探索
  17. 1.2.4 数据建模
  18. 1.2.5 数据解释
  19. 1.3 插入的几章
  20. 1.4 什么是命令行
  21. 1.5 为什么用命令行做数据科学工作
  22. 1.5.1 命令行的灵活性
  23. 1.5.2 命令行可增强
  24. 1.5.3 命令行可扩展
  25. 1.5.4 命令行可扩充
  26. 1.5.5 命令行无处不在
  27. 1.6 一个现实用例
  28. 1.7 延伸阅读
  29. 第2章 入门指南
  30. 2.1 概述
  31. 2.2 设置数据科学工具箱
  32. 2.2.1 步骤1:下载和安装VirtualBox
  33. 2.2.2 步骤2:下载和安装Vagrant
  34. 2.2.3 步骤3:下载并启动数据科学工具箱
  35. 2.2.4 步骤4:登录(Linux和Mac OS X)
  36. 2.2.5 步骤4:登录(微软Windows)
  37. 2.2.6 步骤5:关闭或重启
  38. 2.3 必要的概念和工具
  39. 2.3.1 环境
  40. 2.3.2 运行命令行工具
  41. 2.3.3 五类命令行工具
  42. 2.3.4 命令行工具的组合
  43. 2.3.5 输入和输出重定向
  44. 2.3.6 处理文件
  45. 2.3.7 寻求帮助
  46. 2.4 延伸阅读
  47. 第3章 数据获取
  48. 3.1 概述
  49. 3.2 将本地文件复制到数据科学工具箱
  50. 3.2.1 本地数据科学工具箱
  51. 3.2.2 远程数据科学工具箱
  52. 3.3 解压缩文件
  53. 3.4 微软Excel电子表格的转换
  54. 3.5 查询关系数据库
  55. 3.6 从互联网下载
  56. 3.7 调用Web API
  57. 3.8 延伸阅读
  58. 第4章 创建可重用的命令行工具
  59. 4.1 概述
  60. 4.2 将单行转变为shell脚本
  61. 4.2.1 步骤1:复制和粘贴
  62. 4.2.2 步骤2:添加执行权限
  63. 4.2.3 步骤3:定义shebang
  64. 4.2.4 步骤4:删除固定的输入
  65. 4.2.5 步骤5:参数化
  66. 4.2.6 步骤6:扩展PATH
  67. 4.3 用Python和R创建命令行工具
  68. 4.3.1 移植shell脚本
  69. 4.3.2 处理来自标准输入的流数据
  70. 4.4 延伸阅读
  71. 第5章 数据清洗
  72. 5.1 概述
  73. 5.2 纯文本的常见清洗操作
  74. 5.2.1 行过滤
  75. 5.2.2 值提取
  76. 5.2.3 值替换和删除
  77. 5.3 处理CSV
  78. 5.3.1 主体、头部和列
  79. 5.3.2 对CSV执行SQL查询
  80. 5.4 处理HTML/XML和JSON
  81. 5.5 CSV的常见清洗操作
  82. 5.5.1 列的提取和重排序
  83. 5.5.2 行过滤
  84. 5.5.3 列合并
  85. 5.5.4 多个CSV文件的合并
  86. 5.6 延伸阅读
  87. 第6章 管理数据工作流
  88. 6.1 概述
  89. 6.2 Drake简介
  90. 6.3 Drake的安装
  91. 6.4 获取古腾堡计划中下载最多的电子书
  92. 6.5 所有工作流都从单个步骤开始
  93. 6.6 具体情况具体对待
  94. 6.7 重新构建具体目标
  95. 6.8 讨论
  96. 6.9 延伸阅读
  97. 第7章 数据探索
  98. 7.1 概述
  99. 7.2 检查数据及其属性
  100. 7.2.1 确定有无数据头
  101. 7.2.2 检查所有数据
  102. 7.2.3 特征名称和数据类型
  103. 7.2.4 唯一标识、连续变量和因子
  104. 7.3 计算描述性统计信息
  105. 7.3.1 使用 csvstat
  106. 7.3.2 在命令行中通过 Rio 使用R
  107. 7.4 生成可视化图形
  108. 7.4.1 介绍Gunplot和feedgnuplot
  109. 7.4.2 介绍 ggplot2
  110. 7.4.3 直方图
  111. 7.4.4 条形图
  112. 7.4.5 密度图
  113. 7.4.6 箱线图
  114. 7.4.7 散点图
  115. 7.4.8 折线图
  116. 7.4.9 总结
  117. 7.5 延伸阅读
  118. 第8章 并行管道
  119. 8.1 概述
  120. 8.2 串行处理
  121. 8.2.1 对数字进行遍历
  122. 8.2.2 对行进行遍历
  123. 8.2.3 对文件进行遍历
  124. 8.3 并行处理
  125. 8.3.1 GNU Parallel介绍
  126. 8.3.2 指定输入
  127. 8.3.3 控制并发任务的个数
  128. 8.3.4 记录日志和输出
  129. 8.3.5 创建并行工具
  130. 8.4 分布式处理
  131. 8.4.1 获得运行中的AWS EC2实例列表
  132. 8.4.2 在远程机器上运行命令
  133. 8.4.3 在远程机器间分发本地数据
  134. 8.4.4 在远程机器上处理文件
  135. 8.5 讨论
  136. 8.6 延伸阅读
  137. 第9章 数据建模
  138. 9.1 概述
  139. 9.2 更多的酒,来吧!
  140. 9.3 用Tapkee降维
  141. 9.3.1 介绍Tapkee
  142. 9.3.2 安装Tapkee
  143. 9.3.3 线性和非线性映射
  144. 9.4 用Weka聚类
  145. 9.4.1 介绍Weka
  146. 9.4.2 在命令行里改进Weka
  147. 9.4.3 在CSV和ARFF格式之间转换
  148. 9.4.4 比较三种聚类算法
  149. 9.5 通过SciKit-Learn Laboratory进行回归
  150. 9.5.1 准备数据
  151. 9.5.2 运行实验
  152. 9.5.3 解析结果
  153. 9.6 用BigML分类
  154. 9.6.1 生成均衡的训练和测试数据集
  155. 9.6.2 调用API
  156. 9.6.3 检查结果
  157. 9.6.4 小结
  158. 9.7 延伸阅读
  159. 第10章 总结
  160. 10.1 让我们回顾一下
  161. 10.2 三条建议
  162. 10.2.1 有耐心
  163. 10.2.2 有所创新
  164. 10.2.3 肯于实践
  165. 10.3 接下来做什么
  166. 10.3.1 API
  167. 10.3.2 shell编程
  168. 10.3.3 Python、R和SQL
  169. 10.3.4 数据解释
  170. 10.4 联系方式
  171. 附录A 命令行工具列表
  172. alias
  173. awk
  174. aws
  175. Bash
  176. bc
  177. bigmler
  178. body
  179. cat
  180. cd
  181. chmod
  182. cols
  183. cowsay
  184. cp
  185. csvcut
  186. csvgrep
  187. csvjoin
  188. csvlook
  189. csvsort
  190. csvsql
  191. csvstack
  192. csvstat
  193. curl
  194. curlicue
  195. cut
  196. display
  197. Drake
  198. dseq
  199. echo
  200. env
  201. export
  202. feedgnuplot
  203. fieldsplit
  204. find
  205. for
  206. git
  207. grep
  208. head
  209. header
  210. in2csv
  211. jq
  212. json2csv
  213. less
  214. ls
  215. man
  216. mkdir
  217. mv
  218. parallel
  219. paste
  220. pbc
  221. pip
  222. pwd
  223. Python
  224. R
  225. Rio
  226. Rio-scatter
  227. rm
  228. run_experiment
  229. sample
  230. scp
  231. scrape
  232. sed
  233. seq
  234. shuf
  235. sort
  236. split
  237. sql2csv
  238. ssh
  239. sudo
  240. tail
  241. Tapkee
  242. tar
  243. tee
  244. tr
  245. tree
  246. type
  247. uniq
  248. unpack
  249. unrar
  250. unzip
  251. wc
  252. Weka
  253. which
  254. xml2json
  255. 附录B 参考文献
  256. 作者介绍
  257. 封面介绍
  258. 看完了