logo
分类于: 计算机基础

简介

Clojure数据分析秘笈: 大数据技术丛书

Clojure数据分析秘笈: 大数据技术丛书 0.0分

资源最后更新于 2020-03-29 03:30:49

作者:〔美〕罗切斯特(Eric Rochester)

译者:刘德海张玫

出版社:出版社机械工业出版社

出版日期:2014-08

ISBN:9787111473268

文件格式: pdf

标签: 计算机 程序语言 大数据技术丛书 语言设计

简介· · · · · ·

随着计算机技术的发展,我们的工作和生活中产生了大量的数据,从这些数据中获取有价值的信息变得越来越重要。clojure是支持函数式编程和并发的lisp方言,受到众多开发人员的欢迎,而使用clojure进行数据分析和采集也成为当前的一个热门话题。《clojure数据分析秘笈》通过一系列实用的、结构化的方法展示如何使用clojure从数据中获取新的视角和观点。《clojure数据分析秘笈》详细讲解了数据分析过程中每个阶段的实施细节和各种实用方法。无论是从网页上抓取数据,还是执行数据挖掘任务或者创建动态和可交互式图表,你都能从《clojure数据分析秘笈》中找到行之有效的方法。Eric Rochester,资深数据分析专家,精通Python、Java、R、C#等多种编程语言,有丰富的编程经验。目前,他重点关注函数式编程语言,包括Clojure和Haskell。他现任职于弗吉尼亚大学图书馆的学者实验室,负责帮助人文学科和本科生实现数字信息方面的研究计划。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 前言
  2. 关于技术审校者
  3. 第1章 导入分析数据
  4. 1.1 引言
  5. 1.2 新建项目
  6. 1.2.1 准备工作
  7. 1.2.2 具体实现
  8. 1.2.3 实现原理
  9. 1.3 将CSV数据读入Incanter数据集
  10. 1.3.1 准备工作
  11. 1.3.2 具体实现
  12. 1.3.3 实现原理
  13. 1.3.4 更多信息
  14. 1.3.5 参阅
  15. 1.4 将JSON数据读入Incanter数据集
  16. 1.4.1 准备工作
  17. 1.4.2 具体实现
  18. 1.4.3 实现原理
  19. 1.5 使用Incanter读入Excel数据
  20. 1.5.1 准备工作
  21. 1.5.2 具体实现
  22. 1.6 从JDBC数据库读取数据
  23. 1.6.1 准备工作
  24. 1.6.2 具体实现
  25. 1.6.3 实现原理
  26. 1.6.4 更多信息
  27. 1.7 将XML数据读入Incanter数据集
  28. 1.7.1 准备工作
  29. 1.7.2 具体实现
  30. 1.7.3 实现原理
  31. 1.7.4 更多信息
  32. 1.8 从网页表中抓取数据
  33. 1.8.1 准备工作
  34. 1.8.2 具体实现
  35. 1.8.3 实现原理
  36. 1.8.4 参阅
  37. 1.9 从网页中抓取文本数据
  38. 1.9.1 准备工作
  39. 1.9.2 具体实现
  40. 1.9.3 实现原理
  41. 1.10 读取RDF数据
  42. 1.10.1 准备工作
  43. 1.10.2 具体实现
  44. 1.10.3 实现原理
  45. 1.10.4 更多信息
  46. 1.11 使用SPARQL读取RDF数据
  47. 1.11.1 准备工作
  48. 1.11.2 具体实现
  49. 1.11.3 实现原理
  50. 1.11.4 参阅
  51. 1.12 整合不同格式的数据
  52. 1.12.1 准备工作
  53. 1.12.2 具体实现
  54. 1.12.3 实现原理
  55. 第2章 清洗和校验数据
  56. 2.1 引言
  57. 2.2 使用正则表达式清洗数据
  58. 2.2.1 准备工作
  59. 2.2.2 具体实现
  60. 2.2.3 实现原理
  61. 2.2.4 更多信息
  62. 2.2.5 参阅
  63. 2.3 使用同义词映射保持一致性
  64. 2.3.1 准备工作
  65. 2.3.2 具体实现
  66. 2.3.3 实现原理
  67. 2.3.4 参阅
  68. 2.4 识别并去除重复数据
  69. 2.4.1 准备工作
  70. 2.4.2 具体实现
  71. 2.4.3 实现原理
  72. 2.4.4 更多信息
  73. 2.5 标准化数字格式
  74. 2.5.1 准备工作
  75. 2.5.2 具体实现
  76. 2.5.3 实现原理
  77. 2.6 调整词频值的度量
  78. 2.6.1 准备工作
  79. 2.6.2 具体实现
  80. 2.6.3 实现原理
  81. 2.7 标准化日期和时间
  82. 2.7.1 准备工作
  83. 2.7.2 具体实现
  84. 2.7.3 更多信息
  85. 2.8 大数据集的延迟处理
  86. 2.8.1 准备工作
  87. 2.8.2 具体实现
  88. 2.8.3 实现原理
  89. 2.9 大数据集抽样
  90. 2.9.1 具体实现
  91. 2.9.2 实现原理
  92. 2.10 修正拼写错误
  93. 2.10.1 准备工作
  94. 2.10.2 具体实现
  95. 2.10.3 实现原理
  96. 2.10.4 更多信息
  97. 2.11 解析自定义数据格式
  98. 2.11.1 准备工作
  99. 2.11.2 具体实现
  100. 2.11.3 实现原理
  101. 2.12 使用Valip校验数据
  102. 2.12.1 准备工作
  103. 2.12.2 具体实现
  104. 2.12.3 实现原理
  105. 第3章 使用并发编程管理复杂度
  106. 3.1 引言
  107. 3.2 使用STM管理程序复杂度
  108. 3.2.1 准备工作
  109. 3.2.2 具体实现
  110. 3.2.3 实现原理
  111. 3.2.4 参阅
  112. 3.3 使用agent管理程序复杂度
  113. 3.3.1 准备工作
  114. 3.3.2 具体实现
  115. 3.3.3 实现原理
  116. 3.3.4 更多信息
  117. 3.3.5 参阅
  118. 3.4 使用commute获得更好的性能
  119. 3.4.1 准备工作
  120. 3.4.2 具体实现
  121. 3.4.3 实现原理
  122. 3.5 将agent和STM结合使用
  123. 3.5.1 准备工作
  124. 3.5.2 具体实现
  125. 3.5.3 实现原理
  126. 3.6 使用ensure维护一致性
  127. 3.6.1 准备工作
  128. 3.6.2 具体实现
  129. 3.6.3 实现原理
  130. 3.7 将安全的副作用引入STM中
  131. 3.7.1 准备工作
  132. 3.7.2 具体实现
  133. 3.8 使用validator维护数据一致性
  134. 3.8.1 准备工作
  135. 3.8.2 具体实现
  136. 3.8.3 实现原理
  137. 3.8.4 参阅
  138. 3.9 使用watcher追踪处理过程
  139. 3.9.1 准备工作
  140. 3.9.2 具体实现
  141. 3.9.3 实现原理
  142. 3.10 使用watcher调试并发程序
  143. 3.10.1 准备工作
  144. 3.10.2 具体实现
  145. 3.10.3 更多信息
  146. 3.11 从agent中错误恢复
  147. 3.11.1 具体实现
  148. 3.11.2 更多信息
  149. 3.12 使用sized queue管理输入
  150. 3.12.1 具体实现
  151. 3.12.2 实现原理
  152. 第4章 使用并行编程提高性能
  153. 4.1 引言
  154. 4.2 使用pmap并行处理
  155. 4.2.1 具体实现
  156. 4.2.2 实现原理
  157. 4.2.3 更多信息
  158. 4.2.4 参阅
  159. 4.3 使用Incanter并行处理
  160. 4.3.1 准备工作
  161. 4.3.2 具体实现
  162. 4.3.3 实现原理
  163. 4.4 将蒙特卡罗模拟进行划分使pmap性能提升
  164. 4.4.1 准备工作
  165. 4.4.2 具体实现
  166. 4.4.3 实现原理
  167. 4.5 使用模拟退火算法最优化分块大小
  168. 4.5.1 准备工作
  169. 4.5.2 具体实现
  170. 4.5.3 实现原理
  171. 4.5.4 更多信息
  172. 4.6 使用reducers并行处理
  173. 4.6.1 准备工作
  174. 4.6.2 具体实现
  175. 4.6.3 实现原理
  176. 4.6.4 更多信息
  177. 4.6.5 参阅
  178. 4.7 使用reducers生成在线统计
  179. 4.7.1 准备工作
  180. 4.7.2 具体实现
  181. 4.8 使用OpenCL和Calx驾驭你的GPU
  182. 4.8.1 准备工作
  183. 4.8.2 具体实现
  184. 4.8.3 实现原理
  185. 4.8.4 更多信息
  186. 4.9 使用类型提示
  187. 4.9.1 准备工作
  188. 4.9.2 具体实现
  189. 4.9.3 实现原理
  190. 4.9.4 参阅
  191. 4.10 使用Criterium制定基准
  192. 4.10.1 准备工作
  193. 4.10.2 具体实现
  194. 4.10.3 实现原理
  195. 4.10.4 更多信息
  196. 第5章 使用Cascalog进行分布式数据处理
  197. 5.1 引言
  198. 5.2 使用Cascalog和Hadoop分布式处理
  199. 5.2.1 准备工作
  200. 5.2.2 具体实现
  201. 5.2.3 实现原理
  202. 5.2.4 参阅
  203. 5.3 使用Cascalog查询数据
  204. 5.3.1 准备工作
  205. 5.3.2 具体实现
  206. 5.3.3 实现原理
  207. 5.3.4 更多信息
  208. 5.4 使用Apache HDFS分布数据
  209. 5.4.1 准备工作
  210. 5.4.2 具体实现
  211. 5.4.3 实现原理
  212. 5.5 使用Cascalog解析CSV文件
  213. 5.5.1 准备工作
  214. 5.5.2 具体实现
  215. 5.5.3 实现原理
  216. 5.5.4 更多信息
  217. 5.6 使用Cascalog执行复杂查询
  218. 5.6.1 准备工作
  219. 5.6.2 具体实现
  220. 5.7 使用Cascalog聚合数据
  221. 5.7.1 准备工作
  222. 5.7.2 具体实现
  223. 5.7.3 更多信息
  224. 5.8 定义新Cascalog操作符
  225. 5.8.1 准备工作
  226. 5.8.2 具体实现
  227. 5.9 组成Cascalog查询
  228. 5.9.1 准备工作
  229. 5.9.2 具体实现
  230. 5.9.3 实现原理
  231. 5.10 处理Cascalog工作流中的错误
  232. 5.10.1 准备工作
  233. 5.10.2 具体实现
  234. 5.11 使用Cascalog转换数据
  235. 5.11.1 准备工作
  236. 5.11.2 具体实现
  237. 5.11.3 实现原理
  238. 5.12 使用Pallet在云上执行Cascalog查询
  239. 5.12.1 准备工作
  240. 5.12.2 具体实现
  241. 5.12.3 实现原理
  242. 第6章 使用Incanter数据集
  243. 6.1 引言
  244. 6.2 加载Incanter样例数据集
  245. 6.2.1 准备工作
  246. 6.2.2 具体实现
  247. 6.2.3 实现原理
  248. 6.2.4 更多信息
  249. 6.3 将Clojure数据结构加载到数据集中
  250. 6.3.1 准备工作
  251. 6.3.2 具体实现
  252. 6.3.3 实现原理
  253. 6.3.4 参阅
  254. 6.4 使用view交互式查看数据集
  255. 6.4.1 准备工作
  256. 6.4.2 具体实现
  257. 6.4.3 实现原理
  258. 6.4.4 参阅
  259. 6.5 将数据集转换为矩阵
  260. 6.5.1 准备工作
  261. 6.5.2 具体实现
  262. 6.5.3 实现原理
  263. 6.5.4 更多信息
  264. 6.5.5 参阅
  265. 6.6 在Incanter中使用infix公式
  266. 6.6.1 准备工作
  267. 6.6.2 具体实现
  268. 6.6.3 实现原理
  269. 6.7 使用$选择列
  270. 6.7.1 准备工作
  271. 6.7.2 具体实现
  272. 6.7.3 实现原理
  273. 6.7.4 更多信息
  274. 6.7.5 参阅
  275. 6.8 使用$选择行
  276. 6.8.1 准备工作
  277. 6.8.2 具体实现
  278. 6.8.3 实现原理
  279. 6.9 使用$where过滤数据集
  280. 6.9.1 准备工作
  281. 6.9.2 具体实现
  282. 6.9.3 实现原理
  283. 6.9.4 更多信息
  284. 6.10 使用$group-by对数据分组
  285. 6.10.1 准备工作
  286. 6.10.2 具体实现
  287. 6.10.3 实现原理
  288. 6.11 将数据集另存为CSV和JSON
  289. 6.11.1 准备工作
  290. 6.11.2 具体实现
  291. 6.11.3 实现原理
  292. 6.11.4 参阅
  293. 6.12 使用$join进行多数据集投影
  294. 6.12.1 准备工作
  295. 6.12.2 具体实现
  296. 6.12.3 实现原理
  297. 第7章 使用Incanter准备并执行统计数据分析
  298. 7.1 引言
  299. 7.2 使用$rollup生成汇总统计
  300. 7.2.1 准备工作
  301. 7.2.2 具体实现
  302. 7.2.3 实现原理
  303. 7.3 通过变量差别展示变化
  304. 7.3.1 准备工作
  305. 7.3.2 具体实现
  306. 7.3.3 实现原理
  307. 7.4 调整变量以简化变量关系
  308. 7.4.1 准备工作
  309. 7.4.2 具体实现
  310. 7.4.3 实现原理
  311. 7.5 使用Incanter Zoo处理时间序列数据
  312. 7.5.1 准备工作
  313. 7.5.2 具体实现
  314. 7.5.3 更多信息
  315. 7.6 平滑数据以降低噪声
  316. 7.6.1 准备工作
  317. 7.6.2 具体实现
  318. 7.6.3 实现原理
  319. 7.7 使用bootstrapping验证抽样统计
  320. 7.7.1 准备工作
  321. 7.7.2 具体实现
  322. 7.7.3 实现原理
  323. 7.7.4 更多信息
  324. 7.8 线性关系建模
  325. 7.8.1 准备工作
  326. 7.8.2 具体实现
  327. 7.8.3 实现原理
  328. 7.8.4 更多信息
  329. 7.9 非线性关系建模
  330. 7.9.1 准备工作
  331. 7.9.2 具体实现
  332. 7.9.3 实现原理
  333. 7.10 多峰贝叶斯分布建模
  334. 7.10.1 准备工作
  335. 7.10.2 具体实现
  336. 7.10.3 实现原理
  337. 7.10.4 更多信息
  338. 7.11 使用本福德定律找出数据错误
  339. 7.11.1 准备工作
  340. 7.11.2 具体实现
  341. 7.11.3 实现原理
  342. 7.11.4 更多信息
  343. 第8章 使用Mathematica和R
  344. 8.1 引言
  345. 8.2 在Mac OS X和Linux系统中配置Mathematica与Clojuratica的交互环境
  346. 8.2.1 准备工作
  347. 8.2.2 具体实现
  348. 8.2.3 实现原理
  349. 8.2.4 更多信息
  350. 8.3 在Windows系统中配置Mathematica与Clojuratica的交互环境
  351. 8.3.1 准备工作
  352. 8.3.2 具体实现
  353. 8.3.3 实现原理
  354. 8.4 在Clojuratica中调用Mathematica函数
  355. 8.4.1 准备工作
  356. 8.4.2 具体实现
  357. 8.4.3 实现原理
  358. 8.5 在Clojuratica中向Mathematica发送矩阵
  359. 8.5.1 准备工作
  360. 8.5.2 具体实现
  361. 8.5.3 实现原理
  362. 8.6 在Clojuratica中运行Mathematica脚本
  363. 8.6.1 准备工作
  364. 8.6.2 具体实现
  365. 8.6.3 实现原理
  366. 8.7 从Mathematica中创建函数
  367. 8.7.1 准备工作
  368. 8.7.2 具体实现
  369. 8.7.3 实现原理
  370. 8.8 在Mathematica中并行处理函数
  371. 8.8.1 准备工作
  372. 8.8.2 具体实现
  373. 8.8.3 实现原理
  374. 8.9 配置R与Clojure交互
  375. 8.9.1 准备工作
  376. 8.9.2 具体实现
  377. 8.9.3 实现原理
  378. 8.10 在Clojure中调用R的函数
  379. 8.10.1 准备工作
  380. 8.10.2 具体实现
  381. 8.10.3 实现原理
  382. 8.10.4 更多信息
  383. 8.11 将向量传入R
  384. 8.11.1 准备工作
  385. 8.11.2 具体实现
  386. 8.11.3 实现原理
  387. 8.12 在Clojure中执行R文件
  388. 8.12.1 准备工作
  389. 8.12.2 具体实现
  390. 8.12.3 实现原理
  391. 8.12.4 更多信息
  392. 8.13 在Clojure中使用R绘图
  393. 8.13.1 准备工作
  394. 8.13.2 具体实现
  395. 8.13.3 实现原理
  396. 8.13.4 更多信息
  397. 第9章 聚类、分类和使用Weka
  398. 9.1 引言
  399. 9.2 将CSV和ARFF文件加载到Weka中
  400. 9.2.1 准备工作
  401. 9.2.2 具体实现
  402. 9.2.3 具体实现
  403. 9.2.4 更多信息
  404. 9.2.5 参阅
  405. 9.3 在Weka数据集中对列进行过滤和重命名
  406. 9.3.1 准备工作
  407. 9.3.2 具体实现
  408. 9.3.3 实现原理
  409. 9.4 使用K-means聚类发现成组数据
  410. 9.4.1 准备工作
  411. 9.4.2 具体实现
  412. 9.4.3 实现原理
  413. 9.4.4 参阅
  414. 9.5 在Weka中寻找层次聚类结构
  415. 9.5.1 准备工作
  416. 9.5.2 具体实现
  417. 9.5.3 实现原理
  418. 9.5.4 更多信息
  419. 9.6 在Incanter中使用SOM聚类
  420. 9.6.1 准备工作
  421. 9.6.2 具体实现
  422. 9.6.3 实现原理
  423. 9.6.4 更多信息
  424. 9.7 使用决策树分类数据
  425. 9.7.1 准备工作
  426. 9.7.2 具体实现
  427. 9.7.3 实现原理
  428. 9.7.4 更多信息
  429. 9.8 使用朴素贝叶斯分类器分类数据
  430. 9.8.1 准备工作
  431. 9.8.2 具体实现
  432. 9.8.3 实现原理
  433. 9.8.4 更多信息
  434. 9.9 使用支持向量机分类数据
  435. 9.9.1 准备工作
  436. 9.9.2 具体实现
  437. 9.9.3 实现原理
  438. 9.9.4 更多信息
  439. 9.10 使用Apriori算法发现数据中的关联
  440. 9.10.1 准备工作
  441. 9.10.2 具体实现
  442. 9.10.3 实现原理
  443. 9.10.4 更多信息
  444. 第10章 使用Incanter绘图
  445. 10.1 引言
  446. 10.2 使用Incanter创建散点图
  447. 10.2.1 准备工作
  448. 10.2.2 具体实现
  449. 10.2.3 实现原理
  450. 10.2.4 更多信息
  451. 10.2.5 参阅
  452. 10.3 使用Incanter创建柱形图
  453. 10.3.1 准备工作
  454. 10.3.2 具体实现
  455. 10.3.3 实现原理
  456. 10.4 在柱形图中绘制非数值型数据
  457. 10.4.1 准备工作
  458. 10.4.2 具体实现
  459. 10.4.3 实现原理
  460. 10.5 使用Incanter创建直方图
  461. 10.5.1 准备工作
  462. 10.5.2 具体实现
  463. 10.5.3 实现原理
  464. 10.6 使用Incanter绘制函数
  465. 10.6.1 准备工作
  466. 10.6.2 具体实现
  467. 10.6.3 实现原理
  468. 10.6.4 参阅
  469. 10.7 为Incanter图表加入方程式
  470. 10.7.1 准备工作
  471. 10.7.2 具体实现
  472. 10.7.3 更多信息
  473. 10.8 为散点图加入直线
  474. 10.8.1 准备工作
  475. 10.8.2 具体实现
  476. 10.8.3 实现原理
  477. 10.8.4 参阅
  478. 10.9 使用JFreeChart定制图表
  479. 10.9.1 准备工作
  480. 10.9.2 具体实现
  481. 10.9.3 实现原理
  482. 10.9.4 参阅
  483. 10.10 将Incanter图保存为PNG格式
  484. 10.10.1 准备工作
  485. 10.10.2 具体实现
  486. 10.10.3 实现原理
  487. 10.11 使用PCA绘制多维数据
  488. 10.11.1 准备工作
  489. 10.11.2 具体实现
  490. 10.11.3 实现原理
  491. 10.11.4 更多信息
  492. 10.12 使用Incanter创建动态图表
  493. 10.12.1 准备工作
  494. 10.12.2 具体实现
  495. 10.12.3 实现原理
  496. 第11章 创建网页图表
  497. 11.1 引言
  498. 11.2 使用Ring和Compojure提供数据
  499. 11.2.1 准备工作
  500. 11.2.2 具体实现
  501. 11.2.3 实现原理
  502. 11.2.4 更多信息
  503. 11.3 使用Hiccup创建HTML网页
  504. 11.3.1 准备工作
  505. 11.3.2 具体实现
  506. 11.3.3 实现原理
  507. 11.3.4 更多信息
  508. 11.4 配置和使用ClojureScript
  509. 11.4.1 准备工作
  510. 11.4.2 具体实现
  511. 11.4.3 实现原理
  512. 11.4.4 更多信息
  513. 11.5 用NVD3创建散点图
  514. 11.5.1 准备工作
  515. 11.5.2 具体实现
  516. 11.5.3 实现原理
  517. 11.5.4 更多信息
  518. 11.6 用NVD3创建条形图
  519. 11.6.1 准备工作
  520. 11.6.2 具体实现
  521. 11.6.3 实现原理
  522. 11.7 用NVD3创建直方图
  523. 11.7.1 准备工作
  524. 11.7.2 具体实现
  525. 11.7.3 实现原理
  526. 11.8 使用力向布局进行图像可视化
  527. 11.8.1 准备工作
  528. 11.8.2 具体实现
  529. 11.8.3 实现原理
  530. 11.8.4 更多信息
  531. 11.9 用D3创建交互式可视化
  532. 11.9.1 准备工作
  533. 11.9.2 具体实现
  534. 11.9.3 实现原理
  535. 11.9.4 更多信息