logo
分类于: 计算机基础 云计算&大数据

简介

Apache Spark源码剖析

Apache Spark源码剖析 5.9分

资源最后更新于 2020-03-29 04:04:48

作者:许鹏

出版社:出版社电子工业出版社

出版日期:2015-03

ISBN:9787121254208

文件格式: pdf

标签: 计算机科学 大数据 源代码 分布式计算 Spark

简介· · · · · ·

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。许鹏:长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 前言
  2. 第一部分 Spark概述
  3. 第1章 初识Spark
  4. 1.1 大数据和Spark
  5. 1.2 与Spark的第一次亲密接触
  6. 第二部分 Spark核心概念
  7. 第2章 Spark整体框架
  8. 2.1 编程模型
  9. 2.2 运行框架
  10. 2.3 源码阅读环境准备
  11. 第3章 SparkContext初始化
  12. 3.1 spark-shell
  13. 3.2 SparkContext的初始化综述
  14. 3.3 SparkRepl综述
  15. 第4章 Spark作业提交
  16. 4.1 作业提交
  17. 4.2 作业执行
  18. 4.3 存储机制
  19. 第5章 部署方式分析
  20. 5.1 部署模型
  21. 5.2 单机模式local
  22. 5.3 伪集群部署local-cluster
  23. 5.4 原生集群Standalone Cluster
  24. 5.5 SparkOn YARN
  25. 第三部分 Spark Lib
  26. 第6章 SparkStreaming
  27. 6.1 SparkStreaming整体架构
  28. 6.2 SparkStreaming执行过程
  29. 6.3 窗口操作
  30. 6.4 容错性分析
  31. 6.5 SparkStreaming vs.Storm
  32. 6.6 应用举例
  33. 第7章 SQL
  34. 7.1 SQL语句的通用执行过程分析
  35. 7.2 SQLOn Spark的实现分析
  36. 7.3 Parquet文件和JSON数据集
  37. 7.4 Hive简介
  38. 7.5 HiveQLOn Spark详解
  39. 第8章 GraphX
  40. 8.1 GraphX简介
  41. 8.2 分布式图计算处理技术介绍
  42. 8.3 Pregel计算模型
  43. 8.4 GraphX图计算框架实现分析
  44. 8.5 PageRank
  45. 第9章 MLLib
  46. 9.1 线性回归
  47. 9.2 线性回归的代码实现
  48. 9.3 分类算法
  49. 9.4 拟牛顿法
  50. 9.5 MLLib与其他应用模块间的整合
  51. 第四部分 附录
  52. 附录A Spark源码调试
  53. A.3.1 导入Spark源码
  54. 附录B 源码阅读技巧