资源名称:寻路大数据-海量数据与大规模分析 完整版 PDF
第1 部分 大数据时代指引 1
第1 章 数据成功四原则 3
1.1 当数据成为一件“大”事 3
1.2 数据和单台服务器 4
1.3 大数据的权衡 5
1.3.1 构建可(限)扩展的解决方案 6
1.3.2 构建可(在互联网上)共享数据的系统 7
1.3.3 构建解决方案,而非基础设施 8
1.3.4 关注从数据中解放价值 8
1.4 大数据流水线剖析 9
1.5 终极数据库 10
1.6 总结 10
第2 部分 收集和共享海量数据 13
第2 章 托管和共享TB 级原始数据 15
2.1 文件之殇 16
2.1.1 共享大量文件的挑战 16
2.2 存储:基础设施即服务 17
2.2.1 网络很慢 18
2.3 选择合适的数据格式 18
2.3.1 XML :数据,描述你自己 20
2.3.2 JSON :程序员的选择 21
2.4 字符编码 22
2.4.1 文件转换 24
2.5 移动中的数据:数据序列化格式 25
2.5.1 Apache Thrift 和Protocol Buffers 26
2.6 总结 27
第3 章 构建基于NoSQL 的Web 应用采集众包数据 29
3.1 关系型数据库:命令及控制 30
3.1.1 关系数据库的ACID 测试 32
3.2 当关系型数据库遇上互联网 33
3.2.1 CAP 原理与BASE 34
3.3 非关系型数据库的模式 36
3.3.1 键- 值数据库 36
3.3.2 文档存储 38
3.4 为写入性能优化:Redis 40
3.5 在多个Redis 实例上分片 43
3.5.1 使用Twemproxy 自动分区 44
3.5.2 Redis 的替代选项 46
3.6 NewSQL :Codd 归来 46
3.7 总结 47
第4 章 解决数据孤岛问题的策略 49
4.1 堆满术语的仓库 49
4.1.1 实践中的问题 51
4.1.2 数据合规与安全规划 52
4.1.3 走进数据仓库 53
4.1.4 数据仓库的口诀:抽取、转换和加载 54
4.2 Hadoop :数据仓库中的大象 55
4.3 数据孤岛也可能是个优点 55
4.3.1 专注于数据问题,而不是技术 56
4.3.2 鼓励员工提出他们自己的问题 57
4.3.3 投资沟通数据孤岛的技术 57
4.4 融合:数据孤岛的终结 58
4.4.1 Luhn 的商业智能系统是否能成为现实 59
4.5 总结 59
第3 部分 数据探究 61
第5 章 使用Hadoop、Hive 和Shark 探索大规模数据集 63
资源截图: