资源名称:实战大数据
内容简介:
“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。
本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。
本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。
资源目录:
第一篇 大数据基础篇
第1章 大数据介绍
1.1 大数据相关概念
1.1.1 大数据的历史
1.1.2 大数据的定义
1.2 大数据研究内容
1.3 大数据研究现状
1.3.1 学术界现状
1.3.2 产业界现状
1.3.3 政府机构现状
1.4 大数据的应用领域
1.4.1 大数据在制造业的应用
1.4.2 大数据在服务业的应用
1.4.3 大数据在交通行业的应用
1.4.4 大数据在医疗行业的应用
1.5 本章小结
第2章 数据存储技术
2.1 数据存储技术介绍
2.2 数据采集与存储技术研究现状
2.2.1 传统关系型数据库
2.2.2 新兴数据存储系统
2.3 海量数据存储的关键技术分析
2.3.1 数据划分
2.3.2 数据一致性与可用性
2.3.3 负载均衡
2.3.4 容错机制
2.3.5 海量数据存储的硬件支持
2.4 数据存储技术的实现与工具
2.4.1 集中式数据存储管理系统Bigtable
2.4.2 非集中式的大规模数据管理系统Dynamo
2.4.3 BigTable的开源实现HBase
2.4.4 MongoDB
2.4.5 CouchDB
2.4.6 Redis
2.4.7 Hypertable
2.4.8 其他开源NoSQL数据库
2.5 本章小结
第3章 数据抽取和清洗
3.1 数据抽取和清洗技术介绍
3.1.1 数据抽取简介
3.1.2 数据清洗简介
3.2 数据抽取和清洗研究现状
3.3 数据抽取技术的实现
3.3.1 Web数据抽取
3.3.2 非结构化数据抽取
3.3.3 基于云计算的海量数据分析
3.4 数据清洗技术的实现
3.4.1 数据清洗流程
3.4.2 数据清洗框架
3.4.3 数据清洗相关技术
3.4.4 基于Hadoop的数据清洗方案
3.5 ETL现状与发展
3.5.1 数据ETL简介
3.5.2 基于MapReduce的ETL框架
3.5.3 ETL工具
3.5.4 ETL展望
3.6 本章小结
第4章 数据集成
4.1 数据集成技术介绍
4.2 数据集成技术研究现状
4.2.1 Information Manifold:具有统一的查询接口
4.2.2 数据集成系统的发展建设
4.2.3 企业信息集成
4.2.4 未来的挑战
4.3 数据集成技术的实现与工具
4.3.1 Oracle Data Integrator(ODI)简介
4.3.2 ODI的特点
4.3.3 Microsoft SQL Server Integration Services(SSIS)简介
4.3.4 SSIS的特点
4.3.5 IBM InfoSphere Information Server简介
4.3.6 Sybase Data Integrator Suite 简介
4.4 本章小结
第5章 数据查询、分析与建模技术
5.1 数据查询、分析与建模技术介绍
5.1.1 数据查询
5.1.2 数据分析
5.1.3 数据建模
5.2 数据查询、分析与建模技术研究现状
5.2.1 并行处理 178
5.2.2 海量数据查询与搜索
5.2.3 数据分析中的OLAP与数据挖掘技术
5.2.4 数据模型与数据建模方法
5.3 数据查询、分析与建模技术的实现与工具
5.3.1 数据查询相关技术实现与工具
5.3.2 数据分析相关技术实现与工具
5.3.3 数据建模相关技术实现与工具
5.4 本章小结
第二篇 大数据深入篇
第6章 采用OSGi框架构建可伸缩的异构数据采集平台
6.1 应用背景
6.2 需求分析与总体设计
6.2.1 功能需求
6.2.2 非功能需求
6.2.3 总体设计
6.3 相关技术介绍
6.3.1 OSGi 框架介绍
6.3.2 多源异构数据的获取
6.4 系统设计与实现
6.4.1 异构数据采集平台的设计
6.4.2 数据采集插件的设计与实现
6.4.3 系统服务框架的设计与实现
6.5 部署与测试
6.5.1 系统部署
6.5.2 系统测试
6.6 本章小结
第7章 采用HBase实现海量小型XML文档的存储与检索
7.1 应用背景
7.2 需求分析与总体设计
7.2.1 需求分析
7.2.2 总体设计
7.3 相关技术介绍
7.3.1 XML相关技术
7.3.2 XQuery语句
7.3.3 XML检索技术
7.3.4 云计算和HBase
7.3.5 JavaCC工具介绍
7.4 详细设计与实现
7.4.1 数据存储模块的详细设计与实现
7.4.2 数据检索模块的详细设计与实现
7.4.3 用户模块的详细设计与实现
7.5 本章小结
第8章 采用Map/Reduce进行大规模社交网络社团发现
8.1 研究背景
8.2 相关理论和技术
8.2.1 社团结构
8.2.2 相关社团发现算法
8.2.3 Hadoop分布计算框架
8.3 RMS算法的并行化实现
8.3.1 RMS算法
8.3.2 RMS算法在MapReduce上的实现
8.4 AP聚类算法的并行化实现
8.4.1 AP聚类算法
8.4.2 AP聚类算法在MapReduce上的实现
8.5 实验与分析
8.5.1 实验环境
8.5.2 实验与结果分析
8.6 本章小结
第9章 数据统一访问与转换平台
9.1 应用背景介绍
9.2 数据统一访问需求分析与总体设计
9.2.1 功能性需求分析
9.2.2 非功能性需求分析
9.2.3 总体设计
9.3 数据统一访问与转换关键技术
9.3.1 SDO编程技术
9.3.2 Hadoop MapReduce框架
9.3.3 HBase数据库技术
9.3.4 模型驱动数据转换技术
9.4 数据统一访问和灵活转换的详细设计与实现
9.4.1 数据分析及预处理
9.4.2 基于DAS的数据源统一访问
9.4.3 映射模式表示与数据存储管理模块
9.4.4 基于MapReduce的数据转换管理模块
9.5 本章小结
第三篇 大数据应用篇
第10章 基于微博的股票市场预测系统
10.1 应用背景介绍
10.2 需求分析与总体设计
10.2.1 需求分析
10.2.2 总体设计
10.3 相关技术介绍
10.3.1 社交网络
10.3.2 社交网络表示方法
10.3.3 信息传播模型
10.4 详细设计与实现
10.4.1 Twitter数据采集模块详细设计
10.4.2 Twitter数据分析模块详细设计
10.4.3 用户行为分析模块详细设计
10.4.4 预测股票价格涨跌模块详细设计
10.4.5 系统实现
10.5 本章小结
第11章 基于内容的海量视频检索系统
11.1 应用背景
11.2 需求分析与总体设计
11.2.1 功能需求
11.2.2 非功能需求
11.2.3 核心业务处理流程
11.2.4 总体设计
11.3 相关技术简介
11.3.1 MPEG-7与OpenCV简介
11.3.2 运动对象提取
11.3.3 星形骨架方法
11.4 详细设计与实现
11.4.1 基于MapReduce的视频预处理
11.4.2 基于HBase的视频数据存储
11.4.3 行为识别与运动规则的组合创建
11.5 系统运行时截图
11.6 本章小结
第12章 基于HDFS的云文件系统
12.1 应用背景介绍
12.2 需求分析与总体设计
12.2.1 需求分析
12.2.2 总体设计
12.3 相关技术介绍
12.3.1 Hadoop HDFS介绍
12.3.2 主控节点和数据节点
12.3.3 页面展现技术
12.3.4 页面控制技术
12.4 详细设计与实现
12.4.1 云文件系统的操作流程
12.4.2 云文件系统的模块设计
12.4.3 云文件系统实现
12.4.4 云文件系统主要功能截图
12.5 本章小结
资源截图: