会员
Hadoop大数据实战权威指南(第2版)
黄东军更新时间:2020-07-28 11:02:54
最新章节:封底开会员,本书免费读 >
大数据贵在落实!本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”的指导思想编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、概念、特性及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据使用大数据进行处理分析。本书适合初学者入门和进阶,也可供希望全面、系统地理解并掌握大数据实际应用的读者参考,对从事大数据项目开发的专业人员也有参考价值。
上架时间:2019-09-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行
最新章节
黄东军
主页
同类热门书
最新上架
- 会员
剑指大数据:Flink实时数据仓库项目实战(电商版)
本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能计算机13.1万字 - 会员
数据挖掘竞赛实战:方法与案例
本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案计算机6.7万字 - 会员
企业级大数据项目实战:用户搜索行为分析系统从0到1
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍企业级大数据用户搜索行为分析系统的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解用户行为数据采集模块的开发计算机9万字 - 会员
数据科学技术:文本分析和知识图谱
数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字 - 会员
数据分析师手记:数据分析72个核心问题精解
《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字 - 会员
MySQL从入门到精通(第3版)
《MySQL从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言和丰富多彩的实例,详细介绍了MySQL开发需要掌握的各方面技术。全书共分为4篇22章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,数据表操作,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务,事件,备份与恢计算机14万字 - 会员
PySpark大数据分析与应用
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例计算机10.4万字 - 会员
智能数据治理:基于大模型、知识图谱
本书基于我国深入实施网络强国和国家大数据战略的大背景,将“大语言模型”“知识图谱”“数据治理”相结合,阐述了大模型、知识图谱在智能数据治理中的应用实践,并以医疗、政务及降碳等行业为例,详细介绍了其数据治理流程及平台构建方法。书中首先阐述了大模型时代知识图谱和智能数据治理之间的协同关系,以儿童孤独症为例介绍了基于CiteSpace软件的医疗知识图谱的构建流程;其次详细阐述了基于神经网络模型的个人健康计算机13.1万字 - 会员
数据分析咖哥十话:从思维到实践促进运营增长
本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需计算机12万字