0%

Hive 提供了类 SQL 语法 HQL,封装了底层的 MapReduce 过程。

目录 概述
操作数据库 创建、修改、删除数据库,查看数据库信息
操作数据表 创建、修改、删除表,查看表的信息,数据类型,复杂数据类型用例
插入数据 INSERT 关键字的使用
加载数据 LOAD 关键字的使用
多表插入 扫描一遍源表就可以生成多个不相交的输出
动态分区插入 在插入数据到分区表时,根据源表的列值自动创建分区
导入导出表数据 EXPORTIMPORT 关键字的使用
保存查询结果 保存查询结果到本地、HDFS 或 Hive 表
清空表数据 TRUNCATE 关键字的使用
查询数据 SELECT 关键字的使用
子查询部分 将子查询部分产生的结果集保存在内存中,供整个 SQL 使用
UNION 将多个查询结果合并为一个结果集
聚合函数 COUNTMAXMINSUMAVG 聚合函数的使用
分组 GROUP BYHAVING 关键字的使用
排序 ORDER BYS BYDIRIBUTE BYCLUSTER BY 关键字的使用
连接 内连接、外连接、多表连接、分桶表连接
数据抽样 块抽样、分桶抽样、随机抽样
常用内置函数 日期函数、字符函数、解析json、条件函数、窗口函数、排名函数、行列转换
案例 复制分区表、统计分析与排名、ETL
阅读全文 »

Hive头图

Hive 是一个基于 Hadoop 的数据仓库,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

阅读全文 »

MapReduce 是一个分布式计算框架,用于大规模数据集的并行运算。”Map(映射)”和”Reduce(归约)”是它的主要思想,简单来说就是“分而治之”。

阅读全文 »

Apache YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

阅读全文 »

Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

阅读全文 »

Kafka头图

Apache Kafka 是一款基于发布与订阅的消息队列系统,采用生产者、消费者模式,该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的消息平台。

阅读全文 »

本文主要介绍Zookeeper的投票机制,回答“Zookeeper选举投票过程”以及“为什么建议使用奇数个节点”两个问题。

阅读全文 »

Zookeeper头图

ZooKeeper 是一个开源的分布式协调服务,是 Google 的 Chubby 一个开源的实现,是构建分布式的 Hadoop、HBase、Dubbox、Kafka 的重要组件。它为我们提供了高可用、高性能、稳定的分布式数据一致性解决方案,提供的功能包括:数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等。

阅读全文 »

Nginx头图

Nginx 是一个高性能的 HTTP 服务器,支持虚拟主机、反向代理和负载均衡。本篇简单介绍下 Nginx 的组件、用途、常用命令,以及如何配置多虚拟主机、反向代理、负载均衡。

阅读全文 »

Vim是从vi发展出来的一个文本编辑器。功能丰富,在程序员中被广泛使用。相比其他文本编辑器,选用 Vim/vi 有着以下原因:

  • 所有的 Unix Like 系统都会内建 vi 文本编辑器,其他的文本编辑器则不一定会存在
  • 很多软件的编辑接口会主动呼叫 vi
  • Vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计
  • 程序简单,编辑速度快
阅读全文 »