Hi SANNAHA

HiveQL快速上手

发表于 2018-06-14 更新于 2023-11-26

Hive 提供了类 SQL 语法 HQL，封装了底层的 MapReduce 过程。

目录	概述
操作数据库	创建、修改、删除数据库，查看数据库信息
操作数据表	创建、修改、删除表，查看表的信息，数据类型，复杂数据类型用例
插入数据	`INSERT` 关键字的使用
加载数据	`LOAD` 关键字的使用
多表插入	扫描一遍源表就可以生成多个不相交的输出
动态分区插入	在插入数据到分区表时，根据源表的列值自动创建分区
导入导出表数据	`EXPORT` 和 `IMPORT` 关键字的使用
保存查询结果	保存查询结果到本地、HDFS 或 Hive 表
清空表数据	`TRUNCATE` 关键字的使用
查询数据	`SELECT` 关键字的使用
子查询部分	将子查询部分产生的结果集保存在内存中，供整个 SQL 使用
UNION	将多个查询结果合并为一个结果集
聚合函数	`COUNT`、`MAX`、`MIN`、`SUM`、`AVG` 聚合函数的使用
分组	`GROUP BY` 和 `HAVING` 关键字的使用
排序	`ORDER BY`、`S BY`、`DIRIBUTE BY`、`CLUSTER BY` 关键字的使用
连接	内连接、外连接、多表连接、分桶表连接
数据抽样	块抽样、分桶抽样、随机抽样
常用内置函数	日期函数、字符函数、解析json、条件函数、窗口函数、排名函数、行列转换
案例	复制分区表、统计分析与排名、ETL

阅读全文 »

Hive快速上手

发表于 2018-06-09 更新于 2023-11-14

Hive 是一个基于 Hadoop 的数据仓库，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

阅读全文 »

MapReduce快速上手

发表于 2018-05-18 更新于 2023-11-21

MapReduce 是一个分布式计算框架，用于大规模数据集的并行运算。”Map（映射）”和”Reduce（归约）”是它的主要思想，简单来说就是“分而治之”。

阅读全文 »

YARN快速上手

发表于 2018-05-10 更新于 2021-06-13

Apache YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

阅读全文 »

HDFS快速上手

发表于 2018-05-06 更新于 2023-11-20

Hadoop 分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

阅读全文 »

Kafka快速上手

发表于 2018-04-23 更新于 2023-11-03

Apache Kafka 是一款基于发布与订阅的消息队列系统，采用生产者、消费者模式，该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的消息平台。

阅读全文 »

Zookeeper选举机制

发表于 2018-03-14 更新于 2021-07-11

本文主要介绍Zookeeper的投票机制，回答“Zookeeper选举投票过程”以及“为什么建议使用奇数个节点”两个问题。

阅读全文 »

Zookeeper快速上手

发表于 2018-03-05 更新于 2023-10-30

ZooKeeper 是一个开源的分布式协调服务，是 Google 的 Chubby 一个开源的实现，是构建分布式的 Hadoop、HBase、Dubbox、Kafka 的重要组件。它为我们提供了高可用、高性能、稳定的分布式数据一致性解决方案，提供的功能包括：数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等。

阅读全文 »

Nginx快速上手

发表于 2018-02-22 更新于 2022-12-11

Nginx 是一个高性能的 HTTP 服务器，支持虚拟主机、反向代理和负载均衡。本篇简单介绍下 Nginx 的组件、用途、常用命令，以及如何配置多虚拟主机、反向代理、负载均衡。

阅读全文 »

Vim快速上手

发表于 2018-02-12 更新于 2022-10-12

Vim是从vi发展出来的一个文本编辑器。功能丰富，在程序员中被广泛使用。相比其他文本编辑器，选用 Vim/vi 有着以下原因：

所有的 Unix Like 系统都会内建 vi 文本编辑器，其他的文本编辑器则不一定会存在
很多软件的编辑接口会主动呼叫 vi
Vim 具有程序编辑的能力，可以主动的以字体颜色辨别语法的正确性，方便程序设计
程序简单，编辑速度快

阅读全文 »