0%

Hive 提供了一些内置函数,如果无法满足需求,还可以编写用户自定义函数(UDF),并在查询中调用这些函数。

阅读全文 »

Flink头图

Apache Flink 是一个开源的流处理框架,具有强大的 流处理批处理 能力,主要由 Java 代码实现,支持使用 Java、Scala 和 Python 等语言开发。

Flink 的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 集成了所有常见的集群资源管理器,例如 Hadoop YARN、 Apache Mesos 和 Kubernetes,但同时也可以作为独立集群运行。

阅读全文 »

HBase头图

HBase 是一个开源的非关系型分布式数据库(NoSQL),它使用 Java 语言实现了 Google 的 BigTable,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可以对稀疏文件提供极高的容错率。

阅读全文 »

Spark SQL is Apache Spark’s module for working with structured data.

Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了一个编程抽象叫作 DataFrame,并且作为分布式 SQL 查询引擎。

阅读全文 »

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。

阅读全文 »

Spark头图

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎,能更好地适用于数据挖掘与机器学习等需要迭代的场景。

阅读全文 »

Sqoop_logo

Sqoop是一款开源的工具,主要用于在Hadoop的文件存储系统(HDFS、HIVE、HBASE)与传统的数据库(MySQL、Oracle)间进行数据的传递,可以将关系型数据库中的数据导进到Hadoop文件存储系统中,也可以将Hadoop文件存储系统中的数据导进到关系型数据库中。

阅读全文 »