Page 2 | zlren

Flume 搭建教程

2018-01-08

基于上一节搭建的 Spark 环境，这一节我们继续搭建 Flume 相关的环境。在开始之前我们先介绍一个什么是 Flume？引用官网对于 Flume 的阐述：

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

flume

可能是坑最少的Spark环境搭建教程（二）

2018-01-08

环境介绍

CentOS 7.3 - 1611 Minimal
JDK 1.8
Hadoop 2.7.4
HBase 1.2.6
Scala 2.11.8
Spark 2.1.1
Zookeeper 3.4.8

大概五周前的 10 月 23 号下午，我突然感觉肚子很疼很疼，那种疼是我长这么大从未经历过的。我起初以为是吃坏东西了，在厕所里蹲了好久可是什么也没发生。后来疼得我实在是在实验室呆不下去就收拾了下回了宿舍，在路上我隐约想起来自己小的时候有过一次生病也是肚子疼，当时姑姑让我喝红糖热水，还在水里加了姜，说喝点热的可以把肚子里压住的『冷气』排出来。走到宿舍楼下我艰难的打了一壶水提到宿舍，可是到了宿舍连往杯子里倒水的力气都没有，我就往床上躺着。翻来覆去的然而疼痛没有减轻，下来倒水的时候由于没有力气拿不住水壶，手一直在抖，不小心把壶掉地上打碎了，热水撒了一地。当时疼得几乎跪在地上，非常非常的无助

Java 版本的 MapReduce 入门作业：WordCount

2018-01-08

上一节我们搭好了 Hadoop 2.7.4 环境，其中包括分布式存储系统 HDFS 和资源管理平台 YARN，这一节在此基础上我们开发一个 MapReduce 作业：WordCount

什么是 WordCount ？

我们首先提一个实际的需求，比如要分析今年十九大报告中的热词，什么是热词？就是那些出现频率高的词汇。首先将整篇报告分词，然后统计每个词语的词频，最后再进行排序，这样就可以得到热词了。可以看到这个过程中统计词频是很关键的一步。WordCount 就是这样的一个小应用，我们以英语文本为例，英文是不需要分词的，我们只需要统计每个单词出现的次数即可。

比如『hello world hello java』，那么输出结果该是

hello 2

world 1

java 1

hadoop

SpringMVC 中 RESTful API 的拦截

2018-01-08

很多时候我们需要对每个 url 请求进行统一处理，比如记录每个 url 从开始请求到业务完成并返回所花费的时间，这需要在 url 请求到来的时候记录下来时间戳，完成后再记录下时间，二者的时间差值便是执行这次请求花费的时间。本篇以 SpringMVC 为例来讲解一下其中的三种拦截机制，他们分别是过滤器（Filter）、拦截器（Interceptor）和切片（Aspect）

rest

zlren

Flume 搭建教程

可能是坑最少的Spark环境搭建教程（二）

环境介绍

自定义注解实现授权校验

健康的程序员

Java 版本的 MapReduce 入门作业：WordCount

SpringMVC 中 RESTful API 的拦截