Flume 搭建教程

基于上一节搭建的 Spark 环境,这一节我们继续搭建 Flume 相关的环境。在开始之前我们先介绍一个什么是 Flume?引用官网对于 Flume 的阐述:

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

健康的程序员

大概五周前的 10 月 23 号下午,我突然感觉肚子很疼很疼,那种疼是我长这么大从未经历过的。我起初以为是吃坏东西了,在厕所里蹲了好久可是什么也没发生。后来疼得我实在是在实验室呆不下去就收拾了下回了宿舍,在路上我隐约想起来自己小的时候有过一次生病也是肚子疼,当时姑姑让我喝红糖热水,还在水里加了姜,说喝点热的可以把肚子里压住的『冷气』排出来。走到宿舍楼下我艰难的打了一壶水提到宿舍,可是到了宿舍连往杯子里倒水的力气都没有,我就往床上躺着。翻来覆去的然而疼痛没有减轻,下来倒水的时候由于没有力气拿不住水壶,手一直在抖,不小心把壶掉地上打碎了,热水撒了一地。当时疼得几乎跪在地上,非常非常的无助

Java 版本的 MapReduce 入门作业:WordCount

上一节我们搭好了 Hadoop 2.7.4 环境,其中包括分布式存储系统 HDFS资源管理平台 YARN,这一节在此基础上我们开发一个 MapReduce 作业:WordCount

什么是 WordCount ?

我们首先提一个实际的需求,比如要分析今年十九大报告中的热词,什么是热词?就是那些出现频率高的词汇。首先将整篇报告分词,然后统计每个词语的词频,最后再进行排序,这样就可以得到热词了。可以看到这个过程中统计词频是很关键的一步。WordCount 就是这样的一个小应用,我们以英语文本为例,英文是不需要分词的,我们只需要统计每个单词出现的次数即可。

比如『hello world hello java』,那么输出结果该是

hello 2

world 1

java 1

SpringMVC 中 RESTful API 的拦截

很多时候我们需要对每个 url 请求进行统一处理,比如记录每个 url 从开始请求到业务完成并返回所花费的时间,这需要在 url 请求到来的时候记录下来时间戳,完成后再记录下时间,二者的时间差值便是执行这次请求花费的时间。本篇以 SpringMVC 为例来讲解一下其中的三种拦截机制,他们分别是过滤器(Filter)、拦截器(Interceptor)和切片(Aspect)