Anecdotal Bigdata Ecosphere

"Sometimes maybe good sometimes maybe shit."

如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?

Difference between Distributed and Cluster?

"body, head, limbs VS two men"

分布式与集群的区别是什么?

从三种结构上来讲

三种结构:

How to use Spark?

"Take it easy."

心急吃不了热豆腐
原来学使用也可以从入门到放弃
第一步在看: A Gentle Introduction to Apache Spark on Databricks
哇,好长不看,去了下一个链接: Spark ALS algorithm ML Based
直接又是扔给我一堆代码……
在了解啥是ALS之前先看看RDD的API吧……
Collaborative Filtering

What is Apache Spark?

"an open-source distributed general-purpose cluster-computing framework"

Spark简介

Spark 在 2009 年左右诞生于加州大学伯克利分校的著名 AMPLab。最初推动 Spark 成名的原因是它能够经常在内存执行大量的计算工作,直到作业的最后一步才写入磁盘。工程师通过弹性分布式数据集(RDD)理念实现了这一目标,在底层 Pipeline 中能够获取每个阶段数据结果的所有派生关系,并且允许在机器故障时重新计算。

Introduction to RDD(Resilient Distributed Datasets)

"Just a fundamental data structure of Spark."

Spark入门:RDD的设计与运行原理

RDD的设计与运行原理

Spark的核心是建立在统一的抽象RDD(Resilient Distributed Datasets)之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》

What is the difference between MapReduce and Spark?

"You are Neo, I'm matrix, and sometimes Agent Smith."

MapReduce和Spark的区别是什么?

What is Hadoop?

"From Google Cloud to Hadoop"

From the beginning to the end.

Hadoop是Google的云计算系统的Java开源实现,是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布式系统。

谷歌集群系统主要包括三个部分(所谓的Google三驾马车):
分布式文件系统GFS
The Google File System发表于SOSP 19(Symposium on Operating Systems Principles)

What is MapReduce

"MapReduce is a programming model and an associated implementation for processing and generating big data sets with a parallel, distributed algorithm on a cluster."

关于MapReduce的理解?

MapReduce是一个分布式编程计算模型,用于大规模数据集的分布式系统计算。

Q:是否可以理解为:
Map负责分发任务
Reduce负责回收完成的任务

A:并非分发和回收。而是一种计算思想的2个阶段。
Map负责计算
Reduce负责处理


终于得空把上个月26号当天的一系列学习总结发布上来~

Apache 相关
大数据相关框架

译文一篇:Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? by 大愚若智 译
原文在此:Hadoop, Storm, Samza, Spark, and Flink: Big Data Frameworks Compared by Justin Ellingwood

Begin to use Git

"Using git"

现在的印象笔记有积累,但是没有体系,也就是固化不到自己的体系中,这个是个问题,需要注意一下。也许技术性的东西,不再适合在印象笔记里放了。

一开始接触的,但是有些地方语焉不详。本地jekyll还需要参考
提到用prose在线编辑

1. 利用github-pages建立个人博客
Including git,
2. Git 安装和使用教程

Theses are useful.