标题:
【大数据时代】如何快速入门大数据分析?
[打印本页]
作者:
webxmf
时间:
2015-1-8 15:53
标题:
【大数据时代】如何快速入门大数据分析?
大数据分析_大数据处理_大数据技术_云计算_网络数据与科学
网络大数据(
www.raincent.com
)整合了
大数据分析
,
大数据处理
,
大数据技术
,
云计算
为一体,力争打造国内数一数二的网络数据处理平台。
首先你要学会搭集群
(
说
到
大数据
默认是
hadoop
那一套没人反对吧
?)
。先不要用高版本代码,用
0.2.3
,该版本保留了最初始但架构非常清晰的部分,比如
master
和
slave
架构,
jobtracker
和
tasktracker
,比如
datanode
和
namenode
。
再往上就是
大数据处理
的两大核心部分:分布式计算和分布式存储。搞清楚这些,网上一搜,会发现,这尼玛就是谷歌分布式计算存储的山寨版本,好,恭喜你,现在终于可以一窥其角了。注意,一定要抠低版本的核心实现原理,因为高版本那些看似炫酷的架构都离不了低版本中那些核心架构的启发。
分布式计算涉及到
mapreduce
,
mapreduce
涉及到各种文本的分割,
reducer
分桶,各阶段的排序
(
如归并算法、堆排序算法的实现
)
,二级索引的环形缓冲器的设计,
reducer
阶段涉及到多线程的
map
端拉取,还有非常重要的数据存储的序列化类的实现始末,数据写入时的
dataqueue
和
ackqueue
,
pipelines
,
block
的分布原理,机架感知,容错等。再往上,便是
2.0
以后引入的
YARN
和
HA
,在这个层次,你会接触到更多很神奇的东西,比
spark
,
Dooker
,
hive
,
protubuf
,
hbase
,
pi
g会用这些,才算打好了基础。
大数据
只有打好了基础才能进行更高层次的学习。总结起来,大数据领域的处理分为实时计算和离线计算,基于不同的业务场景有不同的实现架构,但归根到底,
hadoop
才是源头。至于数据挖掘,和是不是基于大数据的有毛关系。问个问题,有两个大小分别为
2T
的日志,怎么比较它们是不是相同,给出不同的行数和具体内容。在海量数据面前,传统的工具
什么都不是。
更多大数据、云计算最新资讯 敬请关注网络大数据:
http://www.raincent.com/list-10-1.html
作者:
我是MT
时间:
2015-1-8 16:12
大数据,很火的一个课题
欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)
Powered by Discuz! 7.0.0