storm第一阶段 发表于 2017-09-06 | 分类于 大数据 | 阅读次数 介绍 一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。被称作”实时的hadoop”. 主要用在流式的数据处理,例如数据一边进来一边转换格式。hadoop是批量离线处理,storm是实时的。 使用场景:实时分析、在线机器学习,持续计算,分布式RPC,ETL等等 storm的典型拓扑图 ... 阅读全文 »
scala 发表于 2017-08-28 | 分类于 大数据 | 阅读次数 scala 介绍scala 基于JVM的语言,静态类型,和java互相操作 使用 ;可写可不写 变量 : var 常量 : val 函数:123456789101112131415161718//主函数 def main(args: Array[String]) { prin ... 阅读全文 »
spark第二阶段 发表于 2017-08-20 | 分类于 大数据 | 阅读次数 本章节主要是介绍了我在学习spark阶段的几个小知识点,分享给大家。 spark在window下运行 在window下加载数据整理及打印 注意window下运行spark需要下载一个hadoop的winutils.exe文件,并代码引入否则会报io异常,见附件 注意切割的时候最好用单引号,如果用 ... 阅读全文 »
spark第一阶段 发表于 2017-08-11 | 分类于 大数据 | 阅读次数 介绍 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 四种运行模式:local(多用 ... 阅读全文 »
hadoop第五阶段 发表于 2017-08-06 | 分类于 大数据 | 阅读次数 zookeeper zookeeper 是Goole的Chubby的一个开源的项目的实现,是Hadoop的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 作用: 提供对数据节点的监听器 提供少量数据的存储和管理 zookeeper也有 ... 阅读全文 »
hadoop第四阶段 发表于 2017-08-01 | 分类于 大数据 | 阅读次数 hadoop中的序列化机制 序列化:把对象转换为字节序列的过程 反序列化:把字节序列恢复为对象的过程 jdk自带的序列化会把要序列化的接口的所有继承类给序列化过去,hadoop则不会。 自定义统计 map 1234567891011121314151617181920212223/** * Flo ... 阅读全文 »
hadoop第三阶段 发表于 2017-07-25 | 分类于 大数据 | 阅读次数 map reduce 当面临海量数据处理的时候,需要把数据源文件放入分布式文件系统中,这时这个简单的处理就会变得很复杂,这时 map reduce 就发生了作用 所以我们程序员的工作就是写一些业务逻辑,这个逻辑本身不具备特别多分布式的特点,但是他要符合mapReduce的逻辑规范。 map 局部 ... 阅读全文 »
hadoop第二阶段 发表于 2017-07-23 | 分类于 大数据 | 阅读次数 hdfsNameNode工作机制 hdfs写文件的过程,以及怎么保证元数据不丢失 首先向namenode申请上传文件,nameNode中的元数据返回要分配的DataNode有哪些 然后客户端会分别把要存的block写入datanode,只要要存的block存入成功就会返回成功信息 datanode之 ... 阅读全文 »
hadoop第一阶段 发表于 2017-07-08 | 分类于 大数据 | 阅读次数 什么是hadoop 解决问题 海量数据的存储(HDFS) 海量数据的分析(MapReduce) 资源管理调度(YARN) 作者:Doug Cutting 受Google三篇论文的启发(GFS、MapReduce、BigTable) 从1.0向2.0的阶段最重要的改变是增加了YARN资源管理 ... 阅读全文 »
Hbase 发表于 2017-05-01 | 分类于 大数据 | 阅读次数 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利 ... 阅读全文 »