导航菜单
路很长,又很短
博主信息
昵   称:Cocodroid ->关于我
Q     Q:2531075716
博文数:290
阅读量:550352
访问量:51385
至今:
×
分享博文列表:【大数据
· Apache Curator入门实战
    ApacheCurator入门实战Curator是Netflix公司开源的一个Zookeeper客户端,与Zookeeper提供的原生客户端相比,Curator的抽象层次更高,简化了Zookeeper客户端的开发量。1.Zookeeper安装部署Zookeeper的部署很简单,如 ...更多
(353)阅读 2017-11-12

· 【入门篇】logstash、elasticsearch、ki
    1、下载logstash   a、官方下载地址:https://www.elastic.co/downloads/logstash   b、解压:tar-xzvflogstash-5.1.1.tar.gz   c、设置用户测试的配置文件:vimlogstatsh_test.con ...更多
(271)阅读 2017-09-16

· 原 荐 ELK(ElasticSearch, Logstas
    ELK平台介绍在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段:以下内容来自:http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程 ...更多
(213)阅读 2017-09-16

· 一文读懂Hadoop、HBase、Hive、Spark分布式
    机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署 ...更多
(351)阅读 2017-01-03

· 9个最佳的大数据处理编程语言
    大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。那么,在巨大的数据集中进行筛选的最好工具是什么?通过和数据骇客的交流 ...更多
(306)阅读 2016-06-06

· 实时推荐系统的3种方式
    推荐系统介绍自从1992年施乐的科学家为了解决信息负载的问题,第一次提出协同过滤算法,个性化推荐已经经过了二十几年的发展。1998年,林登和他的同事申请了“item-to-item”协同过滤技术的专利,经过多年的实践,亚马逊宣称销售的推荐占比可以占到整个销售GMV(GrossMe ...更多
(402)阅读 2016-05-10

· IaaS、PaaS、SaaS 之间的区别
    “云服务”现在已经快成了一个家喻户晓的词了。如果你还不知道PaaS、IaaS和SaaS的区别,那就太out了。“云”其实是互联网的一个隐喻,“云计算”其实就是使用互联网来接入存储或者运行在远程服务器端的应用,数据,或者服务。任何一个使用基于互联网的方法来提供计算,存储和开发服务的 ...更多
(424)阅读 2016-03-18

· 细聊分布式ID生成方法
    一、需求缘起几乎所有的业务系统,都有生成一个记录标识的需求,例如:(1)消息标识:message-id(2)订单标识:order-id(3)帖子标识:tiezi-id这个记录标识往往就是数据库中的唯一主键,数据库上会建立聚集索引(clusterindex),即在物理存储上以这个字 ...更多
(384)阅读 2016-03-08

· 数据可视化的五个步骤
    数据被称作是最新的商业原材料「21世纪的石油」。商业领域、研究领域、技术发展领域使用的数据总量非常巨大,并持续增长。就Elsevier而言,每年从ScienceDirect下载的文章有7亿篇,Scopus上的机构档案有8万个、研究人员档案有1千3百万,Mendeley上的研究人员 ...更多
(547)阅读 2016-01-18

· 用户画像全解析|都在说用户画像,你真的了解透了吗?
    什么是用户画像?在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值 ...更多
(961)阅读 2016-01-09

· Hadoop学习笔记之二十五——Hadoop2的改进内容简介
    Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:(1)HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别是: ...更多
(572)阅读 2015-10-23

· Hadoop学习笔记之二十四——网站日志分析项目案例(3)统
    一、借助Hive进行统计1.1准备工作:建立分区表  为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project ...更多
(787)阅读 2015-10-22

· Hadoop学习笔记之二十三——网站日志分析项目案例(2)数
    一、数据情况分析1.1数据情况回顾  该论坛数据有两部分:  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这 ...更多
(460)阅读 2015-10-21

· Hadoop学习笔记之二十二——网站日志分析项目案例(1)项
    一、项目背景与数据情况1.1项目来源  本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。图1项目来源网站-技术学习论坛  本次实践的目的就在于通过对该技术论坛的apachecommon日志进行分析,计算 ...更多
(618)阅读 2015-10-20

· 当今世界最NB的25位大数据科学家
    引言  在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(DataScientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界, ...更多
(786)阅读 2015-10-16

· 【干货】大规模名人人脸标注数据集CelebA(20万+)
    大规模名人人脸标注数据集CelebA,有20多万的数据,这个是开放数据集,来自香港中文大学的开放数据,可以给你们作为研究等数据测试处理Large-scaleCelebFacesAttributes(CelebA)DatasetCelebFacesAttributesDataset ...更多
(1029)阅读 2015-10-10

· Hadoop学习笔记之二十一——Flume框架学习
    START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。一、Flume基础理论1.1常见的分布式日志收集系统  Scribe是facebo ...更多
(507)阅读 2015-09-08

· Hadoop家族介绍
    简介ApacheHadoop是一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。Hadoop框架透明地为 ...更多
(576)阅读 2015-09-02

· Hadoop学习笔记之二十——Sqoop框架学习
    一、Sqoop基础:连接关系型数据库与Hadoop的桥梁1.1Sqoop的基本概念    Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。ApacheSqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间 ...更多
(504)阅读 2015-08-29

· 关于混合云架构的三个热门流言
    大卫·罗素曾说过:“选择是人生中最困难的事情——你要去知道跨哪座桥,拐哪个弯儿。(hardestthinginlifetolearniswhichbridgetocrossandwhichtoburn——DavidRussell)”。前一段时间,我将自己定义为一名CIO,从多个基 ...更多
(407)阅读 2015-08-28