pig生态产业链数字货币

发布时间: 2021-04-25 10:53:26

1. 什么是 Hadoop 生态系统

Map Rece -MapRece 是使用集群的并行，分布式算法处理大数据集的可编程模型。Apache MapRece 是从 Google MapRece 派生而来的：在大型集群中简化数据处理。当前的 Apache MapRece 版本基于 Apache YARN 框架构建。YARN ＝ “Yet-Another-Resource-Negotiator”。YARN 可以运行非 MapRece 模型的应用。YARN 是 Apache Hadoop 想要超越 MapRece 数据处理能力的一种尝试。

HDFS - The Hadoop Distributed File System (HDFS) 提供跨多个机器存储大型文件的一种解决方案。Hadoop 和 HDFS 都是从 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前，NameNode 是 HDFS 集群的一个单点故障 (SPOF) 。利用 Zookeeper，HDFS 高可用性特性解决了这个问题，提供选项来运行两个重复的 NameNodes，在同一个集群中，同一个 Active/Passive 配置。
HBase - 灵感来源于 Google BigTable。HBase 是 Google Bigtable 的开源实现，类似 Google Bigtable 利用 GFS 作为其文件存储系统，HBase 利用 Hadoop HDFS 作为其文件存储系统；Google 运行 MapRece 来处理 Bigtable 中的海量数据，HBase 同样利用 Hadoop MapRece 来处理 HBase 中的海量数据；Google Bigtable 利用 Chubby 作为协同服务，HBase 利用 Zookeeper 作为对应。
Hive - Facebook 开发的数据仓库基础设施。数据汇总，查询和分析。Hive 提供类似 SQL 的语言 (不兼容 SQL92)：HiveQL。
Pig - Pig 提供一个引擎在 Hadoop 并行执行数据流。Pig 包含一个语言：Pig Latin，用来表达这些数据流。Pig Latin 包括大量的传统数据操作 (join, sort, filter, etc.)，也可以让用户开发他们自己的函数，用来查看，处理和编写数据。Pig 在 hadoop 上运行，在 Hadoop 分布式文件系统，HDFS 和 Hadoop 处理系统，MapRece 中都有使用。Pig 使用 MapRece 来执行所有的数据处理，编译 Pig Latin 脚本，用户可以编写到一个系列，一个或者多个的 MapRece 作业，然后执行。Pig Latin 看起来跟大多数编程语言都不一样，没有 if 状态和 for 循环。
Zookeeper - ZooKeeper 是 Hadoop 的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper 是 Google 的 Chubby 一个开源的实现.是高有效和可靠的协同工作系统。Zookeeper 能够用来 leader 选举,配置信息维护等.在一个分布式的环境中，我们需要一个 Master 实例或存储一些配置信息，确保文件写入的一致性等。
Mahout - 基于 MapRece 的机器学习库和数学库。

2. 大数据时代发展历程是什么

大数据技术发展史：大数据的前世今生

今天我们常说的大数据技术，其实起源于Google在2004年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统GFS、大数据分布式计算框架MapRece和NoSQL数据库系统BigTable。

你知道，搜索引擎主要就做两件事情，一个是网页抓取，一个是索引构建，而在这个过程中，有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的，你从介绍中也能看出来，一个文件系统、一个计算框架、一个数据库系统。

现在你听到分布式、大数据之类的词，肯定一点儿也不陌生。但你要知道，在2004年那会儿，整个互联网还处于懵懂时代，Google发布的论文实在是让业界为之一振，大家恍然大悟，原来还可以这么玩。

因为那个时间段，大多数公司的关注点其实还是聚焦在单机上，在思考如何提升单机的性能，寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群，通过分布式的方式将海量数据存储在这个集群上，然后利用集群上的所有机器进行数据计算。这样，Google其实不需要买很多很贵的服务器，它只要把这些普通的机器组织到一起，就非常厉害了。

当时的天才程序员，也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch，阅读了Google的论文后，他非常兴奋，紧接着就根据论文原理初步实现了类似GFS和MapRece的功能。

两年后的2006年，Doug Cutting将这些大数据相关的功能从Nutch中分离了出来，然后启动了一个独立的项目专门开发维护大数据技术，这就是后来赫赫有名的Hadoop，主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapRece。

当我们回顾软件开发的历史，包括我们自己开发的软件，你会发现，有的软件在开发出来以后无人问津或者寥寥数人使用，这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业，每年创造数百亿美元的价值，创造百万计的就业岗位，这些软件曾经是Windows、Linux、Java，而现在这个名单要加上Hadoop的名字。

如果有时间，你可以简单浏览下Hadoop的代码，这个纯用Java编写的软件其实并没有什么高深的技术难点，使用的也都是一些最基础的编程技巧，也没有什么出奇之处，但是它却给社会带来巨大的影响，甚至带动一场深刻的科技革命，推动了人工智能的发展与进步。

我觉得，我们在做软件开发的时候，也可以多思考一下，我们所开发软件的价值点在哪里？真正需要使用软件实现价值的地方在哪里？你应该关注业务、理解业务，有价值导向，用自己的技术为公司创造真正的价值，进而实现自己的人生价值。而不是整天埋头在需求说明文档里，做一个没有思考的代码机器人。

Hadoop发布之后，Yahoo很快就用了起来。大概又过了一年到了2007年，网络和阿里巴巴也开始使用Hadoop进行大数据存储与计算。

2008年，Hadoop正式成为Apache的顶级项目，后来Doug Cutting本人也成为了Apache基金会的主席。自此，Hadoop作为软件开发领域的一颗明星冉冉升起。

同年，专门运营Hadoop的商业公司Cloudera成立，Hadoop得到进一步的商业支持。

这个时候，Yahoo的一些人觉得用MapRece进行大数据编程太麻烦了，于是便开发了Pig。Pig是一种脚本语言，使用类SQL的语法，开发者可以用Pig脚本描述要对大数据集上进行的操作，Pig经过编译后会生成MapRece程序，然后在Hadoop上运行。

编写Pig脚本虽然比直接MapRece编程容易，但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算，比如说你可以写个Select语句进行数据查询，然后Hive会把SQL语句转化成MapRece的计算程序。

这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度，迅速得到开发者和企业的追捧。据说，2011年的时候，Facebook大数据平台上运行的作业90%都来源于Hive。

随后，众多Hadoop周边产品开始出现，大数据生态体系逐渐形成，其中包括：专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop；针对大规模日志进行分布式收集、聚合和传输的Flume；MapRece工作流调度引擎Oozie等。

在Hadoop早期，MapRece既是一个执行引擎，又是一个资源调度框架，服务器集群的资源调度管理由MapRece自己完成。但是这样不利于资源复用，也使得MapRece非常臃肿。于是一个新项目启动了，将MapRece执行引擎和资源调度分离开来，这就是Yarn。2012年，Yarn成为一个独立的项目开始运营，随后被各类大数据产品支持，成为大数据平台上最主流的资源调度系统。

同样是在2012年，UC伯克利AMP实验室（Algorithms、Machine和People的缩写）开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapRece进行机器学习计算的时候性能非常差，因为机器学习算法通常需要进行很多次的迭代计算，而MapRece每执行一次Map和Rece计算都需要重新启动一次作业，带来大量的无谓消耗。还有一点就是MapRece主要使用磁盘作为存储介质，而2012年的时候，内存已经突破容量和成本限制，成为数据运行过程中主要的存储介质。Spark一经推出，立即受到业界的追捧，并逐步替代MapRece在企业应用中的地位。

一般说来，像MapRece、Spark这类计算框架处理的业务场景都被称作批处理计算，因为它们通常针对以“天”为单位产生的数据进行一次计算，然后得到需要的结果，这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据，而是历史数据，所以这类计算也被称为大数据离线计算。

而在大数据领域，还有另外一类应用场景，它们需要对实时产生的大量数据进行即时计算，比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算，相应地，有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。流式计算要处理的数据是实时在线产生的数据，所以这类计算也被称为大数据实时计算。

在典型的大数据的业务场景下，数据业务最通用的做法是，采用批处理的技术处理历史全量数据，采用流式计算处理实时新增数据。而像Flink这样的计算引擎，可以同时支持流式计算和批处理计算。

除了大数据批处理和流处理，NoSQL系统处理的主要也是大规模海量数据的存储与访问，所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆，涌现出HBase、Cassandra等许多优秀的产品，其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

我们回顾软件发展的历史会发现，差不多类似功能的软件，它们出现的时间都非常接近，比如Linux和Windows都是在90年代初出现，Java开发中的各类MVC框架也基本都是同期出现，Android和iOS也是前脚后脚问世。2011年前后，各种NoSQL数据库也是层出不群，我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。

事物发展有自己的潮流和规律，当你身处潮流之中的时候，要紧紧抓住潮流的机会，想办法脱颖而出，即使没有成功，也会更加洞悉时代的脉搏，收获珍贵的知识和经验。而如果潮流已经退去，这个时候再去往这个方向上努力，只会收获迷茫与压抑，对时代、对自己都没有什么帮助。

但是时代的浪潮犹如海滩上的浪花，总是一浪接着一浪，只要你站在海边，身处这个行业之中，下一个浪潮很快又会到来。你需要敏感而又深刻地去观察，略去那些浮躁的泡沫，抓住真正潮流的机会，奋力一搏，不管成败，都不会遗憾。

正所谓在历史前进的逻辑中前进，在时代发展的潮流中发展。通俗的说，就是要在风口中飞翔。

上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成；数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等，内置了主要的机器学习和数据挖掘算法。

此外，大数据要存入分布式文件系统（HDFS），要有序调度MapRece和Spark作业执行，并能把执行结果写入到各个应用系统的数据库中，还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。

图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系，我将会在专栏后面逐个分析，帮你能够对大数据技术原理和应用算法构建起完整的知识体系，进可以专职从事大数据开发，退可以在自己的应用开发中更好地和大数据集成，掌控自己的项目。

希望对您有所帮助！~

3. pig是什么

PIG是基于区块链技术的京猪游娱生态系统的权益凭证，在IPC上发行，总发行量为2.1亿个，永不增发。京猪游娱是第一个以研究游戏学为首驱使导向，并从中演变而来的区块链平台。拥有完整的产业链，充分的流动性，足以证明其是成熟，安全，稳定的商用金融系统。京猪游娱生态将游戏和量化交易板块一半的收入用来回购燃烧PIG，预计用三年将2.1亿PIG燃烧到2100万的流通总量。

阅读全文

热点内容

收到假eth币发布：2025-10-20 08:58:16 浏览：973

暗黑破坏神2eth打孔发布：2025-10-20 08:42:58 浏览：105

BTC和CBT是一样的吗发布：2025-10-20 08:42:57 浏览：233

华硕trx40Pro供电发布：2025-10-20 08:33:26 浏览：432

晒人民币编号的朋友圈发布：2025-10-20 08:25:32 浏览：687

doge格式发布：2025-10-20 08:02:00 浏览：382

以太坊会爆发吗发布：2025-10-20 08:01:59 浏览：772

一台比特币矿机的功率发布：2025-10-20 07:39:24 浏览：925

trx辅助带发布：2025-10-20 07:35:29 浏览：48

比特币哈希值有多少位发布：2025-10-20 07:31:20 浏览：633

pig生态产业链数字货币

与pig生态产业链数字货币相关的资讯