当前位置:首页 » 算力简介 » 计算集群算力统计

计算集群算力统计

发布时间: 2021-06-12 08:56:14

『壹』 云计算模式及在地质资料集群化、产业化服务中的应用探讨

张兆代 王圣洁 刘京鹏 宋宏伟

(青岛海洋地质研究所)

摘 要 云计算继承和整合了虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理等多项关键技术,形成了具有高性能、可伸缩、低成本及面向服务的新的计算模式。目前学术界及产业界对云计算的研究和探讨均呈快速增长趋势,大量论文发表在计算机类和图书情报类期刊,研究的重点集中在云计算的基础理论、云计算的关键技术、云服务的应用领域、云计算与信息资源管理等多个方面。本文以 2000 ~ 2012 年发表在国内核心期刊上关于云计算的研究文献为统计样本,分析了云计算的研究热点及其演化方向,结合我国地质资料集群化产业化服务的发展状况,探讨云计算应用策略。

关键词 云计算模式 地质资料 信息共享和服务

1 前言

“云计算(Cloud Computing)”一词出现于 2006 年,是谷歌总裁埃里克 施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次正式提出的一个概念。它不仅揭开了谷歌搜索背后关键技术的神秘面纱,而且在短短的数年内就迅速超越“网格计算(Grid Computing)”并成为新的潮流(图 1)。

图 1 网格计算与云计算搜索量变化趋势图

2006 年后,在谷歌、亚马逊、IBM 等企业的推动下,“云计算”作为新兴的计算模式已经有了广泛应用。云计算作为一种基础设施与服务的交付和使用模式,正深刻地影响着互联网的发展。近年来,国内外掀起了关于云计算的研究热潮,涌现了大量的研究文献和应用案例,云计算已经成为学术界和产业界共同关注的热点。本文首先介绍了云计算的基本概念和关键技术,并通过对现有的云计算研究文献的综合分析,结合我国地质资料集群化产业化服务的发展状况,提出其在云计算应用中需要注意的问题。

2 云计算及其关键技术

2.1 云计算的基本概念

云计算的概念仍存在不同的定义。一般认为云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备[1]。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)也给出了云计算的定义,认为云计算是一种能够通过网络以便利的、按需使用的方式获取计算资源并显著提高可用性的方式,这些计算资源来自一个共享的、可配置的资源池,并能够以自动的方式获取和释放[2]

中国电子学会云计算专家委员会认为:云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,并以服务的方式提供。这种新型的计算资源组织、分配和使用模式,有利于合理配置计算资源并提高其利用率,从而促进节能减排,实现绿色计算[3]

尽管云计算有不同的定义,但对于云计算的特点已有很多深入的讨论。下面五个基本特征可以用来判断一个计算服务是否是云计算。

(1)服务按需即取。云计算是把信息技术作为服务提供的一种方式。由于这种服务是从用户角度出发,按需即取的自助服务是其最重要的特征之一。用户可以自行获得计算能力,包括服务器的使用和网络存储的使用,而整个过程通常是自动进行的。

(2)便捷网络访问。云计算支持广泛和便捷的网络访问能力,用户可以使用多种设备,如手机、移动计算机或工作站等获取云服务。

(3)资源共享池。云计算带来的一个好处是能够提高资源的利用率,通过把资源集中到一个公共的资源共享池中,可以为大规模的用户群提供共享服务。由于资源池可以动态分配所有物理和虚拟资源,达到了通过共享提高资源利用率的目的。

(4)高可扩展性及弹性服务。云计算具有快速及可伸缩地提供服务的能力。根据需求变化,云计算所提供的服务可以自动并快速地扩展或收缩。

(5)服务可度量。云系统通过自动监控资源的使用,可以提供定量的运行报告,从而保证云服务处于应有的水平。

2.2 云计算的体系架构

计算机技术的发展经历了传统主机计算模式到个人普及计算模式及分布式网络计算模式的转变[4]。云计算作为一种新的计算模式,既是分布式计算、并行计算和网格计算等技术快速演化的结果,也是信息社会中信息需求的必然选择。社会化、集约化与专业化的信息服务通过各种云计算得以体现,其中既包括了各种通过网络提供给用户的互联网应用、软件或计算资源服务,也包含了用来支撑这些服务可靠和高效运行的软硬件平台。

美国国家标准与技术研究院的技术报告给出了关于云计算体系架构的完整模型(图 2),该顶层模型定义了云计算模式中的角色(Actors)、行为(Activities)和功能(Functions)[5]。云计算的核心角色有云用户(Cloud Consumer)、云服务商(Cloud Provider)、云审计者(CloudAuditor)、云代理商(CloudBroker)和云运营商(Cloud Carrier)共五类(表 1)。在该模型中,云用户可以获得包括 ERP、CRM、HR 等商业智能或信息、通讯、协作、存储、备份以及软件、硬件托管等多种服务,云服务商则通过云计算中心的建设、运行和管理提供在线的软件服务(SaaS)、平台服务(PaaS)和基础设施服务(IaaS),云运营商通过提供网络接入、通讯系统等保障云计算的提供和使用,云审计者和云代理商的参与则保证了云计算和云服务的稳定性、持续性和透明度及服务水平。

图 2 云计算体系架构参考模型(引自 NIST)

表 1 云计算模式中的主要角色及定义

2.3 云计算的关键技术

云计算是计算机技术发展的产物,其中虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理被认为是实现云计算的关键技术[6]

2.3.1 虚拟化技术

虚拟化(Virtualization)技术是将各种计算及存储资源充分整合和高效利用的关键。虚拟化技术包括两个方面:物理资源池化和资源池管理。物理资源池化是把物理设备由大化小,将一个物理设备虚拟为多个性能可配置的最小资源单位;资源池管理是对集群中虚拟化后的最小资源单位进行管理,根据资源的使用情况对资源进行灵活分配和调度,实现按需分配资源。虚拟化技术主要应用在服务器虚拟化、存储虚拟化和网络虚拟化三个方面。

2.3.2 海量数据存储

海量数据存储是云计算的主要任务。为了保证可用性、可靠性和经济性,云计算采用分布式存储的方式来存储数据,由于采用了分布式冗余存储的方式,数据既有高可靠性,也能并行地为大规模用户提供服务。云计算的数据存储技术主要有谷歌的分布式文件系统(GFS,Google File System)和 Hadoop 的HDFS(Hadoop Distributed File System)。

2.3.3 分布式并行计算框架

并行计算是云计算的核心。云计算采用 Map-Rece 的编程模式实现分布式并行计算。Map-Rece通过“Map”和“Rece”这样两个过程来简化并行计算,所有应用只需要提供 Map 函数以及 Rece 函数就可以在集群上进行大规模的分布式数据处理。Map-Rece 不仅仅是一种编程模型,同时也是一种高效的任务调度模型,该模型的使用使计算任务高度并行及分布式实现成为现实。

2.3.4 智能化与自动管理技术

云计算具有高度自治的特点,智能化与自动管理是云计算模式的重要技术支撑。通过对集群系统各节点的全面监控、自动反馈、智能调配,实现了包括设备、虚拟资源、通讯与服务等的动态管理和自动迁移。以第四代大规模数据中心为基础的云计算,既能灵活扩展部署,也能满足服务计算和多粒度计算的要求。

3 我国云计算研究热点分析

3.1 国内外云计算搜索量变化趋势比较

搜索量的大小通常反映关注度的高低,使用 Google Trends 工具还可以分析一些长期的趋势和变化。这里选择“Cloud Computing”和“云计算”分别作为世界和我国在云计算领域的指标性关键词,从分析结果可以看出以下几个特点(图3):①世界上对于云计算的关注开始于 2007 年,我国则自 2008 年才开始关注该领域。因此,我国仍属于学习—跟随型研究模式。②自 2007 年后,世界上关于“Cloud Computing”的搜索量出现迅速增长趋势,目前,已超过“Grid Computing”成为新的信息技术热点,我国对此的关注则较为平缓和滞后。③如果把搜索量代表的关注度看做是“海上的冰山”,那些“水下的部分”,包括基础理论、关键技术、应用实践等方面,国内外存在更大的差距。

图 3 国内外云计算搜索量变化趋势比较

3.2 国内云计算研究文献的计量分析

本文利用中国知网 CNKI 学术期刊数据库,检索 2000 年 1 月至 2012 年 3 月发表的有关云计算研究的核心期刊文献 852 篇(表 2)。我国对于云计算的研究始于 2007 年,之前罕见相关研究。2008 ~2011 年,云计算的研究开始引起广泛关注,论文数量开始急剧上升,同时发表云计算论文的期刊数量也同步快速增多,显示出云计算研究领域的广泛性。由于只统计到 2012 年 4 月的部分数据,从表面看检索到的 2012 年的成果不多,实际并未改变论文数量快速增加的趋势。

表 2 云计算论文发表时间分布表

对于检索到的 852 篇论文,对其关键词进行了计量分析,其中涉及关键词 1376 个,累计出现频次3020 次。按频次从大到小排列,排在前十位的关键词有:云计算(645)、虚拟化(115)、图书情报(115)、云服务(94)、安全(65)、存储(42)、物联网(33)、MapRece(24)、档案(20)、数据中心(13)等。从关键词分析可以看出,云计算的研究涉及基础理论、关键技术、应用领域、信息资源管理等诸多方面,对于虚拟化、存储、MapRece 等关键技术有较多论述;但整体来讲,多数仍为综述性、展望类的论文。就应用领域来讲,图书情报界对云计算进行研究和借鉴的趋势比较明显[7],而地质资料界对云计算的关注和应用研究仍较少。

4 云计算与地质资料服务

4.1 地质资料数据与服务现状

地质资料是国家重要的基础资料。新中国成立以来,通过实行地质资料统一汇交制度,积累了大量的地质资料。我国现有全国性基础地质与战略性矿产地质数据资源 12 大类 50 余种数据库,数据量达10TB 以上,涉及区域地质、矿产地质、水文—工程—环境地质、农业地质、海洋地质、基础地质、地球化学、地球物理、地学科研、地质资料、遥感等领域[8]

我国目前实行的是二级监管、三级保存的地质资料管理框架。由于条块分割等原因,地质资料的共享与服务尚存在很大差距,突出表现在数字化程度低,信息孤岛现象严重,地质资料不能及时、有效地满足国家建设与社会需求。

2002 年,国务院颁布了《地质资料管理条例》,2003 年,国土资源部发布了《地质资料管理条例实施办法》,地质资料的管理与共享服务得到了前所未有的重视。国土资源部又相继推动地质资料汇交、地质资料委托保管、地质资料集群化、产业化服务等,地质资料的管理与服务开始出现一个新的局面。由于管理与服务模式的转变是一个较长期的过程,地质资料工作的重要性仍未完全显现,社会对地质、矿产等的关注度仍远落后于“土地”“海洋”“气象”,仅稍高于“测绘”(图 4)。

4.2 云计算是改变地质资料服务模式的契机

从云计算的产生和发展过程来看,云计算是在继承和整合了虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理等多项关键技术的基础上,形成的具有高性能、可伸缩、低成本及面向服务的新的计算模式。云计算正在推动着信息产业实现社会化、集约化、专业化的大转型。

社会化:互联网计算正成为社会基础设施,建立集中的、各种各样的云计算中心实现规模化的社会服务,是当前发展的趋势。

图 4 地质等搜索量变化趋势比较

集约化:归并分散、粗放的软件开发与应用,软件模块构件化,提高平台利用率,使计算资源以虚拟化组织和配置、弹性伸缩,通过软件的重用和柔性重组,进行服务流程的优化与重构。

专业化:面向多租户使服务更为精细、规范,并对服务透明使用,按需租用[9]

地质资料服务及信息共享是一种典型的数据密集型计算服务,这恰与云计算模式的基本特点相符合。因此,引入云计算是推进地质资料信息服务集群化产业化的天然契机。从技术层面上来讲,国家地质资料数据中心建设十分重要,建议规划为提供完整 SPI(软件即服务 SaaS、平台即服务 PaaS、基础设施即服务 IaaS)服务的地质资料专业云,全面涵盖二级监管、三级保存及社会化服务,这种集中式的部署方式既降低了技术难度,也有利于提高投入和使用效率。其次,国家地质数据中心也可以规划为“逻辑统一、物理分布”的三级数据中心体系,这种社区云的部署方式符合我国地质资料行业现状,组织实施均较为简单。需要注意的是,无论哪种方式,统一的体系架构、成熟技术的采用、一致的标准和安全性都是需要重点考虑的问题。

5 结语

与网格计算相反,云计算更多地经历了从实践到理论的过程,从研究者关注云计算开始,其实已经大量出现云计算的实例。我国在云计算领域的基础研究仍然落后,但图书情报界对云计算的跟踪和应用却十分突出,一些基于知识的服务已经达到专业化和产业化服务水平。相信云计算模式的引入,将会极大地推动地质资料服务向集群化产业化方向转型,以更好地实现地质资料和成果的全社会共享。

参 考 文 献

[1] 维基网络.云计算.http://zh.wikipedia.org/wiki/ 云计算,2012.

[2]Peter Mell,Timothy Grance.The NIST Definition of Cloud Computing.NIST Special Publication 800 ~ 145,2011.

[3] 李德毅,林润华,郑纬民等.云计算技术发展报告 [M[.北京:科学出版社,2011.

[4] 杨春霞,王圣洁,王春民.谈计算模式的演变及其对海洋地质数据处理的影响 [J].海洋地质动态,2004,20(2):32 ~ 36.

[5]Fang Liu,Jin Tong,Jian Mao et al.NIST Cloud Computing Reference Architecture.NIST Special Publication 500 ~ 292,2011.

[6]Michael Armbrust,Armando Fox,Rean Griffith et al.Above the Clouds: A Berkeley View of Cloud Computing.http://www.eecs.berkeley.e/Pubs/TechRpts/2009/EECS-2009-28.pdf,2009.

[7] 张正禄.我国图书情报界云计算研究述评 [J].国家图书馆学刊,2010,(3):73 ~ 76.

[8] 国土资源部矿产资源储量司.推进地质资料信息服务集群化产业化 [M].北京:地质出版社,2011.

[9] 李德毅.云计算支撑信息服务社会化、集约化和专业化 [J].重庆邮电大学学报,2010,22(6):698 ~ 702.

『贰』 华为发布全球最快 AI 运算集群 Atlas900,会对 AI 领域带来什么变化

9月18日,华为发布一款重量级的产品——Atlas 900,这款产品汇聚了华为几十年的技术沉淀,是当前全球最快的AI训练集群,由数千颗升腾处理器组成。在衡量AI计算能力的金标准ResNet-50模型训练中,Atlas 900只用了59.8秒就完成了训练,这比原来的世界记录还快了10秒。

“ImageNet-1k 数据集” 包含 128 万张图片,精度为 75.9%,在同等精度下,其他两家业界主流厂家测试成绩分别是 70.2s 和 76.8s,Atlas 900 AI 训练集群比第 2 名快 15%。胡厚昆表示:Atlas 900 的强大算力,可广泛应用于科学研究和商业创新。比如天文探索、石油勘探等领域,都需要进行庞大的数据计算和处理,原来可能花费好几个月的工作,现在交给 Atlas 900,就是几秒钟的事情。Atlas 900 集成的数千颗升腾处理器,正是前段时间正式商用的升腾 910。

『叁』 怎么统计集群cpu利用率

能不能写一个脚本,每台电脑统计本地最高的10个进程,加电脑编号写入到某一台机子的某个公共文件里,最后一台机子根据这个文件统计出最终最高的10个进程.

『肆』 目前常用哪一性能衡量hpc集群浮点计算能力

高性能计算(High performance computing, 缩写HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计 算资源操作)的计算系统和环境。
有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如那些来自 InfiniBand 或 Myrinet 的网络互连。
基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率!

『伍』 常用哪一性能指标衡量hpc集群浮点计算能力

高性能计算(High performance computing, 缩写HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计 算资源操作)的计算系统和环境。
有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如那些来自 InfiniBand 或 Myrinet 的网络互连。
基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率

『陆』 HOIIFil与IPFS算力方舟两者有什么不同

Fellofil是技术输出算力方舟全面运营,分工不同两者合作共创双赢

『柒』 spark集群中每个节点都有一个独立数据库,可以实现分布式统计计算吗

[{icon:'extjs/examples/shared/icons/fam/cog_edit.png',//UseaURLintheiconconfigtooltip:'Edit',handler:function(grid,rowIndex,colIndex){varrec=grid.getStore().getAt(rowIndex);alert("Edit"+rec.get('firstname'));}},{icon:'extjs/examples/restful/images/delete.png',tooltip:'Delete',handler:function(grid,rowIndex,colIndex){varrec=grid.getStore().getAt(rowIndex);alert("Terminate"+rec.get('firstname'));}}]}],

『捌』 华为推出 AI 训练集群 Atlas 900,是“放手”5G 转战计算平台了吗

上海,初秋的疾风吹散夏日的闷热,落地崩裂的银杏给街道染上一丝浓烈的气息,一瞬间让人感觉像是到了北京。世博展馆的会议室里,华为副董事长胡厚昆和公司云计算以及 AI 平台负责人坐成一排,准备面对全球超过百家媒体记者的「拷问」。

过去 30 年,华为一直在做『联接』,接下来则是计算。」华为公司副董事长胡厚昆在发布会开始时宣布。近年来,机器学习复苏了「冬眠」的人工智能,同时将计算机,从规则计算进化到统计计算。之前的计算机是一个超级计算器,输入方程得到答案;现在的计算机要做的是通过海量数据,训练出机器感知,而在后者的时代,对算力提出了极为苛刻的要求,胡称之为「暴力计算」。计算离不开处理器,在中美贸易摩擦的大背景下,处理器的自主研发显得更重要。经过多年努力,华为旗下已经有鲲鹏、升腾、麒麟和鸿鹄分别针对通用计算、AI、智能终端和智慧屏四大系列产品。

『玖』 求集群管理的相关知识!

集群技术案例介绍和具体操作

集群技术案例介绍和具体操作
中国科学院西安网络中心 中科红旗linux培训认证中心
集群技术
1.1 什么是集群
简单的说,集群(cluster)就是一组计算机,它们作为一个整体向用户提
供一组网络资源。这些单个的计算机系统就是集群的节点(node)。一个理想的
集群是,用户从来不会意识到集群系统底层的节点,在他/她们看来,集群是一
个系统,而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群
系统的节点。
1.2 为什么需要集群
集群并不是一个全新的概念,其实早在七十年代计算机厂商和研究机构就
开始了对集群系统的研究和开发。由于主要用于科学工程计算,所以这些系统并
不为大家所熟知。直到Linux集群的出现,集群的概念才得以广为传播。
对集群的研究起源于集群系统良好的性能可扩展性(scalability)。提高CPU
主频和总线带宽是最初提供计算机性能的主要手段。但是这一手段对系统性能的
提供是有限的。接着人们通过增加CPU个数和内存容量来提高性能,于是出现了
向量机,对称多处理机(SMP)等。但是当CPU的个数超过某一阈值,象SMP这些
多处理机系统的可扩展性就变的极差。主要瓶颈在于CPU访问内存的带宽并不能
随着CPU个数的增加而有效增长。与SMP相反,集群系统的性能随着CPU个数的
增加几乎是线性变化的。图1显示了这中情况。
图1. 几种计算机系统的可扩展性
对于关键业务,停机通常是灾难性的。因为停机带来的损失也是巨大的。下
面的统计数字列举了不同类型企业应用系统停机所带来的损失。
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
应用系统每分钟损失(美元)
呼叫中心(Call Center) 27000
企业资源计划(ERP)系统13000
供应链管理(SCM)系统11000
电子商务(eCommerce)系统10000
客户服务(Customer Service Center)系统27000
图2:停机给企业带来的损失
随着企业越来越依赖于信息技术,由于系统停机而带来的损失也越拉越大。
集群系统的优点并不仅在于此。下面列举了集群系统的主要优点:
高可扩展性:如上所述。
高可用性:集群中的一个节点失效,它的任务可传递给其他节点。可以有效防止单点失效。
高性能:负载平衡集群允许系统同时接入更多的用户。
高性价比:可以采用廉价的符合工业标准的硬件构造高性能的系统。
2.1 集群系统的分类
虽然,根据集群系统的不同特征可以有多种分类方法,但是一般把集群系统分为两类:
(1)、高可用(High Availability)集群,简称HA集群。
这类集群致力于提供高度可靠的服务。就是利用集群系统的容错性对外提供7*24小时不间
断的服务,如高可用的文件服务器、数据库服务等关键应用。
目前已经有在Linux下的高可用集群,如Linux HA项目。
负载均衡集群:使任务可以在集群中尽可能平均地分摊不同的计算机进行处理,充分利
用集群的处理能力,提高对任务的处理效率。
在实际应用中这几种集群类型可能会混合使用,以提供更加高效稳定的服务。如在一个使
用的网络流量负载均衡集群中,就会包含高可用的网络文件系统、高可用的网络服务。
(2)、性能计算(High Perfermance Computing)集群,简称HPC集群,也称为科学计算
集群。
在这种集群上运行的是专门开发的并行应用程序,它可以把一个问题的数据分布到多
台的计算机上,利用这些计算机的共同资源来完成计算任务,从而可以解决单机不能胜任
的工作(如问题规模太大,单机计算速度太慢)。
这类集群致力于提供单个计算机所不能提供的强大的计算能力。如天气预报、石油勘探与油
藏模拟、分子模拟、生物计算等。这些应用通常在并行通讯环境MPI、PVM等中开发,由于MPI
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
是目前的标准,故现在多使用MPI为并行环境。
比较有名的集群Beowulf就是一种科学计算集群项目。
3、集群系统转发方式和调度算法
3.1转发方式
目前LVS主要有三种请求转发方式和八种调度算法。根据请求转发方式的不同,所构
架集群的网络拓扑、安装方式、性能表现也各不相同。用LVS主要可以架构三种形式的集群,
分别是LVS/NAT、LVS/TUN和LVS/DR,可以根据需要选择其中一种。
(1)、网络地址转换(LVS/NAT)
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
(2)、直接路由
(3)、IP隧道
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
三种转发方式的比较:
3.2、调度算法
在选定转发方式的情况下,采用哪种调度算法将决定整个负载均衡的性能表现,不同
的算法适用于不同的应用场合,有时可能需要针对特殊场合,自行设计调度算法。LVS的算
法是逐渐丰富起来的,最初LVS只提供4种调度算法,后来发展到以下八种:
1.轮叫调度(Round Robin)
调度器通过“轮叫”调度算法将外部请求按顺序轮流分配到集群中的真实服务器上,它均
等地对待每一台服务器,而不管服务器上实际的连接数和系统负载。
2.加权轮叫(Weighted Round Robin)
调度器通过“加权轮叫”调度算法根据真实服务器的不同处理能力来调度访问请求。这样
可以保证处理能力强的服务器能处理更多的访问流量。调度器可以自动询问真实服务器的
负载情况,并动态地调整其权值。
3.最少链接(Least Connections)
调度器通过“最少连接”调度算法动态地将网络请求调度到已建立的链接数最少的服务器
上。如果集群系统的真实服务器具有相近的系统性能,采用“最小连接”调度算法可以较
好地均衡负载。
4.加权最少链接(Weighted Least Connections)
在集群系统中的服务器性能差异较大的情况下,调度器采用“加权最少链接”调度算法优
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
化负载均衡性能,具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自
动询问真实服务器的负载情况,并动态地调整其权值。
5.基于局部性的最少链接(Locality-Based Least Connections)
“基于局部性的最少链接”调度算法是针对目标IP地址的负载均衡,目前主要用于Cache
集群系统。该算法根据请求的目标IP地址找出该目标IP地址最近使用的服务器,若该服务
器是可用的且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且
有服务器处于一半的工作负载,则用“最少链接”的原则选出一个可用的服务器,将请求
发送到该服务器。
6. 带复制的基于局部性最少链接( Locality-Based Least Connections with
Replication)
“带复制的基于局部性最少链接”调度算法也是针对目标IP地址的负载均衡,目前主要
用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标IP地址到一组服务
器的映射,而LBLC算法维护从一个目标IP地址到一台服务器的映射。该算法根据请求的目
标IP地址找出该目标IP地址对应的服务器组,按“最小连接”原则从服务器组中选出一
台服务器,若服务器没有超载,将请求发送到该服务器;若服务器超载,则按“最小连接
”原则从这个集群中选出一台服务器,将该服务器加入到服务器组中,将请求发送到该服
务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,
以降低复制的程度。
7.目标地址散列(Destination Hashing)
“目标地址散列”调度算法根据请求的目标IP地址,作为散列键(Hash Key)从静态分
配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,
否则返回空。
8.源地址散列(Source Hashing)
“源地址散列”调度算法根据请求的源IP地址,作为散列键(Hash Key)从静态分配的
散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则
返回空。
了解这些算法原理能够在特定的应用场合选择最适合的调度算法,从而尽可能地保持
Real Server的最佳利用性。当然也可以自行开发算法,不过这已超出本文范围,请参考有
关算法原理的资料。
4.1、什么是高可用性
计算机系统的可用性(availability)是通过系统的可靠性(reliability)和可维护性
(maintainability)来度量的。工程上通常用平均无故障时间(MTTF)来度量系统的可靠性,
用平均维修时间(MTTR)来度量系统的可维护性。于是可用性被定义为:
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
MTTF/(MTTF+MTTR)*100%
业界根据可用性把计算机系统分为如下几类:
可用比例
(Percent
Availability)
年停机时间
(downtime/year
)
可用性分类
99.5 3.7天
常规系统
(Conventional)
99.9 8.8小时可用系统(Available)
99.99 52.6分钟
高可用系统(Highly
Available)
99.999 5.3分钟Fault Resilient
99.9999 32秒Fault Tolerant
为了实现集群系统的高可用性,提高系统的高可性,需要在集群中建立冗余机制。一个功
能全面的集群机构如下图所示
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
负载均衡服务器的高可用性
为了屏蔽负载均衡服务器的失效,需要建立一个备份机。主服务器和备份机上都运行
High Availability监控程序,通过传送诸如“I am alive”这样的信息来监控对方的运
行状况。当备份机不能在一定的时间内收到这样的信息时,它就接管主服务器的服务IP并
继续提供服务;当备份管理器又从主管理器收到“I am alive”这样的信息是,它就释放
服务IP地址,这样的主管理器就开开始再次进行集群管理的工作了。为在住服务器失效的
情况下系统能正常工作,我们在主、备份机之间实现负载集群系统配置信息的同步与备份,
保持二者系统的基本一致。
HA的容错备援运作过程
自动侦测(Auto-Detect)阶段 由主机上的软件通过冗余侦测线,经由复杂的监听程序。逻
辑判断,来相互侦测对方运行的情况,所检查的项目有:
主机硬件(CPU和周边)
主机网络
主机操作系统
数据库引擎及其它应用程序
主机与磁盘阵列连线
为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔,
侦测次数以调整安全系数,并且由主机的冗余通信连线,将所汇集的讯息记录下来,以供
维护参考。
自动切换(Auto-Switch)阶段 某一主机如果确认对方故障,则正常主机除继续进行原来的
任务,还将依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及服
务。
自动恢复(Auto-Recovery)阶段 在正常主机代替故障主机工作后,故障主机可离线进行修
复工作。在故障主机修复后,透过冗余通讯线与原正常主机连线,自动切换回修复完成的
主机上。整个回复过程完成由EDI-HA自动完成,亦可依据预先配置,选择回复动作为半自
动或不回复。
4.2、HA三种工作方式:
(1)、主从方式 (非对称方式)
工作原理:主机工作,备机处于监控准备状况;当主机宕机时,备机接管主机的一切工作,
待主机恢复正常后,按使用者的设定以自动或手动方式将服务切换到主机上运行,数据的
一致性通过共享存储系统解决。
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
(2)、双机双工方式(互备互援)
工作原理:两台主机同时运行各自的服务工作且相互监测情况,当任一台主机宕机时,另
一台主机立即接管它的一切工作,保证工作实时,应用服务系统的关键数据存放在共享存
储系统中。
(3)、集群工作方式(多服务器互备方式)
工作原理:多台主机一起工作,各自运行一个或几个服务,各为服务定义一个或多个备用
主机,当某个主机故障时,运行在其上的服务就可以被其它主机接管。
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
相关文档
http://tech.sina.com.cn/it/2004-04-09/1505346805.shtml
http://stonesoup.esd.ornl.gov
LINUX下的集群实列应用
最近有客户需要一个负载均衡方案,笔者对各种软硬件的负载均衡方案进行了调查和
比较,从IBM sServer Cluster、Sun Cluster PlatForm 等硬件集群,到中软、红旗、
TurboLinux的软件集群,发现无论采用哪个厂商的负载均衡产品其价格都是该客户目前所
不能接受的。于是笔者想到了开放源项目Linux Virtual Server(简称LVS)。经过对LVS的研
究和实验,终于在Red Hat 9.0上用LVS成功地构架了一组负载均衡的集群系统。整个实
现过程整理收录如下,供读者参考。
选用的LVS实际上是一种Linux操作系统上基于IP层的负载均衡调度技术,它在操
作系统核心层上,将来自IP层的TCP/UDP请求均衡地转移到不同的服务器,从而将一组
服务器构成一个高性能、高可用的虚拟服务器。使用三台机器就可以用LVS实现最简单的集
群,如图1所示。
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
图1 LVS实现集群系统结构简图
图1显示一台名为Director的机器在集群前端做负载分配工作;后端两台机器称之为
Real Server,专门负责处理Director分配来的外界请求。该集群的核心是前端的Director
机器,LVS就是安装在这台机器上,它必须安装Linux。Real Server则要根据其选用的负
载分配方式而定,通常Real Server上的设置比较少。接下来介绍Director机器上LVS的
安装过程。
安装
LVS的安装主要是在Director机器上进行,Real Server只需针对不同的转发方式做简单
的设定即可。特别是对LVS的NAT方式,Real Server惟一要做的就是设一下缺省的网关。
所以构架集群的第一步从安装Director机器开始。
首先,要在Director机器上安装一个Linux操作系统。虽然早期的一些Red Hat版本,
如6.2、7.2、8.0等自带Red Hat自己的集群软件,或者是在内核中已经支持LVS,但是为
了更清楚地了解LVS的机制,笔者还是选择自行将LVS编入Linux内核的方式进行安装,
Linux版本采用Red Hat 9.0。
如果用户对Red Hat的安装比较了解,可以选择定制安装,并只安装必要的软件包。
安装中请选择GRUB 做为启动引导管理软件。因为GRUB 在系统引导方面的功能远比
LILO强大,在编译Linux内核时可以体会它的方便之处。
LVS是在Linux内核中实现的,所以要对原有的Linux内核打上支持LVS的内核补丁,
然后重新编译内核。支持LVS 的内核补丁可以从LVS 的官方网
http://www.linuxvirtualserver.org 下载,下载时请注意使用的Linux核心版本,必须下载和
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
使用的Linux内核版本相一致的LVS内核补丁才行。对于Red Hat 9.0,其Linux内核版本
是2.4.20,所以对应内核补丁应该是http://www.linuxvirtualserver.org/software/kernel-
2.4/linux-2.4.20-ipvs-1.0.9.patch.gz。笔者经过多次实验,使用Red Hat 9.0自带的Linux
源代码无法成功编译LVS 的相关模组。由于时间关系笔者没有仔细研究,而是另外从
kernel.org上下载了一个tar包格式的2.4.20内核来进行安装,顺利完成所有编译。下面是
整个内核的编译过程:
1.删除Red Hat自带的Linux源代码
# cd /usr/src
# rm -rf linux*
2.下载2.4.20内核
# cd /usr/src
# wget ftp://ftp.kernel.org/pub/linux/kernel/v2.4/linux-2.4.20.tar.bz2
3.解压到当前目录/usr/src
# cd /usr/src
# tar -xjpvf linux-2.4.20.tar.bz2
4.建立链接文件
# cd /usr/src # ln -s linux-2.4.20 linux-2.4 # ln -s linux-2.4.20 linux
5.打上LVS的内核补丁
# cd /usr/src
#wget http://www.linuxvirtualserver.org/software/kernel-2.4/linux-2.4.20-ipvs-
1.0.9.patch.gz
# gzip -cd linux-2.4.20-ipvs-1.0.9.patch.gz
# cd /usr/src/linux
# patch -p1 < ../linux-2.4.20-ipvs-1.0.9.patch
在打补丁时,注意命令执行后的信息,不能有任何错误信息,否则核心或模组很可能
无法成功编译。
6.打上修正ARP问题的内核补丁
# cd /usr/src
# wget http://www.ssi.bg/~ja/hidden-2.4.20pre10-1.diff
# cd /usr/src/linux
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
# patch -p1 < ../hidden-2.4.20pre10-1.diff
这一步在Director机器上可以不做,但是在使用LVS/TUN和LVS/DR方式的Real Server
上必须做。
7.为新核心命名
打开/usr/src/linux/Makefile。注意,在开始部分有一个变量EXTRAVERSION可以自行定
义。修改这个变量,比如改成“EXTRAVERSION=-LVS”后,编译出的核心版本号就会显
示成2.4.20-LVS。这样给出有含义的名称将有助于管理多个Linux核心。
8.检查源代码
# make mrproper
这一步是为确保源代码目录下没有不正确的.o文件及文件的互相依赖。因为是新下载的内
核,所以在第一次编译时,这一步实际可以省略。
9.配置核心选项
# make menuconfig
命令执行后会进入一个图形化的配置界面,可以通过这个友好的图形界面对内核进行定制。
此过程中,要注意对硬件驱动的选择。Linux支持丰富的硬件,但对于服务器而言,用不到
的硬件驱动都可以删除。另外,像Multimedia devices、Sound、Bluetooth support、Amateur
Radio support等项也可以删除。
注意,以下几项配置对LVS非常重要,请确保作出正确的选择:
(1)Code maturity level options项
对此项只有以下一个子选项,请选中为*,即编译到内核中去。
Prompt for development and/or incomplete code/drivers
(2)Networking options项
对此项的选择可以参考以下的配置,如果不清楚含义可以查看帮助:
<*> Packet socket
[ ] Packet socket: mmapped IO
< > Netlink device emulation
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
Network packet filtering (replaces ipchains)
[ ] Network packet filtering debugging
Socket Filtering
<*> Unix domain sockets
TCP/IP networking
IP: multicasting
IP: advanced router
IP: policy routing
[ ] IP: use netfilter MARK value as routing key
[ ] IP: fast network address translation
<M> IP: tunneling
IP: broadcast GRE over IP
[ ] IP: multicast routing
[ ] IP: ARP daemon support (EXPERIMENTAL)
[ ] IP: TCP Explicit Congestion Notification support
[ ] IP: TCP syncookie support (disabled per default)
IP: Netfilter Configuration --->
IP: Virtual Server Configuration --->
(3)Networking options项中的IP: Virtual Server Configuration项
如果打好了LVS的内核补丁,就会出现此选项。进入Virtual Server Configuration选项,
有以下子选项:
<M> virtual server support (EXPERIMENTAL)
IP virtual server debugging
(12) IPVS connection table size (the Nth power of 2)
--- IPVS scheler
<M> round-robin scheling
<M> weighted round-robin scheling
<M> least-connection scheling scheling
<M> weighted least-connection scheling
<M> locality-based least-connection scheling
<M> locality-based least-connection with replication scheling
<M> destination hashing scheling
<M> source hashing scheling
<M> shortest expected delay scheling
<M> never queue scheling
--- IPVS application helper
<M> FTP protocol helper
以上所有项建议全部选择。
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
(4)Networking options项中的IP: Netfilter Configuration项
对于2.4版本以上的Linux Kernel来说,iptables是取代早期ipfwadm和ipchains的
更好选择,所以除非有特殊情况需要用到对ipchains和ipfwadm的支持,否则就不要选它。
本文在LVS/NAT方式中,使用的就是iptables,故这里不选择对ipchains和ipfwadm的
支持:
< > ipchains (2.2-style) support
< > ipfwadm (2.0-style) support
10. 编译内核
(1)检查依赖关系
# make dep
确保关键文件在正确的路径上。
(2)清除中间文件
# make clean
确保所有文件都处于最新的版本状态下。
(3)编译新核心
# make bzImage
(4)编译模组
# make moles
编译选择的模组。
(5)安装模组
# make moles_install
# depmod -a
生成模组间的依赖关系,以便modprobe定位。
(6)使用新模组
# cp System.map /boot/System.map-2.4.20-LVS
# rm /boot/System.map
# ln -s /boot/System.map-2.4.20-LVS /boot/System.map
# cp arch/i386/boot/bzImage /boot/vmlinuz-2.4.20-LVS
# rm /boot/vmlinuz
# ln -s /boot/vmlinuz-2.4.20-LVS /boot/vmlinuz
# new-kernel-pkg --install --mkinitrd --depmod 2.4.20-LVS
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
(7)修改GRUB,以新的核心启动
执行完new-kernel-pkg命令后,GRUB的设置文件/etc/grub.conf中已经增加了新核心的
启动项,这正是开始安装Linux时推荐使用GRUB做引导程序的原因。
grub.conf中新增内容如下:
title Red Hat Linux (2.4.20-LVS)
root (hd0,0)
kernel /boot/vmlinuz-2.4.20LVS ro root=LABEL=/
initrd /boot/initrd-2.4.20LVS.img
将Kernel项中的root=LABEL=/改成 root=/dev/sda1 (这里的/dev/sda1是笔者Linux的根
分区,读者可根据自己的情况进行不同设置)。
保存修改后,重新启动系统:
# reboot
系统启动后,在GRUB的界面上会出现Red Hat Linux(2.4.20-LVS)项。这就是刚才编译的
支持LVS的新核心,选择此项启动,看看启动过程是否有错误发生。如果正常启动,ipvs
将作为模块加载。同时应该注意到,用LVS的内核启动后在/proc目录中新增了一些文件,
比如/proc/sys/net/ipv4/vs/*。
11.安装IP虚拟服务器软件ipvsadm
用支持LVS的内核启动后,即可安装IP虚拟服务器软件ipvsadm了。用户可以用tar包或
RPM 包安装,tar 包可以从以下地址http://www.linuxvirtualserver.org/software/kernel-
2.4/ipvsadm-1.21.tar.gz 下载进行安装。
这里采用源RPM包来进行安装:
# wget http://www.linuxvirtualserver.org/software/kernel-2.4/ipvsadm-1.21-7.src.rpm
# rpmbuild --rebuild ipvsadm-1.21-7.src.rpm
# rpm -ivh /usr/src/redhat/RPMS/i386/ipvsadm-1.21-7.i386.rpm
注意:高版本的rpm命令去掉了--rebuild这个参数选项,但提供了一个rpmbuild命令来实
现它。这一点和以前在Red Hat 6.2中以rpm—rebuild XXX.src.rpm来安装源RPM包的习
惯做法有所不同。
安装完,执行ipvsadm命令,应该有类似如下的信息出现:
# ipvsadm
中科红旗linux技术支持服务中心---西安站 http://linux.xab.ac.cn
中国科学院西安网络中心 中科红旗linux培训认证中心
IP Virtual Server version 1.0.9 (size=4096)
Prot LocalAddress:Port Scheler Flags
-> RemoteAddress:Port Forward Weight ActiveConn InActConn
出现类似以上信息,表明支持LVS 的内核和配置工具ipvsadm 已完全安装,这台
Director机器已经初步安装完成,已具备构架各种方式的集群的条件。
实例
理解了上述关于请求转发方式和调度算法的基本概念后,就可以运用LVS来具体实现
几种不同方式的负载均衡的集群系统。LVS的配置是通过前面所安装的IP虚拟服务器软件
ipvsadm来实现的。ipvsadm与LVS的关系类似于iptables和NetFilter的关系,前者只是
一个建立和修改规则的工具,这些命令的作用在系统重新启动后就消失了,所以应该将这
些命令写到一个脚本里,然后让它在系统启动后自动执行。网上有不少配置LVS的工具,
有的甚至可以自动生成脚本。但是自己手工编写有助于更深入地了解,所以本文的安装没
有利用其它第三方提供的脚本,而是纯粹使用ipvsadm命令来配置。
下面就介绍一下如何配置LVS/NAT、LVS/TUN、LVS/DR方式的负载均衡集群。
1.设定LVS/NAT方式的负载均衡集群
NAT是指Network Address Translation,它的转发流程是:Director机器收到外界请求,
改写数据包的目标地址,按相应的调度算法将其发送到相应Real Server上,Real Server
处理完该请求后,将结果数据包返回到其默认网关,即Director机器上,Dire

『拾』 华为发布全球最快AI运算集群Atlas900,会对AI领域带来什么变化

9月18日,上海,第四届华为全联接大会开幕,华为首次发布计算战略,基于架构创新、投资全场景处理器族、有所为有所不为的商业策略、构建开放生态进行布局,计算产业新的大航海时代由此开启。同时,华为重磅发布了全球最快AI训练集群Atlas 900,加速科学研究与商业创新的智能化进程。

在计算的智能时代,我们认为有三个重要特征。

第一个特征,需要超强的算力。统计计算本身就是一种暴力计算,高度依赖于算力。举个例子,为了让计算机认识一只猫,就需要数百万图片的训练,这对算力的消耗是非常惊人的,面向自动驾驶、天文探索、气象预测等更复杂场景,对算力的需求将会更大。

第二个特征,计算和智能将会无处不在,而不仅仅是分布在中心侧。从中心节点的暴力计算,到边缘侧的专业计算,如基因测序,以及端侧的个性计算,如耳机、手机,一起构成了未来智能时代的计算形态。

第三个特征,端边云之间需要高效的协同。中心侧负责通用模型的计算,为端侧的个性化计算和边缘侧的专业化计算,提供协同支撑。

热点内容
收到假eth币 发布:2025-10-20 08:58:16 浏览:973
暗黑破坏神2eth打孔 发布:2025-10-20 08:42:58 浏览:105
BTC和CBT是一样的吗 发布:2025-10-20 08:42:57 浏览:233
华硕trx40Pro供电 发布:2025-10-20 08:33:26 浏览:432
晒人民币编号的朋友圈 发布:2025-10-20 08:25:32 浏览:687
doge格式 发布:2025-10-20 08:02:00 浏览:382
以太坊会爆发吗 发布:2025-10-20 08:01:59 浏览:772
一台比特币矿机的功率 发布:2025-10-20 07:39:24 浏览:925
trx辅助带 发布:2025-10-20 07:35:29 浏览:48
比特币哈希值有多少位 发布:2025-10-20 07:31:20 浏览:633