云计算运维

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

云计算原理与实践PrinciplesandPracticeofCloudComputingOutline•11.1云服务环境的监控•11.2云监控解决方案•11.3智能运维•11.4实例:智能运维在大视频运维中的应用DataScienceMachineLearningDomainexpertiseMathematicsDataengineering11.1云服务环境的监控11.1.1云监控概述11.1.2云监控特性11.1.3云监控需求11.1.4云计算的推动力11.1.5关键技术11.1.1云监控概述•云平台将众多的物理资源及虚拟资源进行整合并通过虚拟化技术实现服务量的动态伸缩将服务按需提供给用户。•监控作为云平台中云服务稳定性支持方面一个重要的角色,它能为云平台中的资源调度、故障检测及分析预测等提供强有力的支持,对云平台中云服务质量的提高有着非常重要的作用。•典型的云计算场景由基础设施提供商(InP)、服务提供商(SP)和客户组成,InP负责提供可由SP租用的虚拟资源(例如,计算、存储、网络等资源),SP则将客户的需求考虑在内,并为客户提供相应的服务应用来满足这些需求。11.1.1云监控特性可扩展性(Scalability):可扩展性是指可通过增加计算资源来提高系统性能的能力。弹性(Elasticity):弹性是根据特定应用程序或系统的目标,按需增加或减少计算资源的能力。可迁移性(Migration):可迁移性体现了系统可根据特定应用程序或系统的目标来改变计算资源位置的能力。11.1.2云监控特性•除此之外,云监控系统还必须能够适应云计算环境的动态性和复杂性。基于以上特性的要求,云监控系统具备功能的总结如下:准确性:准确性是指监测系统测量能力的准确程度。自治性:在云计算环境中,动态是一个关键因素,因为各种变化是非常激烈和频繁的。自治性是监控系统自行管理其配置以保持自身在动态环境中工作的能力。全面性:监控系统需要具备支持多种资源的监控和数据收集的能力。因此,监控系统必须能够从不同类型的资源、多种类型的监控数据以及大量的用户中获取更新状态。11.1.3云监控需求•对云平台的监控一般有如下的要求:能从负载、CPU、内存、存储和网络等几个方面对物理节点进行监控;可对云平台中所有物理节点按集群分组并进行监控;可对监控得到的数据进行完整地持久保存,以便系统管理员查询及分析,为针对一些常见问题提出解决方案提供历史数据支持;监控系统在发现云平台出现故障时,能及时判断故障的等级并在管理界面提示管理员或发出告警信息通知管理员;11.1.3云监控需求对操作系统中特定进程的流量进行监控,确保云平台中网络的通畅;将所监控的信息采用图形化的形式形象直观地向系统管理员展示,便于管理员分析系统状态的未来趋势;云平台的资源具有动态性,资源的分布也十分广泛。用户需要根据实际情况对监控的节点和资源进行配置。因此,云平台监控系统应具有良好的扩展性,能对新加入云平台的资源节点进行有效监控,并在主机节点有新的监控需求时能及时实现。11.1.3云监控需求图11.1监控系统管理员管理系统的用例图监控系统1.基本功能需求(1)物理服务器监控(2)物理节点上虚拟机资源监控(3)对操作系统中特定进程的流量监控(4)对云中的各类网络服务的监控监控系统1.基本功能需求(1)物理服务器监控(2)物理节点上虚拟机资源监控(3)对操作系统中特定进程的流量监控(4)对云中的各类网络服务的监控监控系统2.性能需求(1)可扩展性:云平台中的资源具有动态性,当云平台中的虚拟节点发生动态变化时,监控系统能适应这种变化,继续保持稳定的运行状态。(2)高可靠性:可靠性高的系统,运行稳定,不易造成监控信息的异常丢失。监控系统3.数据处理需求(1)数据完整持久存储:监控系统应该具有将监控数据持久存储在数据库中的功能,以便管理员对历史监控数据进行查看与分析。(2)Web页面监控数据图形化显示:监控系统需要为管理员提供一个清晰明了的图形化监控数据,以便管理员查看监控信息并分析云平台未来的走势,及时发现平台潜在的问题,尽可能地降低对用户造成的影响。监控系统4.故障管理需求•云平台正常运行需要有明确的告警机制,能在云平台出现故障时准确地诊断故障的级别并及时地向管理员通知告警消息。•故障管理不仅仅包括个人主机操作不规范的监控告知,还应包括对服务器运行状态不良的诊断和提示,监控系统需要对告警通知消息、告警联系人、告警级别等进行灵活配置,并将告警通知信息写入日志。•故障诊断的规则采用当收集到监控数据时,利用故障诊断则对故障进行等级评定,如果达到故障标准则系统自动发送告警通知系统管理人员。11.1.4云监控结构•一般地,不同的云服务的服务模型是不同的,它们由不同类型的资源组成。对云资源的高效管理取决于对其结构的全面监控。为了提供全面的监控,一般将云监控的结构划分为三大组件:云模型、监控视图和监控焦点。1云模型•云模型由软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)三部分组成:软件即服务(SaaS),该服务在向客户提供应用程序服务时体现;平台即服务(PaaS),这一服务在向SPs提供一个平台时体现,在这个平台上用户可以部署应用程序服务,InP控制底层资源的分配,SP只需提供应用程序服务;基础设施即服务(IaaS)在向SP提供访问虚拟机服务体现,SP可以安装自己的平台和应用程序。2监视视图3监控焦点•云监控解决方案的主要目标是根据它们的云模型来定义的,可以根据不同的云模型讨论具体目标:(1)在IaaS中,云资源是在物理硬件之上创建的,通常使用虚拟化技术来实现。(2)PaaS由编程环境和运行环境组成。(3)在SaaS服务的模式下,其多样性必定会不断地增长。为了应对SaaS的多样性,云监控系统需要具备非同寻常的能力,既需要应对异构的API,还需要应对不同层面的监控。为此,SP和客户需要定义了SLA来规范两者之间的服务协议。11.1.5关键技术1.SNMP协议•简单网络管理协议(SimpleNetworkManagementProtocol,SNMP)是一种简单网络管理协议,属于TCP/IP五层协议中的应用层协议,主要用于管理网络设备。•SNMP协议主要由两大部分构成:SNMP管理站和SNMP代理。•SNMP管理站和SNMP代理之间是松散耦合,它们之间的通信是通过UDP协议完成的。•SNMP的基本思想:为不同种类、不同生产厂家以及不同型号的设备,定义一个统一的接口和协议,使得管理员可以通过统一的外观对这些网络设备进行管理。11.1.5关键技术1.SNMP协议图11.4SNMP的工作方式11.1.5关键技术2.代理监控技术•代理指的是在被监控主机上安装的一个或多个监控代理程序。代理程序主要用于被监控主机的状态或服务信息的收集,收集到的数据后再发送给主监控机。一般地,按被监控主机上是否部署监控代理将监控分为两种方式:无代理的监控和基于代理的监控。•无代理监控是主监控机来完成监控请求及状态的监测。•基于代理的监控方式,监控请求的完成既可通过主监控机也可通过代理程序本身,但只能由代理程序完成监控对象状态的检测,并在检测完成后将结果上报给主监控机。11.1.5关键技术3.主动监控与被动监控描述优点缺点主动监控模式主监控机按检测周期主动地获取被监控端的数据。主要是由主监控机端向被监控端发送监控请求,被监控端监控代理采集数据后再反馈给主监控端实时性较好使用这种方式,需要主监控机主动收集被监控端的性能参数,开销较大被动监控模式被监控端主动发送数据到主监控机。被监控端监控代理按已经配置好的设置采集本地数据,并将数据处理完后主动发送给主监控机。主监控机只需要被动接收数据,再进行下一步处理使用这种方式,处理数据的其他工作基本都由被监控机完成(包括数据的传输),从而避免了因被监控主机数量太大而造成的过长的轮询时间而引发的监控反应延迟的问题实时性较差11.2云监控解决方案11.2.1云监控的通用技术11.2.2容器的监控11.2.1云监控的通用技术类别描述通用解决方案通用的解决方案用于监控通用的传统计算机系统,并不考虑系统有关的具体特征,这类监控方案包括:Cati,Zabbix、Nagios等,可以提供对计算机系统的基础信息的监控,如内存、CPU、网络和存储等的基本使用情况,并提供对监控信息的可视化展示功能。它们也可以用于监控云环境中的计算机的基本状态信息。但Cati、Zabbix、Nagios并非专门针对云监控的需求和特性而设计,如在云的弹性、自治性方面的监控信息的收集方面就相对较弱集群和网格解决方案这类监控方案用于监控集群和网格系统,针对集群系统的监控方案有PARMON和RVision等,针对网格系统的监控系统则有GridEye和Ganglia等。集群和网格解决方案与云监控解决方案的监控焦点有很大程度上的重合,例如,云环境中的集群也是由多台机器连接而组成的一个网络,然而,在云环境中的集群要比普通的集群在SLA的关注度上要高得多。在云环境中,对集群的监控在可视化方面的要求要比普通的集群监控的要求高得多云监控解决方案完全为云环境而设计的监控方案,如Amazon的CloudWatch,它能够收集如CPU、内存、网络和存储等基本的监控指标。同时,它还能够监控整个云环境的一些自配置信息。类似的解决方案还有Accelops、Copperegg、Zennoss、Monitis和RackspaceCloudMonitoring等1Nagios•Nagios具备的功能如下:监控网络服务(SMTP、POP3、HTTP、NNTP和PING等);监控主机资源(处理器负荷和磁盘利用率等);简单的插件设计使得用户可以方便地扩展自己服务的检测方法;并行服务检查机制;定义网络分层结构的能力,用parent主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;当服务或主机问题产生与解决时将相关信息发送给联系人(通过E-Mail、短信或用户定义等方式);可定义一些处理程序,使之能够预防服务或主机发生故障;自动的日志滚动功能;可以支持并实现对主机的冗余监控;可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等。2Cacti•Cacti是一套基于PHP、MySQL、SNMP及RRDtool开发的网络流量监测图形分析工具。•它通过使用SNMP协议获取远端网络设备和相关信息(其实就是使用Net-SNMP软件包的snmpget和snmpwalk命令获取),并使用RRDtool工具绘图,再通过PHP程序展现出来。•Cacti可通过snmpget来获取数据,使用RRDtool绘画图形,而且用户可以完全不需要了解RRDtool复杂的参数。3Zabbix•Zabbix是一个基于Web界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。•Zabbix能监视各种网络参数,保证服务器系统的安全运营,还提供的通知机制可以令系统管理员快速定位并解决存在的各种问题。•Zabbix由两部分构成,Zabbixserver与可选组件Zabbixagent。•Zabbixserver可以通过SNMP、Zabbixagent、ping和端口监视等方法提供对远程服务器/网络状态的监视和数据收集等功能,并且,它可以运行在Linux、Solaris、HP-UX、AIX、FreeBSD、OpenBSD和OSX等平台上。4Ntop•Ntop主要包含以下功能:自动地从网络中识别有用的信息;将截获的数据包转换成易于识别的格式;对网络环境中通信失败的情况进行分析;探测网络通信的时间和过程。5Ganglia•Ganglia系统基本包含以下三大部分。Gmond:它运行在每台计算机上,主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。Gmetad:它运行在Cluster的一台主机上,作为WebServer,或者用于与WebServer进行沟通。GangliaWeb前端

1 / 69
下载文档,编辑使用

©2015-2020 m.111doc.com 三一刀客.

备案号:赣ICP备18015867号-1 客服联系 QQ:2149211541

×
保存成功