致繁至简-极远及近-7x24小时数据中心在线运维PDF版

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

7*24小时数据中心在线运维和运营大数据分析北京并行科技有限公司•陈健现任北京并行科技有限公司CEO。并行科技()是专业高性能计算数据中心服务商。•2005-2010年在英特尔中国历任高性能计算架构师、资深性能优化工程师,负责中国大型HPC及前沿HPC项目系统架构设计、HPC系统的优化及高性能计算技术推广,研究方向为高性能计算机系统架构、并行计算、应用软件及系统调优。在2008年参与完成了中科院超算中心100万亿次超级计算机的设计,并最终实现实测性能超过100万亿次,全球排第19名、中国Top100第二名。于2007年完成胜利油田高性能计算机的性能优化设计,实现实测性能18.6万亿次,2007年中国排名第一。•2002-2005年在联想集团高性能服务器事业部工作,作为方案负责人参与了联想深腾万亿次、四万亿次超级计算机的研制。•2002年毕业于清华大学工程力学系,获流体力学博士学位,期间在荷兰TUDelft大学做访问学者一年,参与了荷兰国家计算中心SGI万亿次超级计算机的研制和测试ParaPlus全方位HPC服务增值服务使用培训系统交接系统架构设计应用运行特征分析软硬件产品选型应用测试系统平台测试验收系统平台实施搭建在线运维售前售中售后7*24小时数据中心在线运维介绍传统运维服务现状:中国存在大量的中小数据中心,缺少专业的运维团队,缺少专业数据中心管理软件,面对越来越复杂的系统,急待解决日益复杂的管理问题现有解决方案:购买运维软件、雇佣高级管理员、购买驻场、巡检、上门运维服务等创新7*24小时在线运维将现场运维服务转变为通过互联网的数据中心在线运维减少购买运维软件减少专业管理员的压力减少购买上门运维服务某信息中心服务器状态并行科技在线运维监控中心上线OITS在线运维让超算中心运营更高效,让研究人员更专注用户端用户自助全自动部署后台数据采集模块,CPU消耗低于0.1%,4KB/s数据流量,防火墙打开数据传输端口,只对并行科技IP开放特定端口云端1-Paramon数据中心实时可视化,程序自动分析值守2-ParaAlarm手机App对管理员,系统维护实现无人值守,只需要处理报警事件,由管理员、厂商或者并行科技远程主动修复故障,让用户体验稳定、可靠、好用的超算环境对用户,实时报告作业运行情况,作业异常推送报警事件,作业结束推送消息(开发中)3-ParaPortal历史数据分析4-ParaReport自动周报、月报、年报5-ParaDashboard数据中心运营看板,可自定义,从底层数据直接生成,提供准确数据供领导决策6-Paratune基于秒级历史数据的故障和性能分析,快速发现并定位系统运行故障和瓶颈7-IntelSoftware系统级、代码级优化,高效利用Intel软件提升系统软硬件整体运行效率Paramon软件目前采集的数据基本性能数据模块系统级性能数据CPUUSED%利用率CPUSYS%利用率Memory%利用率SWAP%利用率EthernetSend速率EthernetRecv速率DiskRead速率DiskWrite速率微架构级性能数据Gflops浮点计算性能MemoryBandWidth速率CPI,代码执行效率VEC%,向量化比例GIPS,每秒执行指令总数LLCM%,LastLevelCacheMISS百分比机群管理模块远程登录管理远程操作管理批量节点远程关机/重启批量节点清除SWAP自定义节点操作进程管理并行命令管理机器数据系统硬件配置数据系统软件配置数据系统日志用户信息数据作业数据License数据扩展模块网络模块InfiniBand网络收发速率文件系统模块NFS读写速率IO统计模块tps,await,util%GPU管理模块NVIDIAGPU%MIC数据IntelXeonPhiMIC%CPI/VPU能耗数据节点POWER%利用率进程数据独立于硬件平台,支持上千节点混合机群在线运维手机版专业的运维报告(周报、月报、年报)丰富灵活的报表提供ParaPortal网站服务,通过独有用户名及登录密码,自主查询机群运行的历史数据信息,生成精美的统计分析报告,为科学决策提供依据机群体检定期或在运行大作业前为机群进行健康体检,筛除问题节点,避免问题节点成为瓶颈影响机群的整体运行效率应用程序优化针对用户应用程序,利用Paratune提供详细分析建议,辅助用户提高程序性能及解决系统性能瓶颈用户收益通过并行科技的7*24小时监控中心实时查看大量数据中心的运行情况,补充用户晚上和周末监控人员的不足,为用户实现全天候的保驾护航变被动响应为远程主动发现问题,并有实时历史数据可以查看、分析,在得到用户授权的情况下可以主动修复故障,将服务响应时间极大幅度的减少长时间的在线运维监控可以自动生成周报、月报、年报等统计分析报表,满足用户对数据中心的宏观把控提供最终用户关心的业务运行和资源使用统计报告提供领导关心的HPC数据中心运营看板数据中心海量应用特征库运营大数据分析、挖掘、可视化7*24小时数据中心在线运维DEMO

1 / 22
下载文档,编辑使用

©2015-2020 m.111doc.com 三一刀客.

备案号:赣ICP备18015867号-1 客服联系 QQ:2149211541

×
保存成功