网管系统功能分析
1. 网强网络管理系统简介
网强网络管理系统(简称:Netmaster )是针对解决各行业中、大型企事业单位,目前在IT 管理过程中所面临的3个挑战以及所需要克服的1个矛盾(即内、外部客户满意度、成本控制与系统安全之间的挑战;IT 系统日益增长的复杂性与运维人数、专业知识结构之间的矛盾)的第五代专家智能型综合网管系统。
1.1系统简介
Netmaster 涵盖了网络管理、服务器管理、数据库管理、中间件管理、通讯管理、安全管理、机房环境管理及运维管理等,它结合了大型定制型网管以用户的管理要求为导向以及第三代网管的简单易用这两方面的特点,并以非编程扩展的方法,满足了用户不断增加的IT 资源管理的要求。同时系统能兼容整合第三代网管和其它工具,专注于企业用户各种设备、应用及服务等资源的健康度、可用率和服务水平的管理,保证IT 部门用户的满意度,同时通过智能专家模型解决了用户日益复杂的IT 资源与运维人员数量不足、专业知识结构之间的矛盾,并将各种复杂的网络管理工作简易化、便捷化与自动化,有效帮助网络管理人员轻松驾驭网络,提高网络管理效率与水平。
1.2系统背景
随着计算机技术和Internet 的发展以及各行各业信息化的普及与应用,各行业开始大规模的建立网络来推动电子商务和政务的发展,不论是政府、金融、教育、医疗等单位都逐渐将核心业务移值到电子化和网络上。而这些行业用户比以前任何时候都更加依赖于网络、IT 基础设施以及应用系统来满足其核心业务需要。故此,网络管理与维护对企业的发展也就变得至关重要。而在企业网络管理这程中仍存在一些困难与问题,不仅影响了网络管理效率的提高,同时还妨碍了企业的发展:缺少智能分析过滤与自动化处理,导致故障告警泛滥,无法准确定位故障根源;运维人员数量与技术能力有限,面对大量告警堆砌,故障无法及时恢复和解决·网络规模庞大、设备分散,没有规范性的分级管理,运维效率低下及流程混乱;IP 地址分配与使用不明,员工随意更改IP 地址,造成IP 使用冲突及网络异常;无法实时了解与监控集中在机房的网络设备,大大拖延了设备故障恢复的时间;网络环境复杂化与分散化,无法做到集中监控以及实时掌握网络整体运行情况;对IT 资源的配置、分布以及性能缺乏了解,造成IT 管理与投资方面的盲目性;传统IT 管理工具相互不能兼容,造成信息孤岛,网络扩展与升级难、成本高。
1.3系统架构
系统要求全部采用JA V A 结构开发,能在Windows ,Linux ,Unix 不同平台下顺利移植。可以应用户要求提供Windows 、Unix 或Linux 版本。全中文界面,软件代码完全由国内开发。采用先进且成熟的MVC 模式,三层架构,显示层、逻辑层和业务逻辑层完全分离。分布式架构:数据库、采集平台和Web 服务三个部分可以分布在任意的三台服务器上。系统采用三层管理平台,三层体系架构为:展示层、业务层、采集层。
2. 网强网络管理系统主要功能介绍
2.1功能优势
(1)智能化故障管理
网强网络管理系统智能化故障管理功能建立了及时响应的资源预警、告警机制。系统通过告警敏感度、告警合并、告警过滤以及异常依赖、根源分析等多种高端技术手段,能够避免大量的无谓重复告警信息,防止告警泛滥。并能在众多的告警信息中,屏蔽不重要的告警信息,帮助运维人员能够将精力集中在关键问题上,准确定位可能的故障源,真正做到事先运维、整体运维,将影响业务系统健康度和可用率的一切因素事先排除。系统对网络情况全盘监控,发现异常时通过提示框、声音、E-mail 及手机短信息等各种告警方式第一时间通知网管人员,满足网络管理 24 小时正常工作的要求,最大限度保证了系统的服务水平。
(2)实用便捷的知识库
系统知识库包括产品内置的知识内容以及运维人员在日常维护中新增加的维护知识内容的积累。同时知识库是建立和完善故障处理机制以及对网络性能进行分析的知识汇总,它记载了对不同异常故障情况的不同处理手段以及对异常的性能指标所采取的优化措施,以供运维人员对知识进行查询与经验共享,为维护人员及时处理异常故障及性能分析提供辅助分析决策。运维人员可通过新增功能手动添加新的知识和新的分类,并可对知识和分类进行修改与删除。通过知识进行查询,快速了解各种知识,并由异常关联到知识库,知识库会查询出该异常的知识,给运维人员提供故障的解决方法。
(3)规范的分级管理
用户可以根据地域、部门、应用等情况等建立地域和设备及资源的复合管理概念,将系统中各项设备和资源按用户权限设置成不同管理域。按照地域和部门分布管理用户权限,使IT 运维人员各司其职、分工明确、提高运维效率。系统同时能
提供历史数据的按级汇报,最关键的是实时性包括上级能及时看到下级网络拓扑的实时变更;下级紧急告警信息在上级网络拓扑图中的实时显示。汇总数据具备真实性,人工分级网络管理的一大弊病就是下级网管人员汇报网络运行情况时存在瞒报、误报和漏报等现象(包括实时数据和历史数据)。
(4)安全的入网控制
系统可以探测当前段内存活的IP 地址及自动发现各网段的IP 地址使用情况,并提供主机定位功能,能通过IP 地址查找到该IP 的MAC 地址及该IP 所连的交换机端口。系统支持监测基于IP 、MAC 、端口的一一对应绑定关系,在发生改动时,实现对设备的网络连接接入的监控,并可批量处理,也可单独指定规则。安全的IP-MAC-PORT 三重绑定,有效的避免用户私自更改IP 地址、非授权接入网络、PC 随意更换连接交换机的端口,极大的增强了网络接入的安全性。同时也为用户网络环境提供了安全保障,并且能快速定位问题设备、查找根源,同时提供变动记录作为可查依据。
(5)真实的设备背板
系统能通过真实的背板图对网络设备的端口进行信息查看、下联设备列表、启用端口、关闭端口、实时分析端口、设置事件规则等操作,并支持国内外各种主流的网络设备和其他设备。帮助网络管理人员实现不用跑机房现场就能了解到每个设备的当前端口状态,节省人力资源,只需点几鼠标就可以轻松代替原来的体力劳动,解放出更多的时间用于其他事情,提高办事效率。完全的替代了登录到设备去操作的过程 ,大大简化了对设备的控制管理。
(6)实时拓扑图展现
系统将拓扑图分为物理拓扑图、示意拓扑图(机房、机柜、地域等)、缩略拓扑图等各种类型。不仅真实准确的反映实际物理连接、逻辑链接,而且能帮助用户实时动态以图形化形式来展现系统中各种网络设备及资源(包括路由器、交换机、3层交换机、防火墙、服务器、PC 机、链路、服务器资源、应用)的实际运行、使用与分布情况。其中,系统自动发现的物理拓扑图,能实时监控并动态展示网络中的每个资源类型的健康度、平均CPU 利用率或内存利用率以及ICMP 响应时间等资源状态,并用不同颜色进行表示。全局上帮助用户实时掌握整体网络运行状况,将最复杂的网络状况以最简明、直观的方式呈现。
(7)全面的资源管理
系统除能监控所有支持SNMP 协议的网络设备资源,如路由器、交换机等,还
可以监控防火墙、服务器、数据存储设备、打印机、入侵检测设备、门禁设备、网闸等。实时展现这些设备中的CPU 利用率、内存利用率、各个端口流量、各个端口状态等,系统最新引进的健康度、可用度的概念能帮助用户更快的了解IT 设施的运行状态。另外,可以按运维人员需求自行添加不同指标进行监控。不仅如此,还可以针对运维人员关心设备所承载的各种应用(数据库、中间件等)及服务资源(DNS 、邮件、FTP 、WEB 等)进行一体化和智能化的端到端管理,有效帮助用户即时掌控各种复杂的应用系统环境,还极大的提高了资源管理的准确性和有效性。
(8)非编程扩展与兼容性
系统除了能够兼容众多的厂商设备外,其可供第三方调用的标准系统接口(CORBA 、Web service、RMI 等),还能很好地兼容国内外第二、三代网管、机房管理、通讯管理等管理系统,全面保证系统的兼容性,满足用户在实际网络管理中,与其它系统能够高效整合的需要。同时,系统的非编程思想充分考虑了用户根据企业自身环境对业务监控系统的一些特殊需求。系统在对具体的资源监控上,不仅有内建的监控指标、扩展的监控指标,还有自定义的监控指标,用户可以根据自身业务管理的需要灵活的选择监控对象及指标,很方便用户对所监控的业务进行扩展。同时,也降低了用户因为二次开发及各项需求无法完全满足所花费的人力成本和物质成本。
(9)服务器监控
对不同的操作系统统一支持,支持Windows 全系列,IBM-AIX ,HP-UX ,FreeBSD ,Solaris ,不同厂家全系列版本的Linux ,提供服务器的安装程序,CPU ,内存,进程,磁盘分区信息管理,具有多硬件平台多操作系统的特点,网强网络管理系统配备专业版服务器管理模块支持监控各类操作系统以及中间件的管理。
各种服务器主机可通过SNMP 协议、ssh 、telnet 等方式来采集设备数据。可监控指标为ICMP 响应时间、SNMP 状态、平均Cpu 利用率、平均内存利用率、虚拟内存空间、物理内存空间、已使用物理内存、进程名称列表、指定进程CPU 负载、指定进程内存占用、安装软件名称列表、指定安装软件日期、指定安装软件类型、windows 当前磁盘队列长度、windows 平均磁盘队列长度、windows 磁盘读取平均队列长度、windows 磁盘写入平均队列长度、磁盘读取次数/秒、磁盘写入次数/秒、磁盘读数据速率、磁盘写数据速率、内存读取速率、内存写入速
率Trap 冷启动、Trap 热启动、Trap 认证失败、Trap EGP丢失、用户扩展Trap 、Syslog 等于服务器相关数据。
(10)查询监测安装软件信息
了解被管理服务器的软件安装记录, 软件名称、类型以及安装时间,查看是 否有非法软件存在,并设置在发现非法软件时发送自定义的告警信息提示工作人员及时解决. 网络管理员可以用此功能监控服务器上部署软件的安全性. 如下图1所示:
图1:详细的软件进程列表
(11)查询监测硬件资源使用分配信息
监测服务器硬盘分区、容量、使用空间、文件系统类型、是否为启动分区等各项信息, 系统可以监测整个硬盘情况,也可以单独对一个分区同时进行监测,查看被控端内存使用情况, 当前容量、当前使用率、最大使用率和平均使用率,CPU 的利用率等关键硬件性能指标,在出现异常情况时自动发送出告警信息通知IT 部门的网络管理人员。
图2:磁盘资源实时统计监控
(12)故障监控和报警
根据用户日常管理的需要,可以对任何的设备监控指标进行告警设置,具有丰富的智能告警方式。 提供提示框、声音、 Email 、网管警告和手机短信息告警、信使服务等多种方式,提供多种告警级别、分类,智能应急处理预案,满足网络管理 24 小时正常工作的要求。
列如对设备CPU 占用率的告警设置如下3:
图3:可以直接定义告警的级别,告警的规则,伐值,轮询周期等参数
(12)多数据库监控
用户日常运行的各种应用系统后台要需要数据库系统的支持。网强网络管理 系统数据库管理模块能对mysql 、MS SQLserver、Oracle 、Sybase 等市场主流数
据库的性能、连接状态、用户连接数、使用空间、使用率、表空间等各项参数进行监控,当数据库参数出现异常时系统可以自动发送出告警信息通知工作人员。对于数据库的监控做到监控指标使用,监控类型广泛。数据库支持多样指标监控,支持MySQL 、sqlserver 、DB2、sybase 、Oracle 、informix 等数据库。例如Sql Server支持的数据有连接响应时间、当前连接数、SqlServer-空闲页数、SqlServer-总页数、SqlServer-缓存点击率、SqlServer-数据文件大小、SqlServer-事务/秒、SqlServer-登录/秒、SqlServer-注销/秒、SqlServer-加锁请求数/秒、SqlServer-加锁内存数、SqlServer-总内存使用量、SqlServer-批量请求/秒、SqlServer-平均锁等待时间、SqlServer-锁等待/秒、SqlServer-死锁数/秒等数据。
Oracle 数据库也同样支持以上指标。
图4:数据库部分指标统计分析
图5:数据库告警规则设置
(13)应用系统监控
在用户的日常应用中,离不开对一些常用的应用服务的管理,如网站、邮件系统等运行状态和运行情况的自动监测、故障监控和报警。支持网页服务、ftp 服务、DNS 服务、email 服务等服务应用。网强网络管理系统应用系统专业管理模块能完全满足此类管理的需要,并使用先进监控方式正确率更高。自动监测被控端服务器HTTP 、DNS 、FTP 、SMTP 、POP3等常用服务运行状态, 可以通过规则设置,在监测到各项服务状态出现异常时,自动发送自定义状态告警信息。各应用服务监测采用目前国际最流行的模拟行为人的监测方法,让软件模拟一个用户正常的发起应用请求,并判断服务的响应是否及时正常,以此来达到最精确的服务效果监测的目的。
图6:Web 的监测以及告警设置
图7:邮件系统
(14)事件管理
《网强网络管理系统》设计的事件机制为当被管理对象的运行状态发生变化时,就会产生事件。如果该事件是由正常变为故障,则会产生故障报警。故障报警的定制是通过综合网络管理系统来定义的,事件管理是通过收集、确认事件,对事件进行分类和过滤,关联不同来源的事件完成对事件的自动处理和响应。通过事件管理,系统管理人员可以方便、迅速、及时掌握系统运行的故障和警报,及时进行处理,保障系统的正常、稳定运行。IT 系统管理人员所关注的问题,如网络设备当机,端口阻塞,链路损坏、、网络通信中断、服务器系统开销过大等等都会以事件的形式表现出来。不同的平台和软件有各自独立的事件管理机制,如果没有统一的事件管理平台,就会造成事件管理的片面性与不统一,管理员无法迅速、准确地通过事件掌握系统状况,得到故障报告,也就不能迅速排除故障。网强网络管理系统实现了跨网络的多平台事件管理支持,应符合SNMP V1、V2、V3标准,具有强大的功能、统一的用户界面和优秀的互操作性。 网强网络管理系统处理的事件来源包括: 网络设备发出的SNMP Trap事件;网管系统监测到的设备、端口、链路等故障事件;这些事件一旦进入事件管理器,就可以按照预定义的规则向管理人员发出故障告警信息。提供手机短信、E_mail、声音、应用程序、消息框的告警方式。用户可以灵活的定制告警规则,提供CPU 、内存、设备状态、链路流量等自定义告警方法设置。事件的数据统计。综合网络管理系统的事件管理会记录所有收集到的事件信息,并每天生成一个事件日志文件,还可对事件信息进行统计。
(15)性能管理
能对网络设备的各个观测值进行分析,包括 交换机、路由器、防火墙和服务器等设备。能够展现这些设备中的CPU 利用率、内存利用率、各个端口流量、各个端口状态等。
网强网络管理系统的性能管理功能涉及网络通信信息的收集、加工和处理等一系列的活动。其目的是保证在使用最少的网络资源和具有最小延迟的前提下,网络提供可靠、连续的通信能力,并使网络资源的使用达到最优的程度。包含下列内容:
①采集性能监视与性能相关的数据:定时收集被管设备的性能数据,自动生成性能报告。收集的性能参数应包括:端口输入/输出利用率 、 端口输入/输出错误率、CPU 利用率 、链路利用率、收发消息数、丢包率、端到端时延参数。 以上参数可以按每日/每周/每月统计 。
②阈值控制:对每种被管对象的每种属性设置阈值,对于特定被管对象的特定属性,针对不同的时间段和性能指标设定阈值。通过设置的阈值进行阈值检查,在将要出现性能问题的时候向管理人员告警。阈值控制可以根据实际情况的轻重缓急进行分级别控制。
③性能分析:对性能的历史数据进行分析、分析和整理,计算性能指标,对性能状态做出判断,为网络规划提供参考。
④可视化的性能报告:对性能管理数据进行检索和处理,生成性能趋势曲线,以直观的图形方式显示性能的分析结果。
⑤实时性能监视:提供实时数据采集、分析和可视化的工具,用以对流量、负载、丢包、CPU 占用率、内存占用率、网络延迟等网络设备和线路的性能指标进行实时监测,并可任意设置数据采集的时间段。