很多医院在面临医疗业务增长压力的时候都会陷入一个怪圈:各业务科室反映医生工作站开医嘱变得慢了,影像中心反映调取片子的速度慢了,检验科室反映读取报告慢了……面对这些来自业务科室的压力,很多医院信息中心会通过购买服务器的方式来提高系统的响应服务速度,有的购买Web服务器,有的购买应用服务器,有的购买数据库服务器……直到把医院有限的机房全部填满。
事实上,有一个很重要的工作被忽略——没有对业务系统进行详细的故障数据分析,缺乏业务系统健康状态的数据分析。现在的医疗业务系统普遍采用三层架构,即Web服务器、应用服务器和数据库服务器,从数量上看每层可能都有数台以上的服务器,很多医院看这种性能问题普遍都是从数量上看,但是走进每台服务器我们会发现,影响和制约业务系统运行的还有软件因素,即比物理资源更重要的软件资源,如数据库的连接信息、读写I/O状态,数据库明细和表空间状态,应用服务器的会话性能、事务状态、线程池等,这些软件资源很多时候会成为系统运行的瓶颈。
此外,一直以来,医院都是将网络和系统应用分开管理,在很多医院一般是由两个团队分别负责运维。对服务器应用软件资源的管理,医院大多采取独立的系统管理;对网络、安全、服务器等硬件资源的管理,医院多采用独立的网管系统。两套班子,两套系统,没有统一融合的管理工具,数据中心的运维成本很高。
因此,医院迫切需要建立一套可视化的应用监视手段,可集成数据中心系统管理,通过自动化的运维工具,提高运维效率,降低管理复杂度,保障整个医疗应用系统的稳定、高效、不间断运转。
在对医院进行应用服务监测管理的时候,面临如何管理、管理什么、关联管理和管理控制等问题:
1、 管理不能以牺牲性能为代价,尤其如HIS、PACS、EMR等医院核心业务系统,不能增加医院业务系统的业务负担;
2、 全面覆盖限制服务能力的关键点,要对影响服务的各种资源进行详细监控,不仅有硬件资源,还要有丰富的软件资源;
3、 医院业务从传统相互独立的应用模式向强关联性发展,因此医院业务服务健康监测,要能够识别应用资源的依赖关系和相互依存性,跟踪相关业务的性能,提高监控效率;
4、 监测不是目的,通过服务监测可及时发现问题,并建立良好的应用服务质量管理体系;
H3C APM医院应用服务健康监测解决方案,从根本上解决了服务器应用资源管理问题,可以帮助医院获得更好的资源可视性和可控性,减少工作量,提高运维效率。
一、
管理方式
APM采用无代理(Agentless)模式,通过不同命令、脚本或模拟客户端的方式要求应用资源反馈相应指标数据,然后根据指标数据对应用资源的性能、负载进行评估,从而评估应用系统的性能。比如对Windows服务器的监控可以采用SNMP协议和WMI(Windows管理规范)协议;对数据库的监控可以采用ODBC连接、SQL结构化查询语言等命令模拟客户端登陆服务器以获取相关数据。这种管理方式对于关键的医疗应用资源占用不大,增加应用系统稳定性。
二、 管理内容
APM覆盖了包括以下的市场主流应用资源。
服务器操作系统:Windows、Linux、Sun Solaris、FreeBSD、IBM AIX、HP- UX、Tru64 Unix、Mac OS等;
数据库:Oracle(8.x/9i/10g/RAC/11g)、MySQL(3.23.x/4.x/5.x)、Microsoft SQL Server(2005/2008)、IBM DB2(8.x/9.x)、Sybase等;
Web服务器:Apache、Windows IIS、PHP等;
应用服务器:Microsoft .Net、GlassFish、JBoss、Oracle AS、SilverStream、Tomcat服务器、WebLogic、WebSphere等;
中间件:WebLogic、WebSphere等;
邮件服务器:Microsoft Exchange 2003/2007、其他SMTP、POP3型邮件服务器。
除此之外,APM还可以提供自定义监控的能力,对医院诸多独特的的应用系统进行监测。
在监控指标上,APM有所侧重,如对主机系统、数据库服务器、应用中间件,要分别关注其内部各种关键参数,以便准确把握系统运行状态,及时地发现故障苗头。对内部Web HTTP服务的监控是由于医院内部有很多重要的Web应用,通过对HTTP和HTTP序列的监控,可以确保所有这些网页7*24小时正常运行,并能够在网页响应变慢之前及时得到通知,这就尽可能地避免了医生、医务人员由于网页打不开或者登陆不上去而抱怨。
三、 业务关联管理
APM提供智能的关联分析。对医院IT管理员来而言,他们往往认为数据中心中各资源的性能明细等这些冷冰冰的数据与他具体负责的业务没有关联,尤其当系统庞大之后,海量的数据更是让人感觉云山雾绕。在这种情况下,可以考虑基于业务维度的监控,通过分组数据中心中的应用、服务器及系统等不同资源,为异构的IT基础架构创建一个具有逻辑意义的业务视图,实时监控此逻辑视图中的性能变化。
图1 基于业务维度的监控
如图1所示,某临床信息系统包含门诊医生工作站、住院医生工作站、护士工作站、电子病历、临床检验系统、医学影像系统、营养配餐管理、临床用药咨询、手术室麻醉系统、重症监护信息系统、输血管理系统等子系统,而每个子系统都由操作系统、数据库、Web服务器、存储等服务器应用组成,因此可以建立对应的逻辑视图,如图2所示。
图2 基于业务维度监控的逻辑视图
逻辑视图可向下层层钻取直至原子服务,每一种应用资源的性能变化即反应了其对应的子集,同时也反应整个临床信息系统应用的性能。通过这种方式,用户只需监控对应的逻辑视图,简单明了、清晰简洁,显著提高医院数据中心应用资源运维管理的效率。
四、 管理控制
APM提供一体化融合的方式,能够同步了解网络和应用的情况。
1. 网络与应用的拓扑结合
通过网络与应用拓扑的结合,医院可以按照业务的维度建立统一视图,拓扑图中融合网络性能、告警数据,也可直接查看各种应用的运行信息,直观形象地展示了当前医院数据中心业务相关的网络和应用情况(如图3所示)。
图3 网络与应用的拓扑融合
2. 故障根源分析
医院数据中心中一般存在大量的告警信息,但这些信息往往不需过分关注和处理。查看分析这些告警信息不仅耗费管理员大量的时间和精力,并且会将关键告警信息淹没其中,从而影响管理员对数据中心故障的正确判断和及时处理。很多医院用户都有这样的感受,数据中心中的某台核心设备端口断电之后,从接入设备、汇聚设备到后端应用服务器都会产生故障,管理系统霎时间会收到海量的严重告警信息,在短时间内要求能够快速定位到故障的源头几乎是一项不可能的任务。
故障的根源分析,要求系统能够根据一定的算法规则,分析告警间的逻辑原因,自动屏蔽、排除无关的表象告警,帮助管理员找出导致故障的根源告警。通过常见的短信、Email等告警转发手段,使用户不需要坐在电脑前,就可以获得关键的根源告警信息,从而能够及时地解决问题(如图4所示)。
图4 服务器应用的故障根源分析
3. 综合SLA分析
基础网络及服务器等资源的建设主要还是用于支撑上层业务和服务,SLA(Service Level Agreement,服务协议等级)就是用来衡量数据中心的服务水平。数据中心综合SLA分析融入了告警、性能、流量、应用等数据,通过指标的创建与服务的建立,来完成整个服务的度量监控和管理。以医院HIS应用为例,管理员将涉及的网络、PC服务器操作系统、数据库、邮件服务器及其相关的链路、配置、流量等组合成服务项,通过图表数据实时监控服务的健康状况,并对医院各科室输出SLA服务报表。一旦业务出现问题,相关模块的数据能够帮助管理员定位问题(如图5所示)。
图5 综合SLA分析
这样的管理办法和思路给医院数据中心运维人员带来的好处是不言而喻的,一方面丰富的SLA图形报表使得业务的服务质量清晰可见;另一方面,关键质量指标的数据使得定位问题不再无迹可循。
五、 结束语
当前,医院IT管理的复杂度及精细化要求越来越高。医院数据中心的各种业务应用的健康状态将是管理的重中之重,因此需要做好数据中心的应用可视化管理,使得各种业务的实时状态等得到有效监控,业务应用出现故障时能即时通知到管理员,管理员通过各种业务可用性报表能对业务的总体情况清晰的把握。与此同时数据中心对应用管理的要求也会向一体化、自动化和系统化的方向发展,管理员将在一套系统内,既能了解网络情况,又能了解应用的情况,还能监控各种应用的网络流量情况,并能通过自动配置工具对数据中心进行业务动态调整,形成对数据中心应用的全方位、智能化的管理。