行业背景
发展要求
近年来,在若干政策指引下,医院信息化管理系统、电子病历系统、区域医疗信息互联互通等重点工作逐步得到完善。国家卫健委开始着手细化医院的评审和评级种类,明确了验收细则和时间点,考核日趋严格。例如,卫健委要求到2022年,全国二级和三级公立医院电子病历应用水平平均级别分别达到3级和4级,智慧服务力争达到2级和3级,智慧管理争达到1级和2级,能够支撑线上线下一体化的医疗服务新模式。实现“以评带建,以评促改”。
由于,“互联互通+智慧医院+精细化管理=医院各类系统的融合度、复杂度将持续加大”,评审的趋严直接给信息中心的IT运维带来巨大压力及困难。
安全要求
2019年12月1日起,网络安全等级保护2.0相关标准正式实施,实现对新技术、新应用安全保护对象和安全保护领域的全覆盖,因为目前医院纷纷上云,虚拟化的安全防护尤为重要,因此等保2.0尤其强调网络安全防护,强化“一个中心,三重防护”的安全保护体系。
等保要求的提升,给医院信息系统的安全工作迎来新挑战。因为随着信息技术的不断发展,特别是云计算、物联网等新技术的不断涌现和应用,在带给医疗行业快速、便捷的同时,也让边界防护变得模糊,黑客攻击、勒索软件、蠕虫病毒以及系统漏洞导致的数据丢失与业务停顿已成为各级医院亟待解决的难题。如何实现全方位主动防御、动态防御、整体防控和精准防护是医院的挑战,“十四五”期间,5G 等新型网络基础设施也面临着更高安全要求。
因此,医院信息中心,不但要承接越来越多的系统运维压力,还要按照等保要求,提升安全防护能力,已然分身乏术。
运维现状
目前,为响应国家政策,简化看病就医流程,打通医疗大数据,加强业务应用与医院管理,医院一整套业务流程囊括了预约挂号系统、电子病历系统、检验化验系统、影像平台系统、财务信息系统等一系列相关系统,实现医院主要患诊数据的互联互通。但由于各类系统需要同时对接患者、医生、医院各科室等多个端口,作为医院运行的神经中枢。对各系统的稳定性要求极高,一旦某套系统出现故障,会整体业务流程造成影响。
因此,就目前医院系统覆盖的业务量,互通紧密度,都导致信息中心有大量且琐碎的运维工作,而信息化最好的三甲医院最多也就10人左右的运维团队,80%的三甲医院只有3-5人的运维人员,二级医院只有2-3人,剩下的就更少。面对如此庞杂的系统运维工作,疲于奔命,效果还不好。
需求描述
三级医院
-
集中管理需求:智慧医院建设推进,大部分三甲医院已经完成HIS、LIS、PACS、EMR、体检系统、统一支付等核心业务系统的建设,且已配套一定规模的网络、服务器、动环等系统。各厂商独立监控、数据割裂,缺乏统一监管工具。
-
问题发现需求:新业务系统上线检测、现有系统问题排查都是信息中心事后发现问题,且仰赖人工摸排、摸排时间长、问题处理效率低下,运维管理工作成效不显著。
-
根因定位需求:少部分三甲医院已经不满足于只是发现问题,他们需要排查到问题的根源,提高问题处置的精准度,因此对异常检测、日志审计能力要求较高。
二级医院
-
集中管理需求:随着二级医院业务扩展和信息化建设的持续深入,尤其疫情促使二级医院提速业务线上化进程,上新应用和现有系统优化需求较多,IT系统运行的稳定性、可靠性问题较多。加之只有2-3人的运维人员,无论技术能力+数量都无法满足当下运维工作需要。
-
评审达标需求:为能升三级医院,需要达到相关安全评审标准,运维监控是达标要求的一部分。
医院运维安全
目前,由于等保2.0的要求提升,依据《全国医院信息化建设标准与规范(试行)》、《卫生行业信息安全等级保护工作的指导意见》等规定,需要医院完成网络安全体系中堡垒机和日志审计、网络管理控制系统的建设,大多数医院医疗网络目前无网络安全体系中堡垒机和日志审计、网络管理控制系统安全设备。
关键目标
-
运维安全管理
- 能够提供集账号管理、身份认证、单点登录、资源授权、访问控制和操作审计为一体的运维安全审计服务;
- 能够对服务器、网络设备、安全设备、数据库等资产的运维操作过程进行有效的运维操作审计,使运维审计由事件审计提升为操作内容审;
- 通过内控管理平台的事前预防、事中控制和事后审计来全面解决运维安全问题。
-
日志审计
- 能够实时不间断地采集汇聚医院网络中不同厂商不同种类的安全设备、网络设备、主机、操作系统、生产业务系统的日志信息,协助技术人员进行安全分析及合规审计,及时、有效地发现异常安全事件及审计违规;
- 能够提供众多基于日志分析的强大功能,如安全日志的集中采集、分析挖掘、合规审计、实时监控及安全告警等,为安全事件的分析、溯源提供有力支撑;
- 能够同时满足医院实际运维分析需求及审计合规需求,是医院日常信息安全工作的重要支撑平台。
-
网络管理控制
- 能够面向医院园区网络的新一代网络管理控制系统,是集管理、控制和分析功能于一体的网络自动化与智能化平台;
- 能够提供园区网络的全生命周期自动化、基于大数据和 AI 的故障智能闭环能力,帮助医院降低运维成本,加速医院数字化转型,让医院网络管理更自动、网络运维更智能。
痛点分析
-
定位问题难: 部分医院带有华为网络监控系统(监控医院网络、交换机情况),但对物理服务器的硬件信息、操作系统、服务中间件、移动端应用和数据库等缺乏有效统一管理手段,难以主动发现问题与故障。无法满足现有IT设备的运维监控要求。
-
问题发现滞后: 门诊楼、住院楼等用户通过专网访问各类业务系统,之间的网络链路情况、系统访问可用性、响应时间等缺乏有效手段进行实时感知,往往接收到投诉后才进行排查,耗时耗力,还效果不被认可。需要借助工具提升异常检测的准确率。
-
运维负荷高: 只有3-5人配置,日常运维通过人工方式进行机房巡检,通过观察设备指示灯判断故障,对服务器、网络等基础设施层以及应用业务层无巡检。疲于奔命,无法满足现有IT设备的运维监控要求
-
新系统上线: 医院处于上新系统时期,可能出现比较多不确定因素。需要利用apm通过抓取服务端的数据,将异常数据作为医院验证新系统性能的指标评判,希望业务问题能够直接定位,辅助新系统调优,需要直接部署在生产环境中。
-
资源管理难: 医院数据中心对服务器CPU、内存等计算资源,磁盘空间、磁盘I/O等存储资源大多没有有效方法实现科学管理及规划,对系统应用节点和数据的各项性能参数配置等数据把控不足。
-
告警风暴: 部分医院带有动环、基础设施监控,但由于医院业务系统复杂,会产生过多告警信息,使运维人员淹没在告警风暴中无从判断原因。
-
厂商监控独立: 虽然有部分厂商可以提供监控工具,但各工具之间相对独立,仅能提供自有产品的状态监测。缺少对核心业务系统(如:HIS、PACS等)全链路进行监控,当业务系统发生异常时仅能从设备层和系统层分析问题,很难定位到业务或应用的问题根因。
-
安全评审要求不达标: 由于等保2.0提高了医院的信息化安全要求标准,部分医院需要根据相应安全评审要求,利用运维监控平台进行支撑。
-
网络性能不稳定: 由于目前各大医院都仰赖网络,尤其上云的医院,一旦出现网络性能问题,就必然导致大面积的业务瘫痪,所以网络性能的监控及安全风险评估,都是重中之重。但由于医院运维项目普遍预算有限,NPM价格相对较高,比较难cover住成本,所以卖的不多。
产品列表
-
DOIM : 私有化部署,主要围绕客户HIS、LIS、PACS系统涉及到的设备层,包括数据库、操作系统、服务器硬件、存储磁盘阵列、数据库和虚拟化平台等进行统一监控。
-
APM : 私有化部署,主要围绕HISEMRLISPACS体检系统统一支付系统等核心后端应用进行监控检测。在测试场景中、生产环境中均有部署。
-
DOLA : 主要依托云智慧在智能算法、日志分析方面的能力,帮助医院在业务系统运维监控方面做好事前预防工作,减少问题发现和故障排除的时长,提升异常检测的准确率。 日志分散在各类服务器主机、容器、网络设备中,需通过CDC进行日志的采集,采集对象是IAAS层所有设备。
-
DOEM : 通过邮件、第三方Push等方式进行告警通知。
整体方案
云智慧提供面向“智慧医疗”领域的一体化智慧运维实践。应用场景包含主动监控、快速排障、集中告警、价值呈现、集中管理、日志分析、主动巡检、服务管理。此外,云智慧一体化智能运维监控方案拥有全栈监控、自主可控、成熟方案、大量实践、以客户为中心、全国服务网络、算法能力领先、ITIL v4官方认证等核心优势。
整体架构设计
下图为云智慧一体化智能运维解决方案整体架构设计。
主要应用场景
全栈监控
通过 Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、 串口、ODBC/JDBC、自定义 SQL、URL、WMI、Java 连接等方式对上百家厂商的服务器、 网络设备、操作系统、存储、虚拟化、中间件、数据库、Web 服务等资源的配置数据和指标数据进行统一采集。最终实现资源管理与拓扑管理。
-
资源管理:包括网络设备管理、主机管理、数据库管理、中间件管理、存储管理、硬件管理、标准服务管理、日志管理(syslog、snmp trap)。
-
拓扑管理:具有自动网络拓扑的功能,采用先进的网络拓扑发现算法和数据采集协议实现网络拓扑发现,包括基于路由层链接生成网络拓扑图;基于网段的连接生成物理网络拓扑图;基于VLAN和子网生成各子网逻辑拓扑图。
此外,全栈监控还包含实现以下监控目标:
-
一体化监控:内置120+种开箱即用资源模型、10000+监控指标,能全面快速地对接上百家厂商的老旧设备、IT资源、动环设施、IOT设备,以此进行集中式采集监控和告警管理,同时支持对接其他系统数据。
-
异构云环境管理:采用云模式架构设计,利用云节点的采集处理器和代理方式,实现在多种云异构模式下,跨平台/网络/安全策略/域对主流云厂商的 IT 资源进行统一监控和集中管理,监控范围可扩展。
-
国产化适配:支持主流国产化设备、操作系统、数据库、中间件的建模和指标采集监控,不限于达梦、金碟、保兰德、人大金仓、达梦、东方通、神通、麒麟、飞腾等,自研数据库不受国际环境影响。
-
开箱即用:拥有数百种开箱即用指标采集和CI数据采集模型,采集Sever端的搭建最快可在几分钟内完成,使用简单方便。
全年365天7*24小时实时展示各项资源和应用系统的整体运行情况,通过智能化运维使原来错综复杂的运维管理工作变的简单和轻松,真正实现职责分明、安全高效、稳定可靠、智能管控的目标。
集中管理
-
IP地址管理。通过IP地址管理功能可以帮助数据中心合理的对网络地址的日常及长期使用做出规划,提高网络安全性。
-
通过工具定时扫表,发现网段中的IP地址的状态。包括:使用中、未使用、管理IP、保留IP等。根据IP地址状态进行实时归类,以视图的方式呈现,根据不同的颜色区分不同状态,实时统计,保障网络地址的合理使用。
快速排障
应用拓扑自动发现:全自动发现应用所有技术栈及其关联关系,帮助用户从宏观把握一个应用及其关联应用的整体状态以及请求数、响应时间、错误等的变化趋势,快速定位各层级问题。
针对单次请求,通过基本信息和业务拓扑发现潜在问题,追踪慢元素和堆栈详情,分析错误和异常信息及堆栈,分析SQL语句、API调用与请求参数等的执行情况。
日志分析
日志审计主要依托云智慧在智能算法、日志分析方面的能力,帮助医院采集、整合、分析分散在各类服务器主机、容器、网络设备中的日志,在业务系统运维监控方面做好事前预防工作,减少问题发现和故障排除的时长,提升异常检测的准确率。
集中告警
告警管理能根据告警相关的基本规则,通告自动学习的算法能力,如:集群合并、IP合并等把同一时间与该告警相关的告警进行了聚合。此外,通过对告警的智能分析,用户可以避免无效告警、告警风暴的发生,快速对故障的排查和定位,全面提升告警管理能力。
-
告警收敛,识别有效告警:对短时间内大量发生的重复告警和无效告警进行压缩、去重,识别有效告警。
-
告警聚合,协助帮助定位问题:包含根据集群合并、根据IP合并、根据网段合并、根据异常种类合并、根据宿主机与虚拟机的关系合并。
下图为一站式智能告警故障排查和定位的场景,通告示例图可看到是Oracle数据发生了故。云智慧根据海量的告警进行收敛识别,发现了关于Oracle表空间、进程、实例、死锁的5条告警。与此同时,根据告警相关的基本规则,通告自动学习的算法能力,如:集群合并、IP合并等把同一时间与该告警相关的告警进行了聚合。最后通过告警与指标关联,查看当前该告警的指标趋势发现可能是死锁引起的问题。
通过对告警的智能分析,用户可以避免无效告警、告警风暴的发生,快速对故障的排查和定位,全面提升告警管理能力。
主动巡检
为预防事故的发生,运维人员需要每天对大量设备逐一巡检。在传统运维模式下,运维人员必须依次登录设备完成巡检,不仅耗费大量的时间,而且手工操作的方式容易出错。自动巡检可以通过快速聚焦问题以此提升效率。
-
医院可根据实际需要在自动化作业场景中添加相应的场景,并将操作和编排任务与运维场景关联。
-
内置多种常见的操作系统、数据库、中间件等巡检模版,能够满足日常巡检需求。
-
支持灵活配置巡检指标以及阈值,高亮展示异常指标,异常情况一目了然。
-
支持定时执行策略、巡检通知、自定义邮件模版以及邮件附件类型,保证巡检任务有计划地执行。
价值呈现
-
基础资源监控:通过大屏展示各监测点访问医院各应用时应用端口的可用情况及端口健康情况。
-
网络质量监控:对网络时延、丢包率等关键性能指标进行监控及大屏展示。
-
应用性能监控:通过大屏展示各监测点访问医院各应用时应用端口的可用情况及端口健康情况。
-
数据库健康度监控:对数据库可用情况、数据容量、数据库关键性能指标进行监控及大屏展示。
服务管理
云智慧是通过AXELOS(ITIL版权所有方)认证的中国首家官方授权的IT服务管理咨询合作伙伴 (ACP)。这意味着在行业内,云智慧将能为有意愿引入ITIL的企业提供更加权威的IT服务管理咨询与服务,并进一步加强该理论的本地化实践。因此,云智慧的现有产品框架也是遵循新一代ITIL理念打造的。
-
智能客服:利用自然语言识别技术,帮助用户解决常见问题,快速响应用户的同时极大减少运维工程师工作量;
-
坐席监控:可实时查看坐席的接待数、对话数、平均响应时间、平均对话时长、消息总数等信息和某个坐席的详情数据;
-
移动提单:灵活地对接企业微信、钉钉等企业 IM 以及客户自有 APP,支持用户通过移动端访问智能客服和在线服务台,支持用户自助提交工单、查询工单处理进度;
-
服务目录:提供服务目录的统一定义和管理功能,为企业的服务提供统一的、一致准确的信息源,为其他服务管理活动提供支撑;
-
流程表单:提供可视化工单流程定义面板、丰富的可视化控件和功能强大的表单设计器,能够满足各种场景下的工单定制要求;
-
知识库链接:平台内置大量知识条目,集中管理历史沉淀经验及常用场景知识,便于知识应用即查即用,提升问题解决效率,减少对专业人才的依赖;
-
工单看板:对IT服务管理中涉及到的各类工单数据进行直观监测,实时展示服务风险点、服务质量、服务效率以及服务水平,帮助管理层从全局视角对IT服务的质量进行感知与管控。
案例分享
某医院一体化监控项目
项目背景
某医院在使用自动化监控系统之前,主要靠人工巡检,通常是在业务发生问题影响使用时,IT 部门才能得到通知,派相关人员解决问题。由于业务不能中断,运维人员经常夜间需要去机房解决设备问题,而其中很多问题都是重复性出现。
服务内容
-
动环监控:机房烟感、温感、漏水、UPS、空调等状况;
-
基础监控:各系统的服务器、操作系统、网络设备、数据库、中间件等IT软硬件设备;
-
自动处置:自动化巡检代替人工巡检,监管控一体化使运维更轻松,紧急告警自动触发预设置的程序和脚本,实现自动处理;
-
实时查看:APP端支持安卓和IOS系统,在手机端查看管理的业务和设备状况。
某医院智慧运维项目
项目背景
某医院信息中心机房是SAN网络架构,以此确保医院各项业务不间断提供。但为满足海量影像数据的持续增长,保证各系统稳定有序的运行,院领导决定建立一套智慧运维体系,实现对所有院区的IT设施进行实时监控、集中管理。以此提升故障处置效率,减少宕机、系统中断发生。
服务内容
-
一体化监控:对该医院现有PC服务器、UNIX服务器、交换机、路由器、存储、oracle数据库、SQL SERVER数据库、中间件等所有设备和应用进行实时监控。独特的MegaSpeed海量秒级监测,将故障响应级别提升到秒级。
-
实时告警:对IT设备和应用进行24*7的实时监控,一旦出现运行故障或性能指标达到告警阀值,告警信息便会通过短信、邮件、声音和颜色等方式自动推送。
-
全景大屏:满足医院数据中心各种业务系统、网络设备等丰富监控状态可视化需求,实现全息全维态势动态呈现。
FlyFish开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
如果喜欢我们的项目,请不要忘记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,我们需要您的鼓励与支持。此外,即刻参与 FlyFish 项目贡献成为 FlyFish Contributor 的同时更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址: https://gitee.com/CloudWise/fly-fish
微信扫描识别下方二维码,备注【飞鱼】加入AIOps社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~