未找到相关内容
新闻资讯

数据中心监控:减少停机时间的有效方法

智简魔方 | 2018-11-05 15:46

停机时间仍然是现代数据中心专业人员面临的最大数据中心管理难题之一。对于IDC运营商和托管业主而言,意外中断可能会对业务关键型系统和应用程序造成严重破坏,从而导致客户不满意。此外,停机时间造成的损失可能非常昂贵。

避免意外停机始于解决其主要原因之一:人为错误。根据Ponemon Institute的数据,人为错误占计划外数据中心中断的22%。虽然很多数据中心培训和认证计划可以帮助员工降低人为错误的风险,但您如何管理设施中的设备和环境同样重要。

这就是数据中心监控可以发挥作用的地方。数据中心基础设施管理(DCIM)软件可以帮助您跟踪数据中心项目的电源、环境和安全状态,并提供信息以减少因人为错误导致的停机时间。

考虑这四种数据中心监控的常见用例:

监控健康状况

确保数据中心内的智能PDU、UPS和其他设备可通过网络运行并可访问,这对于维护数据中心的运行状况至关重要。但是,通常情况下,PDU或其他设备可能会在您和您的团队意识不到的情况下停机。技术人员或工程师可能会意外地将PDU置于维护模式,忘记打开新配置的资源,甚至使用错误的电缆或端口连接设备。

DCIM软件和其他数据中心监控工具可以通过健康状况调查来限制由于硬件故障导致的中断的可能性。数据中心软件以用户可配置的间隔轮询智能PDU或其他设备,以确保连接正常。如果无法连通,则DCIM软件立即发送提醒,以便您第一时间了解数据中心的潜在问题。

数据中心设备状态监控屏

数据中心监控阈值,警报和报告

如果您没有密切关注数据中心电源管理和环境监控,则可能会出现因过载或过热而导致意外停机的情况。数据中心工作人员很容易错误地计算或错误设置预算功率或为机柜分配的最高温度,从而导致冷却不充分和数据中心容量管理不准确。

DCIM软件提供阈值、警报和数据中心统计报表功能,以避免过度冷却和产能过剩的情况。通过配置温度和功率阈值,您可以为数据中心设置一个舒适的范围,而如果您接近极限,警报和通知会立即发出警告。智能PDU的实时负载监控还可以帮助您立即对产能过剩问题做出反应,从而帮助您提高数据中心团队的工作效率。数据中心电源管理报告为您提供切片和切块的数据,以便更好地了解和可视化您的电源和温度趋势,从而实现万无一失的数据中心容量规划。

故障转移情况下的电源冗余

当PDU发生故障或容量过剩时,数据中心会发生什么?许多数据中心团队如此专注于充分利用现有资源并推迟资本支出,以至于他们可能没有意识到他们已经超载了他们的内阁,直到为时已晚。

设备故障时的电源冗余是任何停机时间减少策略的简单而有效的组件。通过故障转移模拟报告,您可以识别存在风险的机柜,并确定在一个PDU发生故障时设备是否可以继续运行,而不会影响设备。因此,您的团队可以在这些有风险的机柜成为问题之前对其负载进行适当的更改。

安全监控

虽然数据中心电源监控和环境管理是DCIM软件最常见的使用场景,但随着对设备的威胁普及,数据中心安全性变得越来越突出。未经授权的访问占据了数据中心违规的18%。无论此访问是恶意还是偶然,了解谁有权访问您的数据中心对于保护您的数据和物理资源至关重要。

DCIM软件和其他数据中心工具可以帮助您跟踪进出数据中心的人员。数据中心软件可以监控机柜上的触点闭合传感器和门锁。它还可用于管理您的RFID卡以及为特定用户分配特定门的权限。自动重新锁定计时器可监控门被锁定的时间长度,并在一段时间后重新锁定,因此您无需担心技术人员忘记锁门。安全和审计报告可以显示您有权访问数据中心的不同区域,以防您需要对事件进行取证分析。

降低停机风险是保持数据中心平稳运行的关键。当与整个数据中心的智能PDU,环境传感器和其他仪器配合使用时,数据中心监控可以提供所需的检查和平衡,以降低人为错误的风险并保持正常运行时间和可用性。

想要亲眼看看数据中心监控工具如何在增加正常运行时间的同时减少人为错误?欢迎尝试使用智简魔方DCIM数据中心设备管理系统。


上一篇:现代数据中心管理的3项必备技能 下一篇:集成ITSM和DCIM的好处

相关文章