|
供稿人:丁 伟
内容提要:
众所周知,在2001年10月IBM宣布的最新UNIX服务器pSeries 690(我们以下简称p690)是IBM p系列中最高档的服务器,它在设计上采用了许多先进独到的技术,具有业界领先的性能指标,可广泛应用于商用领域和高性能计算行业。同时,p690的RAS特性也得到了空前的加强,平均无故障时间(MTBF)是其它UNIX高端服务器的5倍。
本文简单介绍IBM eLiza 计划和IBM pSeries 690的RAS特性。
- 什么是IBM eLiza 计划
- p690 的RAS 特性
2.1、p690的高可靠性(Reliability)
2.2、p690 的高可用性(Availability)
2.3、p690的高服务性(Serviceability)
- 总结
RAS是Reliability, Availability, Serviceability三个英文单词的缩写,它们反映了计算机的高可靠性、高可用性、高服务性三个著名特点,它们的具体含义如下:
- 高可靠性(Reliability):计算机能够持续运转,从来不停机。
- 高可用性(Availability):重要资源都有备份;能够检测到潜在要发生的问题,并且能够转移其上正在运行的任务到其它资源,以减少停机时间,保持生产的持续运转;具有实时在线维护和延迟性维护功能。
- 高服务性(Serviceability):能够实时在线诊断,精确定位出根本问题所在,做到准确无误的快速修复。
p690的RAS特性充分地体现了IBM eLiza 计划的思想内容,完美地实现了IBM eLiza 计划的中心要求。
一、什么是IBM eLiza 计划
eLiza 的称呼最早起源于六十年代中期IBM的一个计划,即采用人工智能技术设计一种实现人和计算机之间通讯的程序。在九十年代,IBM设计的深蓝超级计算机战胜了国际象棋大师卡斯帕罗夫,其综合处理能力可比喻于一个蜥蜴(lizard)所具有的功力,即具有预测防范、处理判断以及自我愈合再生能力。
在当今的IT世界,众多企业都无情地面对一个巨大挑战:为了构成一个强大的灵活自如的电子商务运做环境,需要使用大量的服务器、网络设备、复杂的应用软件等,这些设备所涉及的IT技术在发生着日新月异的变化,企业严重缺乏有经验的工程师来维护和管理整个软硬件系统。IBM公司综合自己多年的IT经验,应运而生的提出了eLiza计划,并给它赋予了具有前瞻性的重要内容:即现代企业要想处于不败的竞争地位,其电子商务环境所使用的软硬件系统应具备下列四项原则:
- 自我配置能力:系统可以动态自我配置有关资源。
- 自我保护能力:系统有能力保护自己,不受到非法访问和攻击。
- 自我愈合能力:系统能够自动预测错误、避免错误、修复错误、取代有关错误部件。
- 自我优化能力:系统能够自动监视和管理有关资源,将系统性能调整到最佳状态。
为了达到以上目标,系统还需具备以下七个要素:
- 负载管理(Workload Management)
- 安全机制(Security)
- 群集技术(Clustering)
- 虚拟主机托管(Virtual Server Hosting)
- 端到端的自动控制(End-to-End Automation)
- 灾难恢复机制(Disaster Recovery)
- 端到端的系统管理(End-to-End Systems Management)
eLiza计划是IBM公司的一项长期的战略规划,它的基本思想已经在IBM公司的服务器(zSeries, pSeries, iSeries)得到了实现,同时它也适用于IBM的系统软件和应用软件,客户可以将IBM
服务器整合在一起,构成分布式自管理、自优化的高效率IT环境。
二、 p690 的RAS 特性
p690在高可靠性、高可用性、高服务性设计时,完全遵从了eLiza计划定义的四项原则设计理念,是IBM pSeries中RAS特性最高档的服务器,其综合特点见下表:
 |
| 自我配置(Self-configuring) |
自我愈合(Self-healing) |
 |
| 热插拔磁盘、电源、风扇 |
初始错误定位捕获 |
 |
| 热插拔PCI卡 |
Chipkill ECC内存、内存位动态迁移 |
 |
| 虚拟IP地址 |
ECC Cache、Cache位动态迁移 |
 |
| 微码侦查服务/产品侦察 |
内存清洗(Memory Scrubbing) |
 |
| IP多路路由 |
CPU、Cache、LPA资源动态再分配 |
 |
| TCP 拥塞明确通知 |
多路径I/O(Multipath I/O) |
 |
| 系统挂起动态恢复 |
|
 |
| Ether Channel失败自动接管 |
|
 |
| Call Home 服务支持功能 |
|
 |
| HACMP/HAGeo 备份软件 |
|
 |
| 自我优化(Self-optimizing) |
自我保护(Self-protecting) |
 |
| LPAR逻辑分区 |
自我保护的系统内核 |
 |
| 群集技术和群集管理 |
SecureWay LDAP目录集成 |
 |
| 负载管理(Workload Manager) |
Kerberos 验证服务器 |
 |
| PSSP 群集管理 |
SSL |
 |
| 扩展内存分配 |
数字证书(Digital Certificates) |
 |
| RSCT管理技术 |
加密技术(Encryption) |
 |
|