网管经验谈 服务器常见软件故障解析

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

有一台HP LH6000R服务器,开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。

维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BIN(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。

由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。

曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。

但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windata.exe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。

对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。

还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。

人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。

正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。

这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例(使用的是UNIX,但思路对于其它操作系统均有效)。

(0)

相关推荐

  • 百度网盘Mac版和Mac同步盘有哪些区别?百度网盘Mac版常见问题解答

    百度网盘有 Mac 版了!非同步盘!那么,百度网盘Mac版和Mac同步盘有哪些区别呢?百度网盘 For Mac是一款Mac Os平台的文件储存工具,容量大,享受随时随地上传和下载,还是免费的,大家可以 ...

  • 百度网盘出现服务器忙不能在线看视频怎么办

    网盘出现服务器忙不能在线观看怎么办?别急,小编教你解决~ 操作方法 01 打开页面或网站时,在浏览器的这个位置有个"闪电"的标记(各个品牌的浏览器都是大同小异,几乎都是" ...

  • 网速很慢怎么办?影响网速慢的常见的问题及解决方法整理

    我估计你不是网速慢,而是你的电脑的内存可能不够用了。你可以告诉我你的内存是多大吗,因为网速是不同于电脑速度的,只要你的宽带超过了1.5M(如果没有达到的话你就只有去电信多加些钱了)的话那就是电脑硬件的 ...

  • 如何让外网访问本地服务器?

    如何让别人通过外网访问你的本地服务器,接下来将为你介绍如何使用花生壳建立本地网站,同时让外网的人访问你的服务. 操作方法 01 首行你要去注册一个花生壳帐号,这里就不写地址了,自己搜索一下.注册好后下 ...

  • 百度网盘提示服务器忙无法观看视频怎么办

    先以一个电影做一下示范,下面截图里的电影是我网盘里的. 点击打开,结果却显示“服务器有点忙,请稍后重试”.但是不管重试几回都是一样的结果,不能看.真是大伤雅兴.接下来是解决办法. 解决办法大致一样,这 ...

  • 服务器常见故障及排除(服务器出现故障是什么意思)

    服务器在使用的过程中用户会遇到蓝屏的故障情况.针对服务器蓝屏的故障类型,小编就详细的为大家介绍其中最为常见的几种故障代码及解决办法.1.0x0000007F故障代码服务器在出现这个故障代码的时候,初步 ...

  • IE浏览器常见错误解析

    有时候IE出现一些常见的错误,不懂的人大惊小怪,搞得重装系统,其实IE出现一些小错误是正常的,任何软件都会出现错误,其实不必慌张。下面脚本之家专家为新手解答常见的IE错误。 1、如何解除对右键的禁止? ...

  • 网店图片处理常见问题解答

    换季了,新货要上架,很多宝贝图片需要处理,网店掌柜们都忙得团团转。“百度知道”里有关网店图片处理的求助问题也越来越多,今天小编特意从中挑选出两个具有代表性的问题来解答,希望能帮助网店掌柜们解决一些实际 ...

  • 服务器常见故障及相应的解决方法

    操作方法 01 服务器一般是很少出现问题的,一旦出现问题,怎样去积极的抢救呢?我们不能坐以待毙,原因一旦服务器故障,那么该服务器上的所有网站将都会无法打开.对于一个企业来说,网站就是他们的命脉,损失是 ...