| 故障分類 |
故障特征 |
故障分析 |
故障解決預(yù)案 |
| 啟動(dòng)類 |
整機(jī)不上電 |
按電源鍵無(wú)反應(yīng) |
檢查PSU、電源線、節(jié)點(diǎn)模塊是否插實(shí) |
| 啟動(dòng)類 |
單節(jié)點(diǎn)不上電 |
某節(jié)點(diǎn)無(wú)法上電 |
節(jié)點(diǎn)模塊金手指未插緊 |
重新插拔節(jié)點(diǎn)模塊 |
| 啟動(dòng)類 |
反復(fù)重啟 |
服務(wù)器自動(dòng)循環(huán)重啟 |
電源保護(hù)觸發(fā)或主板異常 |
檢查PSU并重置電源流程 |
| 啟動(dòng)類 |
上電無(wú)自檢 |
風(fēng)扇轉(zhuǎn)但無(wú)自檢畫(huà)面 |
節(jié)點(diǎn)板CPU/內(nèi)存未就位 |
檢查節(jié)點(diǎn)板安裝 |
| 啟動(dòng)類 |
啟動(dòng)卡在LOGO |
停留在開(kāi)機(jī)LOGO不進(jìn)入系統(tǒng) |
BIOS配置沖突或硬盤(pán)異常 |
恢復(fù)BIOS默認(rèn)/檢查系統(tǒng)盤(pán) |
| 啟動(dòng)類 |
上電延遲長(zhǎng) |
出現(xiàn)較長(zhǎng)等待時(shí)間才啟動(dòng) |
有多個(gè)GPU模塊初始化耗時(shí) |
屬正常現(xiàn)象或減少GPU數(shù)量測(cè)試 |
| 電源類 |
電源模塊報(bào)警 |
PSU紅燈亮 |
電源模塊損壞 |
更換PSU |
| 電源類 |
電源不同步 |
兩塊電源燈狀態(tài)不一致 |
冗余模式不同步 |
重新插拔電源模塊并檢查供電 |
| 電源類 |
風(fēng)扇瞬間全速 |
上電瞬間嗡鳴大 |
PSU啟動(dòng)自檢階段 |
屬正常行為 |
| 電源類 |
系統(tǒng)突然斷電 |
設(shè)備突然掉電 |
PSU過(guò)載或供電不穩(wěn) |
檢查總電源容量并更換PSU |
| 電源類 |
PSU風(fēng)扇持續(xù)高速 |
電源風(fēng)扇噪聲大 |
機(jī)箱溫度高或PSU內(nèi)部灰塵 |
清潔風(fēng)道 |
| 電源類 |
電源無(wú)法被識(shí)別 |
管理界面看不到PSU |
PSU通訊異常或背板接口問(wèn)題 |
重新插拔PSU |
| 散熱類 |
整機(jī)風(fēng)扇全速 |
所有風(fēng)扇滿速運(yùn)行 |
溫度傳感器失聯(lián) |
重啟BMC或檢查傳感器 |
| 散熱類 |
單風(fēng)扇報(bào)警 |
某風(fēng)扇紅燈或停轉(zhuǎn) |
風(fēng)扇模塊故障 |
更換風(fēng)扇模塊 |
| 散熱類 |
GPU區(qū)域溫度過(guò)高 |
GPU溫度報(bào)警 |
風(fēng)道堵塞或GPU散熱片積灰 |
清理GPU散熱 |
| 散熱類 |
節(jié)點(diǎn)區(qū)域溫度高 |
節(jié)點(diǎn)CPU溫度過(guò)高 |
節(jié)點(diǎn)風(fēng)道受阻 |
檢查節(jié)點(diǎn)風(fēng)扇與風(fēng)道 |
| 散熱類 |
風(fēng)扇噪音大 |
持續(xù)高噪音 |
高負(fù)載運(yùn)行或灰塵導(dǎo)致壓差大 |
清潔風(fēng)道 |
| 散熱類 |
風(fēng)扇轉(zhuǎn)速異常低 |
風(fēng)扇無(wú)法加速 |
供電不足或風(fēng)扇故障 |
檢查供電或更換風(fēng)扇 |
| 節(jié)點(diǎn)模塊類 |
節(jié)點(diǎn)無(wú)法識(shí)別 |
管理界面不顯示某節(jié)點(diǎn) |
節(jié)點(diǎn)金手指接觸不良 |
重新安裝節(jié)點(diǎn) |
| 節(jié)點(diǎn)模塊類 |
節(jié)點(diǎn)CPU不識(shí)別 |
開(kāi)機(jī)日志提示CPU缺失 |
CPU未壓緊或安裝異常 |
重新安裝CPU |
| 節(jié)點(diǎn)模塊類 |
節(jié)點(diǎn)內(nèi)存不識(shí)別 |
某內(nèi)存條無(wú)顯示 |
內(nèi)存未插緊或插槽損壞 |
重新插拔或更換槽位 |
| 節(jié)點(diǎn)模塊類 |
節(jié)點(diǎn)反復(fù)離線 |
BMC中節(jié)點(diǎn)掉線 |
節(jié)點(diǎn)通信鏈路不穩(wěn) |
檢查背板與節(jié)點(diǎn)接口 |
| 節(jié)點(diǎn)模塊類 |
節(jié)點(diǎn)風(fēng)扇持續(xù)滿速 |
節(jié)點(diǎn)溫度傳感器無(wú)反饋 |
重啟節(jié)點(diǎn)BMC或檢查傳感器 |
|
| 節(jié)點(diǎn)模塊類 |
節(jié)點(diǎn)頻繁報(bào)錯(cuò) |
節(jié)點(diǎn)日志大量錯(cuò)誤 |
節(jié)點(diǎn)主板損壞或內(nèi)存錯(cuò)誤 |
檢查節(jié)點(diǎn)硬件 |
| GPU類 |
GPU不識(shí)別 |
系統(tǒng)中無(wú)GPU顯示 |
GPU供電線未連接或插槽不支持 |
檢查供電/更換插槽 |
| GPU類 |
GPU掉線 |
GPU運(yùn)行后消失 |
供電不足或PCIe不穩(wěn) |
檢查大功率供電 |
| GPU類 |
GPU風(fēng)扇不轉(zhuǎn) |
風(fēng)扇停轉(zhuǎn)或異響 |
GPU風(fēng)扇損壞 |
更換GPU模塊 |
| GPU類 |
GPU溫度過(guò)高 |
GPU熱報(bào)警 |
風(fēng)道堵塞或涂層老化 |
清理并更換導(dǎo)熱材料 |
| GPU類 |
GPU性能下降 |
運(yùn)算速度變慢 |
溫度過(guò)高導(dǎo)致降頻 |
改善散熱環(huán)境 |
| GPU類 |
GPU錯(cuò)誤燈亮 |
模塊告警燈持續(xù)亮 |
GPU內(nèi)部異常 |
更換GPU |
| 存儲(chǔ)類 |
NVMe不識(shí)別 |
NVMe盤(pán)消失 |
硬盤(pán)未插緊或背板問(wèn)題 |
重新插拔盤(pán) |
| 存儲(chǔ)類 |
NVMe掉盤(pán) |
使用中隨機(jī)掉線 |
高溫或驅(qū)動(dòng)不兼容 |
改善散熱或更新驅(qū)動(dòng) |
| 存儲(chǔ)類 |
RAID降級(jí) |
陣列進(jìn)入Degraded模式 |
某盤(pán)離線 |
更換硬盤(pán)并重建 |
| 存儲(chǔ)類 |
SAS盤(pán)不亮燈 |
硬盤(pán)指示燈無(wú)反應(yīng) |
硬盤(pán)或背板故障 |
檢查背板電源 |
| 存儲(chǔ)類 |
熱插拔無(wú)效 |
插入硬盤(pán)無(wú)反應(yīng) |
SAS/NVMe通道未啟用 |
檢查適配器模式 |
| 存儲(chǔ)類 |
系統(tǒng)盤(pán)無(wú)法啟動(dòng) |
引導(dǎo)丟失 |
UEFI配置不當(dāng) |
重新設(shè)置啟動(dòng)項(xiàng) |
| PCIe/背板類 |
PCIe卡不識(shí)別 |
擴(kuò)展卡不顯示 |
PCIe插槽版本不匹配 |
使用正確插槽 |
| PCIe/背板類 |
PCIe速率異常 |
速率降到Gen3 |
鏈路質(zhì)量不佳 |
更換線纜或插槽 |
| PCIe/背板類 |
擴(kuò)展卡掉線 |
使用中斷連 |
供電不穩(wěn)或背板異常 |
檢查供電 |
| PCIe/背板類 |
OCP卡無(wú)網(wǎng)絡(luò) |
OCP適配器無(wú)鏈路 |
OCP未插緊 |
重新插拔OCP |
| PCIe/背板類 |
背板報(bào)警 |
背板LED亮紅燈 |
背板電源異常 |
檢查背板供電 |
| PCIe/背板類 |
PCIe錯(cuò)誤提示 |
系統(tǒng)報(bào)AER錯(cuò)誤 |
信號(hào)完整性問(wèn)題 |
更換插槽或線纜 |
| 網(wǎng)絡(luò)類 |
BMC 無(wú)法訪問(wèn) |
無(wú)法Ping或Web打不開(kāi) |
IP沖突或BMC死機(jī) |
重置BMC |
| 網(wǎng)絡(luò)類 |
網(wǎng)口無(wú)燈 |
鏈路不上 |
網(wǎng)線或交換機(jī)端口問(wèn)題 |
更換網(wǎng)線測(cè)試 |
| 網(wǎng)絡(luò)類 |
網(wǎng)絡(luò)速度很低 |
帶寬不達(dá)標(biāo) |
鏈路協(xié)商錯(cuò)誤 |
鎖定鏈路速率 |
| 網(wǎng)絡(luò)類 |
遠(yuǎn)程KVM黑屏 |
無(wú)法打開(kāi)KVM |
瀏覽器兼容問(wèn)題 |
使用HTML5模式 |
| 網(wǎng)絡(luò)類 |
SNMP無(wú)上報(bào) |
監(jiān)控?zé)o法接收數(shù)據(jù) |
SNMP未啟用或配置錯(cuò)誤 |
開(kāi)啟并配置SNMP |
| 網(wǎng)絡(luò)類 |
Syslog無(wú)記錄 |
日志未發(fā)送 |
Syslog服務(wù)器地址錯(cuò)誤 |
重新填寫(xiě)服務(wù)器地址 |
| 系統(tǒng)軟件類 |
無(wú)法安裝系統(tǒng) |
安裝界面卡頓 |
U盤(pán)不兼容或ISO損壞 |
重新制作U盤(pán) |
| 系統(tǒng)軟件類 |
系統(tǒng)安裝失敗 |
復(fù)制文件失敗 |
硬盤(pán)存在壞道 |
更換硬盤(pán) |
| 系統(tǒng)軟件類 |
無(wú)法進(jìn)入系統(tǒng) |
啟動(dòng)后黑屏 |
引導(dǎo)項(xiàng)損壞 |
修復(fù)GRUB/UEFI |
| 系統(tǒng)軟件類 |
驅(qū)動(dòng)無(wú)法加載 |
某硬件不工作 |
驅(qū)動(dòng)版本不匹配 |
安裝正確驅(qū)動(dòng) |
| 系統(tǒng)軟件類 |
系統(tǒng)性能低 |
運(yùn)行緩慢 |
電源模式被降頻 |
檢查BIOS電源策略 |
| 系統(tǒng)軟件類 |
應(yīng)用頻繁崩潰 |
程序使用中異常退出 |
內(nèi)存條存在錯(cuò)誤 |
檢測(cè)內(nèi)存 |
| 機(jī)箱/結(jié)構(gòu)類 |
機(jī)箱無(wú)法關(guān)閉 |
蓋板對(duì)不準(zhǔn) |
機(jī)箱鎖扣未歸位 |
重新調(diào)整蓋板 |
| 機(jī)箱/結(jié)構(gòu)類 |
指示燈異常 |
某指示燈持續(xù)亮 |
內(nèi)部模塊報(bào)警 |
檢查模塊狀態(tài) |
| 機(jī)箱/結(jié)構(gòu)類 |
滑軌卡頓 |
抽拉不順暢 |
滑軌潤(rùn)滑不足 |
潤(rùn)滑或調(diào)整滑軌 |
| 機(jī)箱/結(jié)構(gòu)類 |
前面板無(wú)指示 |
所有燈不亮 |
信號(hào)排線脫落 |
檢查前面板線纜 |
| 機(jī)箱/結(jié)構(gòu)類 |
模塊無(wú)法拔出 |
卡扣不彈起 |
鎖扣機(jī)構(gòu)卡頓 |
檢查鎖扣機(jī)構(gòu) |