Omipay

    当前位置 > Omipay > 服务 > 服务器 > KunTai R722服务器硬盘故障问题分析

    KunTai R722服务器硬盘故障问题分析

    发布时间:2025-12-29

    一、现网描述

    1.1 环境描述

    设备型号:KunTai R722

    主板型号:S920X00-2*5250

     iBMC Version:3.11.00.27

    BIOS Version:7.15

    CPLD Version :2.00

     

    二、故障描述

    2.1故障现象

    1台R722 硬盘故障,导致整机被上层腾讯云踢出

     

    三、问题分析

    3.1排查思路

    查看current_event当前告警信息,设备当前无告警。

    1b1206d78e64a0554ed62c97a12bc77e.png

    查看sel事件记录,近期仅存在重启记录与硬盘更换记录,无其他异常。

    image.png

    查看RAID_Controller_Info.txt日志,当前RAID卡状态正常,模式为JBOD,Disk6有部分错误计数。

    c2b68166324a9d03a74026e740ded627.png

    c2b68166324a9d03a74026e740ded627.png

    分析硬盘smart参数日志,发现Disk6参数异常,硬盘存在UNC和坏道。

    dbc0603f243dcd51b0298a14e9c23e06.png

    Message显示sdg有多次复位

    0f31aa8484e3669b5523f07aa4809da7.png

    Dmesg显示sdg有掉盘

    0ca765281aeafc5e61c70507b75e4002.png

     

    上升至原厂研发后判断该问题与其他厂商所遇问题一致,为上层腾讯云平台机制有关。

    建议优先进行系统优化,防止再次出现整机剔除,后续进行硬盘固件版本升级。

     

    3.2原因分析

    综上,本次故障原因为硬盘Disk6产生UNC和重映射计数,业务侧对盘读写时IO时延高而剔除硬盘。

     

    四、问题解决

    4.1解决办法

    硬件侧

    更换问题硬盘Disk6,升级本批次设备中同型号希捷硬盘固件版本至SN04&SC04及以上,改进硬盘产生smart参数异常问题。

    软件侧

    建议OS侧排查是否合入SAS驱动补丁,如确定已合入则忽略此条;

    建议业务侧读到报错UNC地址时,进行读修复(存储会采用多节点备份,从正常节点数据写到异常盘里)或不在持续读同一个报错地址,避免进入异常循环导致IO时延高。

     

    400-810-9119
    7天*24小时全天候接听客户的任何需求。是接入最快捷、响应最及时的全真人服务窗口,节假日无休;并为VIP客户设置专属坐席,让最分析您的服务代表时刻为您服务。
    除了常规技术问题的服务请求,客户对于服务有任何建议和意见,可顺利获得服务邮箱发送邮件,邮件将直达服务经理,为您给出满意的答复。
    官方微信
    • Omipay

    微信搜索【Omipay】公众号,点击对话窗口发送信息,和Omipay进行沟通,解决您随时想到的任何咨询。