狀況: 其這一台發生問題的時間比測試機早,這一台是我在上班時間發生的狀況,測試機是同一天的半夜…只不過,aws 的 ebs 只能掛載在同一個「可用區域」的 instance 中,這台 DB instance 的可用區域我老闆建置在別的地方,跟公司原本的可用區域的位置不同,所以一開始我沒辦法把 db 的 ebs 掛到另一個區域的救援機上,所以之前只能先救援測試機
就在凌晨把測試機救援回來就有相對的信心來處理 DB server
救援操作
- 啟動 DB instance
- 雖然已經知道無法正常啟動,但我主要是要看截圖畫面看卡在哪,跟系統日誌
- 系統日誌大至上和測試機異常時的日誌一樣,但截圖畫面不一樣,測試機卡住的畫面就只有一個游標,但 DB instance 是卡在 `systemd-journald[xxx]: File /run/log/journal/[...]/system.journal corrupted or uncleanly shut down, renaming and replacing.`
- 停止 DB instance
- detach DB EBS
- create Rescue instance
- mini 的規格就行
- 要記得可用區域要和 DB instance 同一個
- DB EBS attach to Rescue instance
- ssh 進入 Rescue instance
- sudo mount /dev/xvdf1 /mnt/recovery
- xvdf1 是我自己編的,請以實際情況下的代號為主
- sudo chroot /mnt/recovery
- cd /var/log/journal
- 因為這次的問題,系統並沒有啟動到 syslog 的服務,所以從 syslog 中看不到紀錄
- 會找 journal 主要是因為 `systemd-journald[xxx]: File /run/log/journal/[...]/system.journal corrupted or uncleanly shut down, renaming and replacing.`
- journalctl -p5
- 直接 cat system.journal 會看不懂,這個檔本身的資料編碼應該是特殊的,所以要透過 journalctl 來看 systemd 的紀錄
- -p: priority, 列出指定等級的紀錄
- 0: emerg
- 1: alert
- 2: crit
- 3: err
- 4: warning
- 5: notice
- 6: info
- 7: debug
- 看到紅字的異常 `systemd[xxx]: multipathd.service: Failed to adjust resource limit RLIMIT_NOFILE: Operation not permitted`
- 我主要是先看紀錄的時間,因為我還記得重新啟動的時間大概是什麼時候,所以以這個時間來看啟動紀錄中有沒有異常的,而紅字比較明顯
- 又是熟悉的 RIMIT_NOFILE…
- /etc/sysctl.conf: 沒發現有設定 `fs.file-max` 和 `fs.nr_open`
- /etc/sysctl.d/100-custom.conf: 這是新增出來的檔案,有加上 `fs.nr_open = 102400`
- 我其實本來就有預期應該是和測試機是同一個問題,只是我沒想到的是我在 DB instance 並沒有在 /etc/sysctl.conf 設定 `fs.file-max = 102400`,所以可知這兩次的主因都是 `fs.nr_open`
- 將 `fs.nr_open` 先註解掉
- 退出 chroot(直接 exit)
- umount /mnt/recovery
- 退出 Rescue instance
- 停止 Rescue instance
- (確定已停止) detach DB EBS
- attach DB EBS 到 DB instance
- 啟動 DB instance
- 啟動正常
救援 DB server 花的時間就沒有測試機來的久了
呼,好佳在都解決了