Исправляем ошибку с Placement Group в Ceph
Устранение проблем c PG Ceph кластера HEALTH_ERR 1 pgs inconsistent; 1 scrub errors
После замены патч-кордов на тестовом кластере обнаружил ошибку в Ceph.
$ ceph health detail
HEALTH_ERR 1 pgs inconsistent; 1 scrub errors
pg 1 is active+clean+inconsistent, acting [8]
1 scrub errors
Проверяем лог-файлы OSD:
root@webfeo:~# tail /var/log/ceph/ceph.log
2022-07-30T19:20:54.912586+0300 mgr.webfeo1 (mgr.64098) 318076 : cluster [DBG] pgmap v318231: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 3.4 MiB/s wr, 35 op/s
2022-07-30T19:20:56.913164+0300 mgr.webfeo1 (mgr.64098) 318077 : cluster [DBG] pgmap v318232: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 1.1 MiB/s wr, 30 op/s
2022-07-30T19:20:58.913674+0300 mgr.webfeo1 (mgr.64098) 318078 : cluster [DBG] pgmap v318233: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 244 KiB/s wr, 27 op/s
2022-07-30T19:21:00.914255+0300 mgr.webfeo1 (mgr.64098) 318079 : cluster [DBG] pgmap v318234: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 284 KiB/s wr, 34 op/s
2022-07-30T19:21:02.914793+0300 mgr.webfeo1 (mgr.64098) 318080 : cluster [DBG] pgmap v318235: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 178 KiB/s wr, 20 op/s
2022-07-30T19:21:04.915336+0300 mgr.webfeo1 (mgr.64098) 318081 : cluster [DBG] pgmap v318236: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 341 B/s rd, 222 KiB/s wr, 29 op/s
2022-07-30T19:21:06.915868+0300 mgr.webfeo1 (mgr.64098) 318082 : cluster [DBG] pgmap v318237: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 682 B/s rd, 248 KiB/s wr, 28 op/s
2022-07-30T19:21:08.916429+0300 mgr.webfeo1 (mgr.64098) 318083 : cluster [DBG] pgmap v318238: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 682 B/s rd, 185 KiB/s wr, 24 op/s
2022-07-30T19:21:10.917046+0300 mgr.webfeo1 (mgr.64098) 318084 : cluster [DBG] pgmap v318239: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 3.7 KiB/s rd, 238 KiB/s wr, 32 op/s
2022-07-30T19:21:12.917616+0300 mgr.webfeo1 (mgr.64098) 318085 : cluster [DBG] pgmap v318240: 32 pgs: 1 active+clean+scrubbing+deep, 31 active+clean; 144 GiB data, 288 GiB used, 643 GiB / 931 GiB avail; 3.7 KiB/s rd, 260 KiB/s wr, 29 op/s
В нем говорится что pgs: 1 есть ошибка active+clean+scrubbing+deep
Запускаем восстановление Placement Group:
$ ceph pg repair 1
instructing pg 1 on osd.1 to repair
Спустя несколько секунд наблюдаем, что PG успешно восстановлена и состояние кластера вернулось в нормальный режим работы.
$ ceph health detail
HEALTH_OK
Восстановление прошло успешно ошибка была исправлена active+clean+scrubbing+deep