ho un problema che mi affligge da quando ho installato Debian 12 su
diversi host con installazione su raid mdadm. Il problema si manifesta
con uno 'shutdown -h now' o un 'reboot' o spegnendo da XFCE.
Per tagliare la testa al toro, ho installato due diverse distribuzioni e
le ho usate per qualche mese (AlmaLinux 9 e Fedora 40) e il problema non
si è mai manifestato. Non sono riuscito a provare Ubuntu LTS.
Ho cercato in rete per molto tempo non trovando nulla, fino ad oggi: https://lore.kernel.org/lkml/ad286d5c-fd60-682f-bd89-710a79a710a0@huaweicloud.com/T/
Strano che non ci siano molti casi riportati quando io su 3 macchine e
una virtuale hanno tutte riportato il problema. Forse non sono molte le >persone che hanno la root su raid mdadm?
Ora nella macchina virtuale il resync l'ho forzato io ma negli altri
casi da cosa può essere causato? Avviene un resync del raid a mia
insaputa per qualche problema (che ignoro)? In quali casi un resync
viene forzato dal sistema mentre è in uso?
Strano che non ci siano molti casi riportati quando io su 3 macchine e
una virtuale hanno tutte riportato il problema. Forse non sono molte le >persone che hanno la root su raid mdadm?
Io uso da qualche anno, a casa, una debian testing con la root su
mdraid 1 (nvme+ssd), e non ho mai avuto problemi di cui mi sia accorto.
È vero che raramente faccio un reboot (sta sempre accesa), ma ormai sono cinque anni che la uso.
E da molti anni uso, al lavoro, una debian testing con root raid1.
Prima erano due hdd, ora sono due ssd, dove "ora" è cominciato almeno
otto anni fa. Questa fa reboot ancora più di rado, ma problemi sul raid
non ne ho visti mai, per quel che può servire.
Ciao Diego,
ho fatto qualche altro test con la macchina virtuale che ho usato per verificare il problema. Ho installato anche kdump-tools crash kexec-tools
Praticamente ho rimosso un disco del raid e l'ho reinserito sulla macchina virtuale e il resync è partito. A quel punto lancio lo shutdown -h now e ottengo il kernel panic.
Nel dmesg del coredump del crash viene riportato:
"md: md1: recovery interrupted"
quindi il problema sembrerebbe essere legato a quanto riportato nel link
dove si ha un kernel panic quando si interrompe un resync.
Ora nella macchina virtuale il resync l'ho forzato io ma negli altri casi da cosa può essere causato? Avviene un resync del raid a mia insaputa per qualche problema (che ignoro)? In quali casi un resync viene forzato dal sistema mentre è in uso?
Grazie.
Saluti, Alessandro.
Forse è il caso di provare la testing che è in freeze? È sconsigliato >usare una testing quando è in freeze?
Ciao Davide e grazie per la tua risposta
hai provato usando systemd?
# systemctl poweroff
o
# systemctl reboot
Non vorrei che le vecchie modalità non siano al 100% funzionanti in
tutte le casistiche.
Lanciando ls -l /usr/sbin/shutdown mi dice che punta a /bin/systemctl quindi credo utilizzi gia systemctl di default o sbaglio?
Se i risultati sono gli stessi, allora hai provato usando un diverso
DE (Desktop Environment) e magari anche un diverso DM (Desktop Manager)?
Io proverei con gdm3 e Gnome, dato che sono quelli ufficiali Debian.
Per tagliare la testa al toro, ho installato due diverse distribuzioni e le ho usate per qualche mese (AlmaLinux 9 e Fedora 40) e il problema non si è mai manifestato. Non sono riuscito a provare Ubuntu LTS.
ma anche qui hai usato la stessa combinazione di DM+DE?
Accade sia da DE che da console. Su AlmaLinux e Fedora 40 (ora 41) cmq uso
la stessa configurazione (ligthdm + XFCE)
Ho cercato in rete per molto tempo non trovando nulla, fino ad oggi: https://lore.kernel.org/lkml/ad286d5c-fd60-682f-bd89-710a79a710a0@huaweicloud.com/T/
io aprirei un bug report, se già non c'è su Debian, e indicherei quanto qui hai riportato, con anche quel thread su kernel.org
Se c'è già un bug aperto, allora rispondi e riporta anche la tua esperienza.
Ok, cercherò se è gia presente un bugreport altrimento ne apro uno.
Quello che mi incuriosisce è che non c'è molto in rete su questo problema, quindi o quasi nessuno usa la root su device raid mdadm oppure non saprei.
Ho installato anche Debian Testing (13) ma è peggio di prima, ora ogni 2 >reboot uno va in panic e kdump non riesce a fare nulla, ovvero kexec
lancia il nuovo kernel ma restituisce diversi trace e si blocca.
Ultima prova che mi rimane da fare sulla Z890-F è quella di non usare >dischi nvme e usare due sata da 2.5 (anche se sulle altre il problema
rimane comunque)
Non so cosa altro fare....
...mdadm: /usr/lib/systemd/system/mdadm-grow-continue@.service
mdadm: /usr/lib/systemd/system/mdadm-last-resort@.service
mdadm: /usr/lib/systemd/system/mdadm-last-resort@.timer
mdadm: /usr/lib/systemd/system/mdcheck_continue.service
mdadm: /usr/lib/systemd/system/mdcheck_continue.timer
mdadm: /usr/lib/systemd/system/mdcheck_start.service
mdadm: /usr/lib/systemd/system/mdcheck_start.timer
mdadm: /usr/lib/systemd/system/mdmon@.service
mdadm: /usr/lib/systemd/system/mdmonitor-oneshot.service
mdadm: /usr/lib/systemd/system/mdmonitor-oneshot.timer
mdadm: /usr/lib/systemd/system/mdmonitor.service
mdadm: /usr/lib/systemd/system-shutdown/mdadm.shutdown
Ho anche io tutti gli stessi unit/timer (ps: con quale comando hai
ottenuto questa lista?).
Davide Prina ha scritto:
hai provato usando systemd?
# systemctl poweroff
o
# systemctl reboot
Non vorrei che le vecchie modalità non siano al 100% funzionanti in
tutte le casistiche.
Lanciando ls -l /usr/sbin/shutdown mi dice che punta a /bin/systemctl
quindi credo utilizzi gia systemctl di default o sbaglio?
Forse è il caso di provare la testing che è in freeze? È sconsigliato usare una testing quando è in freeze?
Il problema non accade al primo reboot ma in maniera random quando
effettuo uno shutdown o un reboot. Accade ogni N giorni. Per replicarlo sulle macchine che ho elencato mi sono messo a manina a riavviare finche
non usciva l'errore.
Buongiorno Davide e grazie per la risposta.
Il 06/04/25 10:54, Davide Prina ha scritto:
Alessandro Baggi ha scritto:
Davide Prina ha scritto:
hai provato usando systemd?
# systemctl poweroff
o
# systemctl reboot
Non vorrei che le vecchie modalità non siano al 100% funzionanti in tutte le casistiche.
Lanciando ls -l /usr/sbin/shutdown mi dice che punta a /bin/systemctl quindi credo utilizzi gia systemctl di default o sbaglio?
qualcosa mi sfugge:
1) se non ricordo male shutdown usa il parametro -h per indicare quando
quindi shutdown -h now
ma systemctl usa -h per l'help
2) systemctl può essere invocato anche come systemctl halt che non spegne
la macchina
ma
$ man shutdown
[...]
-h
The same as --poweroff, but does not override the action to take if it
is "halt". E.g. shutdown --reboot -h means "poweroff", but
shutdown --halt -h means "halt".
[...]
$ man systemctl
[...]
-h, --help
Print a short help text and exit.
[...]
Ed effettivamente
$ ls -l /usr/sbin/shutdown
lrwxrwxrwx /usr/sbin/shutdown -> ../bin/systemctl
probabilmente in systemctl c'è un wrapper che guarda se il comando eseguito
è showtdown allora trasforma quanto passato...
ora non ho voglia di provare... odio riavviare o spegnere e riaccendere
Non dirlo a me, sto diventando scemo a forza di accendere/spegnere/riavviare
Bho, io proverei ad usare systemctl
Non mi resta che provare e verificare ulteriormente.
Grazie.
Saluti, Alessandro.
ho ricevuto un aggiornamento da un bug in cui mi è stato detto che c'è
una race condition nei moduli del kernel relativi ad md.
Inoltre mi è stato chiesto di compilare un kernel mainline (6.14 credo),
di applicare la patch e testare.
Ho compilato, installato l'immagine e i moduli, lanciato
update-initramfs -c -k 6.14.0-1-amd64, lanciato update-grub senza
ricevere errori ma al riavvio in un primo momento ottenevo:
"unable to mount rootfs on /dev/md1 or unknown-block.."
e successivamente:
mdadm: No devices listed in conf file were found
mdadm: error opening /dev/md?*: No such file or directory
e poi lancia busybox.
Il 08/04/25 16:43, Alessandro Baggi ha scritto:
Tornando al problema del kernel panic, ho fatto le diverse prove per verificare che la patch funzionasse.
Prima ho riprodotto il problema con il kernel 6.1 e al terzo reboot
è andato in panic.
Poi ho avviato il kernel 6.14 con la patch applicata e dopo 50
reboot non ha riportato nessun panic. Ora 50 reboot sono pochini per
dire che è fixato, ma nei prossimi giorni faro altri testi con altro hardware.
Questo è il link del bug per chi volesse approfondire.
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=1086175
Saluti, Alessandro
Buonasera,
a quanto pare il bug è stato chiuso e se non ho letto male è disponibile in experimental. Questo significa che la Stable e LTS non vedranno la correzione? E riguardo a testing?
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=1086175
Saluti, Alessandro.
Salve a tutti,
per chi fosse interessato, un piccolo aggiornamento riguardo questo
problema. I pacchetti sono stati rilasciati per unstable ed experimental. Su debian testing il backport dovrebbe essere gia attivo mentre per la stable con 6.1.x ci vuole qualche aggiustamento per avere la patch funzionante.
Saluti, Alessandro.
a quanto pare il bug è stato chiuso e se non ho letto male è disponibile in experimental. Questo significa che la Stable e LTS non vedranno la correzione?
E riguardo a testing?
In pratica sono riuscito a risolvere il problema usando il comando:
# make -j12 bindeb-pkg
e poi ho installato con dpkg -i *.deb
Il 13/04/25 10:32, Davide Prina ha scritto:
anche in testing viene portato, dopo aver soggiornato in Sid per un po'
di giorni... anche nelle parti di freeze più avanzate i bug di questo
genere solitamente vengono fatti passare manualmente
Quindi leggendo da qui >https://salsa.debian.org/kernel-team/linux/-/merge_requests/1451 il
kernel backport dovrebbe avere già la patch pronta?
Sysop: | Keyop |
---|---|
Location: | Huddersfield, West Yorkshire, UK |
Users: | 546 |
Nodes: | 16 (2 / 14) |
Uptime: | 40:03:34 |
Calls: | 10,392 |
Files: | 14,064 |
Messages: | 6,417,198 |