Geforce RTX 3090 fait soudainement crasher un PC portable - Carte graphique - Hardware
Marsh Posté le 21-08-2023 à 23:46:55
Plop.
A ce niveau , et vu les tests croisés ( je suis peu familier de ce type de matériel par ailleurs ) : et si c'était tout simplement le port thunderbolt le problème ? Possibilité de le tester avec un périphérique qui dépote un peu comme un SSD Nvme etc ?
Marsh Posté le 22-08-2023 à 07:08:49
| zonka a écrit : A ce niveau , et vu les tests croisés ( je suis peu familier de ce type de matériel par ailleurs ) : et si c'était tout simplement le port thunderbolt le problème ? Possibilité de le tester avec un périphérique qui dépote un peu comme un SSD Nvme etc ? |
+1
Marsh Posté le 22-08-2023 à 15:20:29
Bonjour,
Merci pour vos réponses. Super idée, mais le portable est régulièrement utilisé avec un vidéoprojecteur thunderbolt et test fait, il fonctionne encore avec. Donc vraisemblablement, pas de soucis Thunderbolt. Pas de bol.
Entre temps, j'ai un peu avancé sur le code d'erreur du BSOD. Bien que cela n'ait pas résolu complètement le problème, je mets ici les infos au cas où d'autres personnes aient le même souci : en fait il y a un bug connu chez Microsoft sur leur nouvelle protection DMA (Direct Memory Access), qui consiste à protéger l'ordinateur d'attaques par des périphériques externes qui accèdent directement à la mémoire (typiquement les périphériques Thunderbolt).
Le rapport de bug est ici : https://learn.microsoft.com/en-us/t [...] -violation et ils ne semblent pas l'avoir corrigé pour le moment. Ils conseillent de passer par le BIOS pour désactiver cette protection.
Ce que j'ai testé :
- faire un MSinfo32.exe : on voit que "Kernel DMA protection" est sur On.
- aller dans le BIOS. Malheureusement il n'y a pas d'entrée "protection DMA" dans ce BIOS-là, il faut désactiver la virtualisation Intel (paramètre VT-d).
- résultat : MSinfo32.exe : on voit que "Kernel DMA protection" est sur Off.
On branche la carte graphique : sous Windows, plus de BSOD, périphérique détecté mais pas reconnu. Et ça a planté Ubuntu (l'environnement graphique ne démarre plus, écran noir tiret blanc).
Donc on a résolu un problème : le PC ne crashe plus quand on branche la carte graphique. Mais on n'en est pas à la faire refonctionner encore. J'avoue que je ne sais plus trop par où chercher.
A suivre...
Marsh Posté le 23-08-2023 à 12:05:49
Le vidéoprojecteur utilise le thunderbolt en mode displayport.
C'est pas non plus la même agressivité qu'en mode PCIe (la vitesse de signalisation doit être plus basse).
Pour être sûr de savoir si c'est bien une régression du côté de Windows, tu peux installer une plus vieille version de windows et un vieux driver qui va avec.
Ton boitier thunderbolt, je suppose qu'il a son alim dédiée ?
Marsh Posté le 23-08-2023 à 13:24:52
Perso, j'avais éliminé l'éventuel souci d'alim intégrée au boîtier eGPU dans la mesure où ça fonctionne correctement sur un autre portable a priori .
Mais effectivement pas la même chose en débit entre un vidéoprojecteur et une 3090
Marsh Posté le 26-08-2023 à 08:16:13
Merci pour vos messages.
En effet, le VP c'est un peu différent, c'est la seule chose qu'on avait sous la main. Mais sans même parler de débit, avant même de lui faire cracher ses poumons en bande passante, au moins lui est reconnu sans problème. Mais si c'est en mode displayport, c'est probablement pas les mêmes pilotes. Et oui le boitier a une alim indépendante.
On va essayer de trouver un vieux windows, bonne idée.
Marsh Posté le 26-08-2023 à 08:48:40
| sycorax a écrit : (un BSOD avec comme code d'arrêt DRIVER_VERIFIER_DMA_VIOLATION). On a cherché dans cette direction sans succès. |
Je suppose que vous avez vu cette page de microsoft, mais je préfère demander.
Notamment :
| Citation : Ce problème se produit lorsque des appareils PCI (Périphérique Component Interconnect) hérités installés dans un châssis externe tentent d’accéder à la mémoire directe. Il s’agit d’un problème d’implémentation connu avec la protection DMA du noyau. |
Marsh Posté le 26-08-2023 à 08:56:06
L'OP a déjà vérifié et bien sûr il n'y a pas l'option dans ce bios de portable
Marsh Posté le 26-08-2023 à 09:01:26
Arf, j'étais passé à côté de CE post, désolé
Marsh Posté le 29-08-2023 à 06:27:58
]sycorax a écrit :En janvier dernier, cela fonctionnait très bien (il tourne sous Windows).
--> Donc restore a une date entérieur à Janvier ou réinstal complète.
Marsh Posté le 29-08-2023 à 13:26:22
S'il y a eu une injection de code dans l'UEFI par la MAJ windows comme ça se fait de nos jours pas dur que ça fonctionne
Marsh Posté le 09-09-2023 à 09:32:45
Merci pour vos messages.
lottte : on n'a malheureusement pas de points de restauration antérieurs à août, donc pas possible, et comme ça affecte un Ubuntu nouvellement installé, je pense que la réinstall ne changera rien.
zonka : ah ben là je tombe des nues, je ne savais pas que c'était possible (ça fait longtemps que je n'utilise plus trop Windows). Si une mise à jour peut faire ça alors ça explique tout ! Tout mon raisonnement était basé sur le fait que c'était impossible.
Je te remercie pour cette piste, je vais me renseigner sur le sujet.
Marsh Posté le 09-09-2023 à 10:05:08
Pour l'injection de code dans l'UEFI par l'OS, je dis peut-être une ÉNORME connerie, a confirmer. Mais a priori c'est possible . Il me semble qu'on a eu ça pour des patches de failles CPU mis en place par des MAJ windows au niveau du bios et pas juste au niveau OS, donc 'en dur' (?)
Marsh Posté le 21-08-2023 à 22:58:44
Bonjour tout le monde,
Cela fait plusieurs jours qu'on est dessus et qu'on perd complètement patience avec ce problème : on a un PC portable (ROG Zephyrus M16, caractéristiques en fin de post) qui sert à faire des calculs, en lui branchant une RTX 3090 externe (port Thunderbolt). En janvier dernier, cela fonctionnait très bien (il tourne sous Windows). 8 mois plus tard, quand on branche la 3090, elle est reconnue, s'affiche pendant quelques secondes dans le gestionnaire de périphériques, puis fait crasher le PC (un BSOD avec comme code d'arrêt DRIVER_VERIFIER_DMA_VIOLATION). On a cherché dans cette direction sans succès.
Depuis on a tenté plein de choses, et on est toujours au même niveau.
1. Réparations de Windows (mise à jour, restauration à une date antérieure (il y a 15 jours), etc.) -> rien.
2. Réparation du pilote NVIDIA (réinstallation du pilote, réinstallation des pilotes plus anciens) -> rien.
3. Test hardware : on a branché la 3090 sur un autre PC portable (un peu plus ancien, sous debian) : elle fonctionne très bien. C'est donc bien ce PC ROG le problème.
4. Changement d'OS : on a mis un Ubuntu, rajouté la clé pour que Secure Boot n'empêche pas l'utilisation, installé la dernière version du pilote (535) -> rien.
5. Changement de pilote : on a tenté d'installer la version 470 du pilote, parce que c'était la version sur la debian qui reconnaît la 3090 -> rien.
A chaque fois, la 3090 est reconnue et le pilote installé est le bon (les commandes lspci, lsmod, nvidia-smi, etc. affichent bien les deux cartes graphiques et leur pilote à jour), mais il ne se passe rien, elle est inutilisable ; par exemple elle ne s'affiche pas dans NVIDIA-settings. C'est comme si le noyau voyait qu'elle est là, mais qu'elle était "bloquée" quelque part et donc inutilisable par l'OS.
Cela me rend particulièrement perplexe, parce que je ne vois pas comment ça pourrait être hardware, et ça voudrait dire que Windows, de lui-même, a réussi à pourrir le système suffisamment "profond" pour que ça affecte aussi un autre OS sur la même machine, et que ça résiste à une restauration. Bref, est-ce que quelqu'un aurait une idée ou une piste ? On est complètement à court d'idées, là.
Bonne soirée,
Caractéristiques du matériel :
- PC portable ASUS ROG Zephyrus M16 | i9-12900H | 32 Go RAM | 3 To NVME | Geforce RTX 3070 Ti (interne) | Windows 11 famille version 22H2 | Ubuntu 22.04.3 LTS
- Carte graphique externe NVIDIA Geforce RTX 3090 | Boitier Thunderbolt (Contrôleur Intel JHL7540 Thunderbolt 3 Bridge [Titan Ridge DD 2018])