BSOD et autres crash = problème matériel ? - Matériels & problèmes divers - Hardware
Marsh Posté le 13-06-2020 à 19:05:34
Bonjour,
A tu tester les barrettes séparément ?
Si oui et que tu a des erreurs sur les 2 pour moi c'est go sav ^^
Marsh Posté le 13-06-2020 à 20:15:51
Bonjour,
Effectivement j'ai testé les deux barrettes séparément.
Certains pensent à une éventuelle incompatibilité avec la CM.
Je dois encore faire des vérifications en attendant le retour du sav^^.
Marsh Posté le 23-06-2020 à 23:10:44
Bonsoir,
J'ai fait quelques vérifications notamment sur la base de ce que vous m'avez dit et certaines modifications. Il y a un peu de nouveau.
Pour commencer j'ai fait quelques tests OCCT qui n'ont rien montré de particulier... pour le temps que je les ai laissés (le test PSU fait trop chauffer le CPU qui monte près des 85° après plusieurs minutes). Le test CPU ne génère aucun bug après 30 minutes et la température n'excède pas les 75° (en réalité on est plus aux alentours de 70°). Le test GPU ne fait rien de particulier si ce n'est toujours ce bruit de coil whine (je suppose).
Les barrettes de RAM ne sont pas référencées officiellement mais tous les réglages sont ok (unbuffered, timings etc.).
Pour le reste, je n'ai pas de matériel de rechange sur lequel me servir. J'attends donc le retour du SAV que je relance aujourd'hui pour voir s'ils pensent qu'il est nécessaire de faire des recherches complémentaires d'un point de vue matériel...
--------
Pour les nouveautés :
J'ai désinstallé les drivers de la CM puis je les ai réinstallés depuis le CD d'installation fournis avec la CM (en transférant le tout sur une clé usb...). J'ai également installé l'utilitaire fourni avec. Après la configuration du logiciel, les variations de fréquence ont cessé. Les courbes sont uniformes maintenant et ne varient plus en idle mais à mon avis le processeur chauffe légèrement plus maintenant (pas énormément).
J'ai checké les fréquences, les températures et voltages du CPU et du GPU en jeu. Sans surprise, le CPU est assez peu utilisé et sa température est à environ 60°. Le GPU est exploité à 97 % (avec les graphismes au Max et le raytracing activé). La température est à peu près du même ordre 50/60°. Je n'ai pas constaté de chute de fréquences ni rien en jeu... Ce qui n'évite pas les problèmes.
J'ai refait les tests avec la dernière version de Memtest86. Là mes barrettes de RAM sont clairement reconnues et identifiées (Marque, fréquence, timings etc.) alors qu'elles ne l'étaient pas précédemment. Cette version lance 4 passes. J'ai lancé un test complet à 4 passes et un à 1 passe. Plus la moindre erreur alors qu'auparavant elles apparaissaient très rapidement. Ca ne veut pas dire que la ram n'est pas défectueuse de ce que j'ai compris mais peut être que l'on peut considérer que le problème vient d'ailleurs ?
Toujours est il que le PC est encore très instable... J'ai encore eu de nombreux plantages.
Hier, en testant en jeu, j'ai eu plusieurs plantages du jeu (FPS), le PC qui a redémarré etc. Un bug en particulier a attiré mon attention : hors menu (donc dans les scènes 3D), le son du jeu a commencé à buguer (sons dans une boucle très rapide), le curseur de la souris tel qu'il est modifié dans les menus du jeu est apparu, les mouvements de la souris n'étaient pas pris en compte mais les clics oui (je pouvais voir l'arme tirer) et le jeu tournait toujours puisque je voyais que l'on me tuait en jeu... J'en déduis peut être à tort que la CG ne présente pas de problème matériel.
Sinon toujours, des redémarrages et des BSOD que ce soit en jeu ou sur une utilisation bureautique (deux BSOD pendant de l'utilisation bureautique et un deux en jeu aujourd'hui). A côté de ca, j'ai quand même pu jouer pendant une heure sans difficulté et sans signe d'instabilité.
Celui-ci pointe Modern Warfare car le BSOD a eu lieu pendant mes tests sur ce jeu :
Code :
|
Deuxième BSOD semblable aux autres :
Code :
|
Les autres BSOD sont les mêmes sauf un qui pointe un problème hardware.
Bonne soirée
Marsh Posté le 23-06-2020 à 23:15:58
Plusieurs possibilités:
Peut être que les réglages de ta RAM sont incorrects (tension trop basse, mauvais timings etc ...). Ca peut valoir le coup de tester avec des valeurs très "faibles" (timings élevés et fréquence faible avec tension élevée par exemple).
Ceci étant dit, à la lecture de ton post, j'ai un doute sur le fait que ça soit la source des maux. Si une des barrettes avait un problème, tu n'aurais plus de crashes en utilisant l'autre. La probabilité que les deux soient DOA est très faible.
Un adressage mémoire incorrect peut aussi venir du CPU ou de la CM. Un ami a mis plus de 6 mois a se rendre compte que ses BSODs aléatoires n'étaient ni liés à la RAM ni à la CM mais bel et bien au CPU D'ailleurs ton problème y ressemble assez, à la différence que lui n'arrivait jamais à avoir des erreurs sur Memtest86. Mais ceci étant dit, je crois qu'il n'a jamais utilisé la touche F2 pour utiliser tous les cores/threads de son CPU
Ce qui est "intéressant" dans ton test Memtest86, c'est qu'on voit qu'un core (12) est à l'origine de toutes les erreurs. Peut être que ton screen ne montre pas tout, pourrais-tu vérifier avec le rapport complet ?
En tout cas étant donné la nature du problème et les tests que tu as opérés, je pense que tu peux enlever sans souci la cause logiciel, ton problème pointe clairement vers une défaillance matérielle.
Marsh Posté le 24-06-2020 à 00:16:46
Bonsoir,
J'ai vérifié les timings etc. Ils correspondent à ceux suggérés par le constructeurs.
Pour les erreurs memtest je les ai effectivement eues sur différents coeurs. Ce qui me surprend, c'est que je n'ai plus d'erreurs avec le nouveau memtest.
Marsh Posté le 24-06-2020 à 09:51:11
supertoothcom a écrit : Bonsoir, |
Possible, mais je pensais plus à un underclocking volontaire voir si la situation s'améliore
Marsh Posté le 13-06-2020 à 16:42:42
Bonjour à tous !
Je me permets de solliciter votre aide pour un PC acheté récemment avec lequel j'ai rencontré pas mal de problèmes. J'ai déjà contacté par mail le SAV du site sur lequel j'ai acheté les composants mais vu le contexte actuel, je pense qu'ils auront du mal à répondre rapidement (ce qui est compréhensible). Aussi, j'ai fait quelques tests complémentaires depuis mon mail donc je me suis dit que j'allais tenter de trouver des pistes avec vous si vous le voulez bien ! Je suis désolé, ce sera un peu long mais je préfère en mettre trop que pas assez.
Mon souci peut se résumer ainsi. Depuis que tout a été monté, le PC tourne relativement bien. Je peux jouer des heures avec tous les paramètres au max sans que le PC plante, idem avec des logiciels nécessitant beaucoup de calculs (logiciels de 3D par exemple...). Mais le PC plante aussi, plus ou moins fréquemment selon les jours, que ce soit en activité poussée (jeu, logiciel de 3D...) ou en activité "légère" comme de la navigation internet.
Problème
Concrètement il s'agit de BSOD divers (je n'ai plus tous les crashdump mais les derniers pointent presque tous un même problème), le PC qui se freeze complètement, qui s'éteint, qui redémarre ou encore les périphériques qui s'éteignent (écran, clavier, souris etc. - d'ailleurs ce problème a de nouveau eu lieu pendant que j'étais en train de vous écrire) alors que le PC semble tourner normalement, voire parfois à pleine balle. Par contre, il démarre sans souci et hormis ces problèmes, tout tourne bien, rapidement et j'ai rarement eu des messages d'erreurs (quelques uns en jeu - messages classiques relatifs à DirectX). La seule lenteur que j'ai pu constater, c'est au moment d'accéder au menu Système des Paramètres de Windows.
Avant d'aller plus loin, je vous présente la config :
OS : Windows 10
CPU : AMD Ryzen 7 2700x avec le ventirad d'origine
GPU : Gigabyte GeForce RTX 2070 super windforce OC 3X 8G
RAM : DDR4 Cruciable Ballistix White (2x16GO) 2666 MHz CAS 16
SSD : Crucial MX500 250GO
HDD : Seagate Barracuda 1 To
Carte wifi : Asus PCE-AC51
CM : Asus TUF B450 PLUS GAMING (Bios à jour)
Alim : Corsair CV650
Je n'ai pas cherché à overclocker quoi que ce soit. La CG l'est d'office. J'ai juste activé le profil DOCP de la RAM dans le Bios (les problèmes existaient déjà avec l'activation du profil docp).
Le cablage a l'air ok, chaque composant est à sa place et est détecté normalement et la RAM est en dual channel.
Pistes et recherches
Au début, comme le PC se lançait normalement, jusque l'arrivée dans la session windows, j'ai suspecté une mauvaise installation de windows (qui a bugué lors de l'installation). J'ai donc fait une nouvelle installation mais le problème est de nouveau apparu avec peut être 5-6 BSOD par jour.
Je me suis donc penché sur les drivers installés. Un driver de chez nvidia (nvlddmkm.sys) était visé dans l'un des crashdump. Après diverses tentatives de réparation, j'ai désinstallé les drivers Nvidia avec DDU puis fait une nouvelle installation sans installer GeForce experience qui semble être source de nombreux problèmes. Problème non résolu (j'ai tenté des stress test, peut être trop courts, avec OCCT qui n'ont rien donné).
Après plusieurs nouvelles installations de windows et autres recherches de solution, j'ai lancé le vérificateur de drivers de windows. 2-3 minutes après l'ouverture de la session, le vérificateur de drivers poussait le PC à redémarrer. J'ai testé les drivers un à un pour trouver celui qui posait problème ce qui m'a conduit à désinstaller le driver logitech de mon clavier. Le vérificateur a cessé de faire redémarrer mon PC mais les problèmes de BSOD et autres plantages n'ont pas cessé.
En lançant des commandes comme sfc /scannow chkdsk, des erreurs ont été détectées et corrigées. Un test sur Memtest86+ n'a rien détecté mais peut être que je l'ai arrêté trop tôt.
Pour repartir sur des bases saines pour la recherche de bugs, j'ai réinstallé Windows (ca fait beaucoup et je ne sais pas si c'est une bonne idée ^^). Sans surprise, les problèmes sont toujours présents depuis ce jour.
CrystalDiskInfo m'indique que l'état de mon SSD et de disc dur est correct. La température du SSD est aux alentours de 34-38°C et le HDD reste bloqué à 29 °C.
Pendant une utilisation basique, la température du CPU est entre 35° et 50° et sur une utilisation intensive (stress test), il monte rapidement à 65° puis bien plus lentement aux environs de 80° (je le stoppe dans ces eaux là de peur de le cramer même si la marge est très certainement importante à ce stade...). Les tensions oscillent à l'heure ou je vous parle entre 1, 28 et 1,42 V. Il m'est arrivé ponctuellement d'avoir une variation beaucoup plus importante qui était dû, je pense, aux paramètres d'alimentation par défaut de windows (ca s'est réglé en le réglant sur performances maximales / en utilisant les paramètre AMD Balanced).
La variation des fréquences du CPU me semble très importante. Ayant du mal à interpréter les infos d'OCCT j'ai du mal à savoir si ce que j'y vois est normal. La fréquence du premier coeur semble stable mais les autres varient énormément. Sur la capture d'écran on est sur une utilisation basique. Seul Firefox est ouvert pour rédiger ce post :
Au niveau du GPU je n'ai pas de souci de chauffe particulière. Le seul "problème" est un bruit strident / électrique qui me semble venir de l'alimentation lorsque la carte graphique monte en puissance (et non de la carte graphique elle même). Je suppose qu'il s'agit du fameux coil whine auquel on ne peut pas grand chose et qui est censé être normal.
Je ne vous joins que deux extraits de crashdump les derniers pointant tous un même problème :
Hormis celui mentionnant un MODULE_NAME hardware, les 5 autres minidump enregistrés depuis la dernière installation sont semblables au dernier extrait ci-dessus (memory corruption).
Là encore, je n'y comprends pas grand chose (vous l'aurez compris) mais hardware + memory_corruption, je me suis dit que j'allais relancer un test de la mémoire avec Memtest86+. Je l'ai donc fait en utilisant tous les coeurs / threads (touche F2 au lancement de Memtest86+).
Lors du premier essai, plus de 140 erreurs sont apparues au début de la deuxième bout(au bout de 3-4h environ). Le deuxième essai a permis de mettre en évidence plus de 400 erreurs et beaucoup plus vite (peut être au bout de 10-15 minutes). Les essais qui on suivi on également fait apparaitre un grand nombre d'erreurs très rapidement (je n'ai pas poussé les tests jusqu'à leur terme - c'est très long et je sais qu'il y a beaucoup d'erreurs). Je vous mets une image de ces problèmes au cas où (cet exemple est survenu après désactivation du profil DOCP) :
J'ai fait les tests suivants :
Dans chacune de ces configurations un nombre important d'erreurs a été détecté par Memtest86+. Malheureusement, je n'ai pas d'autre barrette de RAM pour tester mais il me semble peu probable que les deux barrettes d'un même lot aient un souci.
Voilà où j'en suis aujourd'hui... Le problème est peut être tout bête mais je n'ai pas la réponse. Je pense que vous aurez des idées bien plus précises que moi sur le sujet.
Je m'interroge sur l'origine du problème. J'aurais tendance à penser que le problème est matériel mais quelque chose m'échappe peut être. Problème avec la RAM, le CPU, la CM, autre chose ? Le fait que parfois le PC "éteigne" l'ensemble des périphériques après un court freeze n'est il pas un indice d'un problème avec le CPU ou la carte mère ? Idem pour les erreurs sur les deux barrettes de RAM ? Une incompatibilité quelconque ? Si vous avez des idées ou des informations sur des tests / vérifications à mener je suis preneur. J'ai tenté pas mal de trucs trouvés sur le net mais il y a peut être d'autres pistes.
Je vous remercie par avance pour votre aide !
Bonne soirée