GPU NVIDIA série RTX 3000: voici les nouveautés - Moyens I/O

GPU NVIDIA série RTX 3000: voici les nouveautés

Le 1er septembre 2020, NVIDIA a dévoilé sa nouvelle gamme de GPU de jeu: la série RTX 3000, basée sur leur architecture Ampere. Nous discuterons des nouveautés, du logiciel alimenté par l’IA qui l’accompagne et de tous les détails qui rendent cette génération vraiment géniale.

Découvrez les GPU de la série RTX 3000

Gamme de GPU RTX 3000

L’annonce principale de NVIDIA était ses nouveaux GPU brillants, tous construits sur un processus de fabrication 8 nm personnalisé, et tous apportant des accélérations majeures en termes de performances de rastérisation et de lancer de rayons.

Dans le bas de la gamme, il y a le RTX 3070, qui coûte 499 $. C’est un peu cher pour la carte la moins chère dévoilée par NVIDIA lors de l’annonce initiale, mais c’est une super affaire une fois que vous apprenez qu’elle bat la RTX 2080 Ti existante, une carte haut de gamme qui se vendait régulièrement plus de 1400 $. Cependant, après l’annonce de NVIDIA, le prix de la vente aux tiers a chuté, un grand nombre d’entre eux étant vendus en panique sur eBay pour moins de 600 $.

Il n’y a pas de repères solides au moment de l’annonce, il n’est donc pas clair si la carte est vraiment objectivement «meilleur» qu’un 2080 Ti, ou si NVIDIA déforme un peu le marketing. Les benchmarks en cours d’exécution étaient à 4K et avaient probablement RTX, ce qui pourrait donner l’impression que l’écart est plus grand qu’il ne le sera dans les jeux purement tramés, car la série 3000 basée sur Ampère fonctionnera deux fois plus bien au traçage de rayons que Turing. Mais, le traçage de rayons étant maintenant quelque chose qui ne nuit pas beaucoup aux performances et étant pris en charge par la dernière génération de consoles, c’est un argument de vente majeur pour le faire fonctionner aussi vite que le produit phare de la dernière génération pour près d’un tiers du prix.

On ne sait pas non plus si le prix restera ainsi. Les conceptions tierces ajoutent régulièrement au moins 50 USD au prix, et compte tenu de la forte demande, il ne sera pas surprenant de le voir se vendre 600 USD en octobre 2020.

Juste au-dessus se trouve le RTX 3080 à 699 $, ce qui devrait être deux fois plus rapide que le RTX 2080 et environ 25 à 30% plus rapide que le 3080.

Ensuite, en haut de gamme, le nouveau produit phare est le RTX 3090, ce qui est comiquement énorme. NVIDIA en est bien conscient et l’appelle «BFGPU», ce qui, selon la société, signifie «Big Ferocious GPU».

GPU RTX 3090

NVIDIA n’a montré aucune mesure de performance directe, mais la société a montré qu’elle exécutait des jeux 8K à 60 FPS, ce qui est vraiment impressionnant. Certes, NVIDIA utilise presque certainement DLSS pour atteindre cet objectif, mais le jeu 8K est un jeu 8K.

Bien sûr, il y aura éventuellement une 3060 et d’autres variantes de cartes plus axées sur le budget, mais celles-ci arrivent généralement plus tard.

Pour refroidir réellement les choses, NVIDIA avait besoin d’un design de refroidisseur repensé. Le 3080 est évalué à 320 watts, ce qui est assez élevé, donc NVIDIA a opté pour une conception à double ventilateur, mais au lieu des deux ventilateurs vwinf placés en bas, NVIDIA a placé un ventilateur sur l’extrémité supérieure où la plaque arrière va habituellement. Le ventilateur dirige l’air vers le haut vers le refroidisseur du processeur et le haut du boîtier.

le ventilateur vers le haut sur le GPU améliore le flux d'air du boîtier

À en juger par les performances pouvant être affectées par un mauvais flux d’air dans un boîtier, cela est parfaitement logique. Cependant, le circuit imprimé est très exigu à cause de cela, ce qui affectera probablement les prix de vente des tiers.

En relation :  Comment éditer des vidéos sur votre iPhone ou iPad

DLSS: un avantage logiciel

Le lancer de rayons n’est pas le seul avantage de ces nouvelles cartes. Vraiment, c’est un peu un hack – les séries RTX 2000 et 3000 ne le sont pas cette bien meilleur pour faire du lancer de rayons, par rapport aux anciennes générations de cartes. Le traçage de rayons d’une scène complète dans un logiciel 3D comme Blender prend généralement quelques secondes, voire quelques minutes par image, il est donc hors de question de le forcer brutalement en moins de 10 millisecondes.

Bien sûr, il existe un matériel dédié pour exécuter des calculs de rayons, appelés cœurs RT, mais en grande partie, NVIDIA a opté pour une approche différente. NVIDIA a amélioré les algorithmes de débruitage, qui permettent aux GPU de restituer un passage unique très bon marché qui semble terrible, et d’une manière ou d’une autre – grâce à la magie de l’IA – en faire quelque chose qu’un joueur veut regarder. Lorsqu’il est combiné avec des techniques traditionnelles basées sur la rastérisation, il offre une expérience agréable renforcée par des effets de lancer de rayons.

image bruyante lissée avec le débruiteur NVIDIA

Cependant, pour faire cela rapidement, NVIDIA a ajouté des cœurs de traitement spécifiques à l’IA appelés cœurs Tensor. Ceux-ci traitent tous les calculs nécessaires pour exécuter des modèles d’apprentissage automatique et le font très rapidement. Ils sont un total changer la donne pour l’IA dans l’espace des serveurs cloud, car l’IA est largement utilisée par de nombreuses entreprises.

Au-delà du débruitage, l’utilisation principale des cœurs Tensor pour les joueurs est appelée DLSS, ou super échantillonnage d’apprentissage en profondeur. Il prend un cadre de mauvaise qualité et le met à l’échelle en qualité native complète. Cela signifie essentiellement que vous pouvez jouer avec des fréquences d’images de niveau 1080p, tout en regardant une image 4K.

Cela contribue également un peu aux performances du lancer de rayons—benchmarks de PCMag montrer un RTX 2080 Super en cours d’exécution Contrôle en qualité ultra, avec tous les paramètres de lancer de rayons réglés au maximum. À 4K, il se débat avec seulement 19 FPS, mais avec DLSS activé, il obtient un bien meilleur 54 FPS. DLSS est une performance gratuite pour NVIDIA, rendue possible par les cœurs Tensor sur Turing et Ampère. Tout jeu qui le prend en charge et est limité par le GPU peut voir de sérieuses accélérations uniquement à partir du logiciel.

DLSS n’est pas nouveau et a été annoncé comme une fonctionnalité lors du lancement de la série RTX 2000 il y a deux ans. À l’époque, il était pris en charge par très peu de jeux, car il fallait NVIDIA pour former et régler un modèle d’apprentissage automatique pour chaque jeu individuel.

Cependant, à cette époque, NVIDIA l’a complètement réécrit, appelant la nouvelle version DLSS 2.0. C’est une API à usage général, ce qui signifie que tout développeur peut l’implémenter, et elle est déjà reprise par la plupart des versions majeures. Plutôt que de travailler sur une image, il prend des données vectorielles de mouvement de l’image précédente, de la même manière que TAA. Le résultat est beaucoup plus net que DLSS 1.0 et, dans certains cas, semble en fait mieux et plus nette que même la résolution native, il n’y a donc pas beaucoup de raisons de ne pas l’activer.

Il y a un problème: lorsque vous changez entièrement de scène, comme dans les cinématiques, DLSS 2.0 doit rendre la toute première image avec une qualité de 50% en attendant les données vectorielles de mouvement. Cela peut entraîner une légère baisse de qualité pendant quelques millisecondes. Mais 99% de tout ce que vous regardez sera rendu correctement, et la plupart des gens ne le remarquent pas dans la pratique.

Bientôt: Qu’est-ce que NVIDIA DLSS et comment accélérera-t-il le lancer de rayons?

Architecture ampère: conçue pour l’IA

Ampère est rapide. Sérieusement rapide, en particulier pour les calculs d’IA. Le cœur RT est 1,7 fois plus rapide que Turing, et le nouveau cœur Tensor est 2,7 fois plus rapide que Turing. La combinaison des deux est un véritable saut générationnel dans les performances de lancer de rayons.

En relation :  Comment lancer le Gestionnaire des tâches dans Windows 11
Améliorations principales de RT et Tensor

Plus tôt en mai, NVIDIA a publié le GPU Ampere A100, un GPU de centre de données conçu pour exécuter l’IA. Avec lui, ils ont détaillé beaucoup de ce qui rend Ampere tellement plus rapide. Pour les charges de travail de centre de données et de calcul haute performance, Ampère est en général environ 1,7 fois plus rapide que Turing. Pour la formation en IA, c’est jusqu’à 6 fois plus rapide.

Améliorations des performances HPC

Avec Ampere, NVIDIA utilise un nouveau format de nombre conçu pour remplacer le standard industriel «Floating-Point 32» ou FP32 dans certaines charges de travail. Sous le capot, chaque nombre que votre ordinateur traite occupe un nombre prédéfini de bits en mémoire, que ce soit 8 bits, 16 bits, 32, 64 ou même plus. Les nombres plus grands sont plus difficiles à traiter, donc si vous pouvez utiliser une taille plus petite, vous en aurez moins à traiter.

FP32 stocke un nombre décimal de 32 bits et utilise 8 bits pour la plage du nombre (quelle que soit sa taille) et 23 bits pour la précision. L’affirmation de NVIDIA est que ces 23 bits de précision ne sont pas entièrement nécessaires pour de nombreuses charges de travail d’IA, et que vous pouvez obtenir des résultats similaires et des performances bien meilleures avec seulement 10 d’entre eux. Réduire la taille à seulement 19 bits, au lieu de 32, fait une grande différence dans de nombreux calculs.

Ce nouveau format s’appelle Tensor Float 32, et les cœurs Tensor de l’A100 sont optimisés pour gérer le format de taille étrange. C’est, en plus de la réduction des matrices et de l’augmentation du nombre de cœurs, comment ils obtiennent l’accélération massive 6x dans la formation à l’IA.

Nouveaux formats de nombres

En plus du nouveau format de nombre, Ampère voit des accélérations majeures des performances dans des calculs spécifiques, comme FP32 et FP64. Ceux-ci ne se traduisent pas directement par plus de FPS pour le profane, mais ils font partie de ce qui le rend presque trois fois plus rapide dans l’ensemble des opérations de Tensor.

amélioration des performances du noyau du tenseur

Ensuite, pour accélérer encore plus les calculs, ils ont introduit le concept de clarté structurée à grain fin, qui est un mot très sophistiqué pour un concept assez simple. Les réseaux de neurones fonctionnent avec de grandes listes de nombres, appelées poids, qui affectent la sortie finale. Plus il y a de nombres à traiter, plus ce sera lent.

Cependant, tous ces chiffres ne sont pas réellement utiles. Certains d’entre eux ne sont littéralement que zéro et peuvent être rejetés, ce qui entraîne des accélérations massives lorsque vous pouvez calculer plus de chiffres en même temps. La rareté comprime essentiellement les nombres, ce qui demande moins d’effort pour faire des calculs. Le nouveau «Sparse Tensor Core» est conçu pour fonctionner sur des données compressées.

Malgré les changements, NVIDIA dit que cela ne devrait pas du tout affecter la précision des modèles entraînés.

données éparses en cours de compression

Pour les calculs Sparse INT8, l’un des plus petits formats de nombres, les performances maximales d’un seul GPU A100 sont supérieures à 1,25 PetaFLOP, un nombre incroyablement élevé. Bien sûr, ce n’est que lorsque vous calculez un type de nombre spécifique, mais c’est néanmoins impressionnant.

body #primary .entry-content ul # nextuplist {list-style-type: none; margin-left: 0px; padding-left: 0px;} body #primary .entry-content ul # nextuplist li a {text-decoration: none ; couleur: # 1d55a9;}

Moyens Staff
Moyens I/O Staff vous a motivé, donner des conseils sur la technologie, le développement personnel, le style de vie et des stratégies qui vous aider.