Ampere (microarchitecture)

Microarchitecture de carte graphique développée par NVIDIA

Ampere est une microarchitecture de processeur graphique développée par Nvidia pour ses cartes graphiques. Elle succède à la microarchitecture Turing et est sortie en mai 2020.

NVIDIA Ampere
Description de l'image Nvidia (logo).svg.
Caractéristiques
Date de sortie 14 mai 2020
Procédé TSMC N7 (professionnel)
Samsung 8N (grand public)
Interfaces supportées
Direct3D 12
OpenGL 4.6
Vulkan 1.1
CUDA (Compute Capability) 8.0 ou 8.6
Historique
Prédécesseur Turing (grand public)
Volta (professionnel)
Successeur Ada Lovelace (grand public)
Hopper (professionnel)

Caractéristiques modifier

Les améliorations architecturales de l'architecture Ampere comprennent :

  • CUDA Compute Capability 8.0 pour le A100 et 8.6 pour les cartes GeForce 30 series[1] ;
  • Procédé 7 nm FinFET de TSMC pour le A100 ;
  • Version customisée du procédé 8 nm (8N) de Samsung pour les GeForce 30 series[2] ;
  • Troisième génération de coeurs Tensor supportant le FP16, le bfloat16 (en), le TensorFloat-32 (TF32) et le FP64, ainsi que l'accélération du traitement des matrices creuses[3]. Les coeurs Tensor ont, avec 256 opérations FMA FP16 par cycle, 4 fois la puissance de calcul (seulement sur le GA100, 2 fois sur les GA10x) des générations précédentes de coeurs Tensor ; le nombre de coeurs Tensor est de quatre par SM (Streaming Multiprocessor) ;
  • Double coeur FP32 par SM sur les GPU GA10x ;
  • Deuxième génération de coeurs ray tracing ; ray tracing concurrent, ombrage et compute sur les cartes GeForce 30 ;
  • Mémoire HBM2 (en) sur les A100 40 GB & A100 80 GB ;
  • Mémoire GDDR6X sur les cartes GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti ;
  • NVLink 3.0 (en) avec un débit de 50 Gbit/s par paire[3] ;
  • PCI Express 4.0 avec support de SR-IOV (en) (uniquement sur le A100)
  • Virtualisation Multi-instance GPU (MIG) avec possibilité de partitionnement du GPU supportant jusqu'à sept instances sur le A100 ;
  • Décodage vidéo hardware PureVideo (en) comprenant l'ensemble de caractéristiques K et le décodage hardware de AV1[4] pour les cartes GeForce 30 series et l'ensemble de caractéristiques J pour le A100 ;
  • 5 décodeurs vidéo NVDEC (en) pour le A100 ;
  • Nouveau décodeur JPEG hardware à 5 coeurs (NVJPG) avec YUV420, YUV422, YUV444, YUV400, RGBA. Il ne doit pas être confondu avec le NVJPEG de Nvidia (bibliothèque accélérée par GPU pour le codage/décodage JPEG).

Puces modifier

  • GA100[5]
  • GA102
  • GA103
  • GA104
  • GA106
  • GA107

Comparaison des capacités de calcul : GP100 vs GV100 vs GA100[6] modifier

GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100
Code du GPU GP100 GV100 GA100
Architecture GPU NVIDIA Pascal NVIDIA Volta NVIDIA Ampere
Compute capability 6.0 7.0 8.0
Threads / warp 32 32 32
Max warps / SM 64 64 64
Max threads / SM 2048 2048 2048
Max thread blocks / SM 32 32 32
Max 32-bit registers / SM 65536 65536 65536
Max registers / block 65536 65536 65536
Max registers / thread 255 255 255
Max thread block size 1024 1024 1024
FP32 cores / SM 64 64 64
Ratio of SM registers to FP32 cores 1024 1024 1024
Taille de la mémoire partagée / SM 64 KB Configurable jusqu'à 96 KB Configurable jusqu'à 164 KB

Tableau de comparaison des formats numériques supportés[7],[8] modifier

Formats supportés par les coeurs CUDA Formats supportés par les coeurs Tensor
FP16 FP32 FP64 INT1 INT4 INT8 TF32 BF16 FP16 FP32 FP64 INT1 INT4 INT8 TF32 BF16
NVIDIA Tesla P4   Non Oui Oui   Non   Non Oui   Non   Non   Non   Non   Non   Non   Non   Non   Non   Non
NVIDIA P100 Oui Oui Oui   Non   Non   Non   Non   Non   Non   Non   Non   Non   Non   Non   Non   Non
NVIDIA Volta Oui Oui Oui   Non   Non Oui   Non   Non Oui   Non   Non   Non   Non   Non   Non   Non
NVIDIA Turing Oui Oui Oui   Non   Non   Non   Non   Non Oui   Non   Non Oui Oui Oui   Non   Non
NVIDIA A100 Oui Oui Oui   Non   Non Oui   Non Oui Oui   Non Oui Oui Oui Oui Oui Oui

Légende :

  • FPnn : virgule flottante avec nn bits
  • INTn : entier avec n bits
  • INT1 : binaire
  • TF32 : TensorFloat32
  • BF16 : bfloat16

Comparaison des performances en décodage vidéo modifier

Flux concurrents Décodage H.264
(1080p30)
Décodage H.265 (HEVC)
(1080p30)
Décodage VP9
(1080p30)
V100 16 22 22
A100 75 157 108

Notes et références modifier

  1. (en-US) « I.7. Compute Capability 8.x », sur Nvidia (consulté le )
  2. (en-US) Dominik Bosnjak, « Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards », sur SamMobile, (consulté le )
  3. a et b (en) Smith, « NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator », sur AnandTech,
  4. (en-US) Gerardo Delgado, « GeForce RTX 30 Series GPUs: Ushering In A New Era of Video Content With AV1 Decode », sur Nvidia, (consulté le )
  5. (en-US) Timothy Prickett Morgan, « Diving Deep Into The Nvidia Ampere GPU Architecture », sur The Next Platform, (consulté le )
  6. (en-US) « NVIDIA A100 Tensor Core GPU Architecture: Unprecedented Accerlation at Every Scale », sur Nvidia (consulté le )
  7. (en) « NVIDIA Tensor Cores: Versatility for HPC & AI », sur NVIDIA
  8. (en) « Abstract », sur docs.nvidia.com

Annexes modifier

Articles connexes modifier