Utilisateur:Jithel/Brouillon
La page suivante s'appuie sur le calcul présenté ici : https://cs.iupui.edu/~fgsong/cs590HPC/how2decide_peak.pdf (document anglais).
Note : les puissances calculées pour le mode turbo sont non atteignables en théorie. En effet, le mode turbo est la fréquence MAXIMALE que peut atteindre UN cœur du processeur. Dans les calculs suivants, il est considéré que le mode turbo s'applique sur TOUS les cœurs et que la fréquence maximale est atteinte. Il faudrait améliorer la précision du calcul pour le mode turbo pour déterminer la fréquence maximale en fonction du nombre de cœurs utilisés et donc déterminer la puissance de calcul associée. Ici, le mode turbo nous permet d'avoir une idée de la puissance maximale (non atteignable donc) du processeur. De même, il existe une fréquence turbo pour les calculs de chaque jeu d'instruction (en particulier, AVX2). Il sera considéré que celle-ci vaut la fréquence turbo annoncée par Intel (prévue pour les instructions non-AVX). Cette fréquence est généralement plus faible mais peut s'appliquer sur tous les cœurs.
Pentium III
modifierLes Pentium III implémente le jeu d'instruction SSE.
Calcul du multiplicateur spécifique au jeu d'instruction
modifierLes fonctions du jeu d'instruction SSE concernant les opérations à virgule flottante ont toutes un seul opérateur (ajouter, multiplier, diviser, soustraire). Il n'y a pas d'opération à plusieurs opérateurs. Le multiplicateur "flop / operation" vaut donc 1.
Les opérations à virgule flottante SSE existent en deux modes : scalaire (opération entre deux nombres) ou vectoriel (opération entre deux vecteurs). Ici, le mode vectoriel accepte des vecteurs comme opérande constitué de 4 nombres à virgule flottante en simple précision. Le multiplicateur "operations / instruction" vaut donc 1 pour le mode scalaire et 4 pour le mode vectoriel.
Formules
modifierTous les processeurs de cette famille ont un cœur et pas de multi-thread possible pour les opérations flottantes.
Calculer le nombre de FLOPS pour les opérations scalaires du jeu d'instruction SSE :
Calculer le nombre de FLOPS pour les opérations vectorielles du jeu d'instruction SSE :
Application : puissance MIN / MAX
modifierLes formules ne dépendent que de la fréquence du processeur. Pour trouver le minimum / maximum en terme de puissance pour cette famille, il suffit de regarder les fréquences des processeurs.
Le processeur le moins puissant de cette famille est le "Mobile Intel® Pentium® III Processor 400 MHz, 256K Cache, 100 MHz FSB" cadencé à 400 MHz.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE scalaire | 0.4 |
SSE vectoriel | 1.6 |
Le processeur le plus puissant de cette est le "Intel® Pentium® III Processor 1.40 GHz, 256K Cache, 133 MHz FSB" (puissance égale : "Intel® Pentium® III Processor - S 1.40 GHz, 512K Cache, 133 MHz FSB") cadencé à 1.40 GHz. Sa puissance est de 1.40 GFLOPS pour les opérations scalaires du jeu d'instruction SSE et de 5.60 GFLOPS pour les opérations vectorielles du jeu d'instruction SSE.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE scalaire | 1.40 |
SSE vectoriel | 5.60 |
Pentium 4
modifierLes Pentium 4 implémentent le jeu d'instruction SSE, SSE2 à partir de la famille Willamette et SSE3 à partir de la famille Prescott. La technologie "Hyper-Threading" est implémentée plus tard.
Calcul du multiplicateur spécifique au jeu d'instruction
modifierPour le jeu d'instruction SSE, les multiplicateurs n'ont pas changé.
Pour le jeu d'instruction SSE2, les opérations à virgule flottante sont possibles en double précision aussi. Pour l'opération en double précision scalaire, le multiplicateur ne change pas car un opérande et une opération. Par contre, pour l'opération en double précision vectoriel, les opérandes sont des vecteurs de deux éléments donc le multiplicateur est de 2 (et non 4 comme SSE vectoriel).
Pour le jeu d'instruction SSE3, une opération permet d'effectuer à la fois des additions mais aussi des soustractions entre deux vecteurs de nombres flottants en simple et double précision. Le multiplicateur est inchangé car cette opération effectue une moitié des opérations en addition et une autre en soustraction sur les moitiés des opérandes. Le multiplicateur reste à 4 en simple précision sur des vecteurs de 128 bits et à 2 en double précision.
Formules
modifierTous les processeurs de cette famille ont un cœur. L'HTT est implémenté en partie.
si la technologie HyperThreading est disponible sur le processeur (0, sinon)
Calculer le nombre de FLOPS pour les opérations scalaires :
Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :
Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :
Application : puissance MIN / MAX
modifierLes formules dépendent de la fréquence du processeur et de la disponibilité de la technologie HyperThreading.
Le processeur le moins puissant de cette famille est le "Intel® Pentium® 4 Processor 1.30 GHz, 256K Cache, 400 MHz FSB" cadencé à 1.30 GHz ne supportant pas l'HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 1.30 |
SSE2 / SSE3 vectoriel (DP) | 2.60 |
SSE / SSE2 / SSE3 vectoriel (SP) | 5.20 |
Le processeur le plus puissant de cette famille est le "Intel® Pentium® 4 Processor supporting HT Technology 4.00 GHz, 2M Cache, 1066 MHz FSB" cadencé à 4.00 GHz supportant l'HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 8.00 |
SSE2 / SSE3 vectoriel (DP) | 16.00 |
SSE / SSE2 / SSE3 vectoriel (SP) | 32.00 |
Pentium D
modifierLes Pentium D implémentent les jeux d'instruction SSE / SSE2 et SSE3. Ils ne disposent pas de la technologie HyperThreading mais sont la première implémentation d'architecture à deux cœurs (dual-core).
Calcul du multiplicateur spécifique au jeu d'instruction
modifierLes multiplicateurs sont identiques à ceux de la famille Pentium 4 car les jeux d'instructions sont identiques. Il y a donc trois multiplicateurs : 1 (SSE / SSE2 scalaire), 2 (SSE2 vectoriel / SSE3 scalaire) et 4 (SSE / SSE3 vectoriel).
Formules
modifierTous les processeurs de cette famille sont dual-core (2 cœurs physiques). Pas de multi-thread possible.
Calculer le nombre de FLOPS pour les opérations scalaires :
Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :
Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :
Application : puissance MIN / MAX
modifierLes formules ne dépendent que de la fréquence du processeur. Pour trouver le minimum / maximum en terme de puissance pour cette famille, il suffit de regarder les fréquences des processeurs.
Le processeur le moins puissant de cette famille est le "Intel® Pentium® D Processor 805" cadencé à 2.66 GHz.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 5.32 |
SSE2 / SSE3 vectoriel (DP) | 10.64 |
SSE / SSE2 / SSE3 vectoriel (SP) | 21.28 |
Le processeur le plus puissant de cette famille est le "Intel® Pentium® D Processor 960" cadencé à 3.60 GHz.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 7.20 |
SSE2 / SSE3 vectoriel (DP) | 14.40 |
SSE / SSE2 / SSE3 vectoriel (SP) | 28.80 |
Core 2
modifierLes Intel Core 2 implémentent les jeux d'instruction SSSE et SSE4.1 selon les processeurs. De plus, les processeurs de cette famille peuvent être de un à quatre cœurs. Il semblerait que les processeurs de cette famille n'implémentent pas la technologie HyperThreading (à confirmer).
Calcul du multiplicateur spécifique au jeu d'instruction
modifierLe jeu d'instruction SSSE3 ne rajoute pas d'opération flottante. Le jeu d'instruction SSE4.1 est similaire aux jeux d'instruction SSE2 / SSE3.
Il n'y a donc pas de nouveaux multiplicateurs de la part des jeux d'instruction SSSE3 et SSE4.1.
Formules
modifierL'HTT n'est pas disponible sur cette famille. De plus, le nombre de cœur varie en fonction du processeur (solo, dual voire quad-core).
désigne le nombre de coeurs du processeur. Cette valeur ne peut être que 1, 2 ou 4 dans la famille Intel Core 2.
Calculer le nombre de FLOPS pour les opérations scalaires :
Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :
Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :
Application : puissance MIN / MAX
modifierLes formules dépendent de la fréquence du processeur mais aussi du nombre de cœurs.
Le processeur le moins puissant de cette famille est le "Intel® Core™2 Solo Processor U2100" cadencé à 1.06 GHz avec un cœur.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 1.06 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 2.12 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 4.24 |
Le processeur le plus puissant de cette famille est le "Intel® Core™2 Extreme Processor QX9770" (identique au "Intel® Core™2 Extreme Processor QX9775") cadencé à 3.20 GHz avec 4 cœurs.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 12.80 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 25.60 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 51.20 |
Note : bien que le U2100 soit plus récent que le Pentium D 805, les calculs montrent que le U2100 est moins puissant que son antécédent. En effet, on retrouve la cohérence de ce résultat ici : https://www.cpubenchmark.net/compare/Intel-Pentium-D-805-vs-Intel-Core2-Solo-U2100/1125vs1051. Le D 805 serait 52% plus puissant que le U2100. L'écart n'est pas similaire d'après les calculs (rapport x5). Le résultat du U2100 a une haute marge d'erreur sur le site à cause du manque de benchmark effectué (uniquement réalisé sur 2 machines).
Nehalem Core (1st generation)
modifierLa première famille de Intel Core (génération 1). Elle introduit le jeu d'instruction SSE4.2 mais réintroduit aussi l'HTT.
Calcul du multiplicateur spécifique au jeu d'instruction
modifierLe jeu d'instruction SSE4.2 n'apporte aucune nouveauté sur les opérations flottantes. Les multiplicateurs sont donc 1 (SSE / SSE2 scalaire), 2 (SSE2 vectoriel, SSE3 scalaire, SSE4.1 vectoriel DP) et 4 (SSE / SSE3 vectoriel, SSE4.1 vectoriel SP).
Formules
modifierL'HTT est implémenté en partie et le nombre de cœurs est variable. Ainsi :
désigne le nombre de cœurs du processeur. Cette valeur ne peut être que 2 ou 4.
si la technologie HyperThreading est disponible sur le processeur (0, sinon)
Calculer le nombre de FLOPS pour les opérations scalaires :
Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :
Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision :
Application sur la famille Bloomfield
modifierIci, et . La formule dépend uniquement de la fréquence du processeur.
Le processeur le moins puissant de cette famille est le "Intel® Core™ i7-920" (identique au "Intel® Xeon® Processor W3520") cadencé à 2.66 GHz (mode turbo 2.93 GHz).
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 21.28 | 23.44 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 42.56 | 46.88 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 85.12 | 93.76 |
Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-975" (identique au "Intel® Xeon® Processor W3580") cadencé à 3.33 GHz (mode turbo 3.60 GHz).
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 26.64 | 28.80 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 53.28 | 57.60 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 106.56 | 115.20 |
Application sur la famille Lynnfield
modifierIci, . La formule dépend donc de l'implémentation de l'HTT et de la fréquence du processeur.
Le processeur le moins puissant de cette famille est le "Intel® Xeon® Processor X3430" cadencé à 2.40 GHz (mode turbo 2.80 GHz) sans la technologie HyperThreading.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 9.60 | 11.20 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 19.20 | 22.40 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 38.40 | 44.80 |
Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-880" (identique au "Intel® Xeon® Processor X3480") cadencé à 3.06 GHz (mode turbo 3.73 GHz) avec la technologie HyperThreading.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 24.48 | 29.84 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 48.96 | 59.68 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 97.92 | 119.36 |
Application sur la famille Gainestown (ou Nehalem-EP)
modifierLe processeur le moins puissant de cette famille est le "Intel® Xeon® Processor E5502" cadencé à 1.86 GHz (pas de mode turbo) avec deux cœurs sans HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 3.72 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 7.44 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 14.88 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor W5590" cadencé à 3.33 GHz (mode turbo 3.60 GHz) avec quatre cœurs avec HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 26.64 | 28.80 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 53.28 | 57.60 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 106.56 | 115.20 |
Application sur la famille Beckton
modifierLe processeur le moins puissant de cette famille est le "Intel® Xeon® E7520" cadencé à 1.87 GHz (pas de mode turbo) avec quatre cœurs avec HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 14.96 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 29.92 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 59.84 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® X7560" cadencé à 2.27 GHz (mode turbo 2.67 GHz) avec huit cœurs avec HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 36.32 | 42.72 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 72.64 | 85.44 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 145.28 | 170.88 |
Application sur la famille Clarksfield
modifierIci, et . La formule dépend uniquement de la fréquence du processeur.
Le processeur le moins puissant de cette famille est le "Intel® Core™ i7-720QM" cadencé à 1.60 GHz (mode turbo 2.80 GHz).
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 6.40 | 11.20 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 12.80 | 22.40 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 25.60 | 44.80 |
Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-940XM Extreme Edition" cadencé à 2.13 GHz (mode turbo 3.33 GHz).
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 8.52 | 13.32 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 17.04 | 26.64 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 34.08 | 53.28 |
Application sur la famille Jasper Forest
modifierLe processeur le moins puissant de cette famille est le "Intel® Xeon® LC3518" cadencé à 1.73 GHz (pas de mode turbo) avec un cœur pas d'HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 1.73 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 3.46 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 6.92 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® EC5549" cadencé à 2.53 GHz (mode turbo 2.93 GHz) avec quatre cœurs et HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 20.24 | 23.44 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 40.48 | 46.88 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 80.96 | 93.76 |
Westmere Core (1st generation)
modifierWestmere est une deuxième version de Nehalem avec quelques améliorations. En particulier, des processeurs avec six et dix cœurs. La famille implémente deux jeux d'instructions : AES-NI et CLMUL qui n'apporte aucun changement sur les opérations à virgule flottante.
Les formules et les jeux d'instruction sont identiques à la génération sœur Nehalem.
Application sur la famille Westmere-EX
modifierLe processeur le moins puissant de cette famille est le "Intel® Xeon® Processor E7-2803" cadencé à 1.73 GHz (pas de mode turbo) avec six cœurs et HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 20.76 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 41.52 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 83.04 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor E7-8870" (identique au "Intel® Xeon® Processor E7-4870" et au "Intel® Xeon® Processor E7-2870") cadencé à 2.40 GHz (mode turbo 2.80 GHz) avec dix cœurs et HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 48.00 | 56.00 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 96.00 | 112.00 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 192.00 | 224.00 |
Application sur la famille Westmere-EP
modifierLe processeur le moins puissant de cette famille est le "Intel® Xeon® L5603" cadencé à 1.60 GHz (pas de mode turbo) avec quatre cœurs et sans HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 6.40 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 12.80 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 25.60 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® W3690" (identique au "Intel® Core™ i7-990X Processor Extreme Edition") cadencé à 3.46 GHz (mode turbo 3.73 GHz) avec six cœurs et HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 41.52 | 44.76 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 83.04 | 89.52 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 166.08 | 179.04 |
Application sur la famille Clarkdale
modifierIci, . Les formules dépendent donc de l'implémentation de l'HTT et de la fréquence du processeur.
Le processeur le moins puissant de cette famille est le "Intel® Xeon® L3403" cadencé à 2.00 GHz (mode turbo inconnu) avec deux cœurs et sans HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 4.00 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 8.00 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 16.00 |
Le processeur le plus puissant de cette famille est le "Intel® Core™ i5-680" cadencé à 3.60 GHz (mode turbo 3.86 GHz) avec deux cœurs et HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 14.40 | 15.44 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 28.80 | 30.88 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 57.60 | 61.76 |
Application sur la famille Arrandale
modifierIci, . Les formules dépendent donc de l'implémentation de l'HTT et de la fréquence du processeur.
Le processeur le moins puissant de cette famille est le "Intel® Celeron® Processor U3400" (identique au "Intel® Celeron® Processor U3405") cadencé à 1.06 GHz (pas de mode turbo) avec deux cœurs et sans HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 2.12 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 4.24 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 8.48 |
Le processeur le plus puissant de cette famille est le "Intel® Core™ i7-640M" cadencé à 2.80 GHz (mode turbo 3.46 GHz) avec deux cœurs et HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 11.20 | 13.84 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 22.40 | 27.68 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) | 44.80 | 55.36 |
Sandy Bridge (2nd generation)
modifierLa seconde génération de Intel Core implémente le nouveau jeu d'instruction AVX.
Calcul du multiplicateur spécifique au jeu d'instruction
modifierLe jeu d'instruction AVX est une extension aux jeux d'instruction SSE. Il permet d'effectuer les opérations classiques de SSE avec des vecteurs deux fois plus grand (256 bits à la place de 128 bits). Le jeu d'instruction n'apporte aucune opération flottante.
Le multiplicateur d'une opération entre deux vecteurs de taille 128 bits est identique en simple et double précision à celui de SSE2 / SSE3 / SSE4.1 soit 2 pour double précision et 4 pour simple précision
Le multiplicateur d'une opération entre deux vecteurs de taille 256 bits est doublé par rapport à celui de SSE2 / SSE3 / SSE4.1 soit 4 pour double précision et 8 pour simple précision.
Formules
modifierL'HTT est implémenté en partie et le nombre de cœurs est variable. Ainsi :
désigne le nombre de cœurs du processeur. Cette valeur ne peut être que 2 ou 4.
si la technologie HyperThreading est disponible sur le processeur (0, sinon)
Calculer le nombre de FLOPS pour les opérations scalaires :
Calculer le nombre de FLOPS pour les opérations vectorielles en double précision :
Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision (et AVX 256 bits en double précision) :
Calculer le nombre de FLOPS pour les opérations vectorielles en simple précision d'AVX 256 bits :
Application : puissance MIN / MAX
modifierLe processeur le moins puissant de cette famille est le "Intel® Celeron® Processor 807UE" cadencé à 1.00 GHz (pas de mode turbo) avec un cœur et sans HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 1.00 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 2.00 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP | 4.00 |
AVX vectoriel SP | 8.00 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor E5-2687W" cadencé à 3.10 GHz (mode turbo 3.80 GHz) avec huit cœurs et avec HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 49.60 | 60.80 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 99.20 | 121.60 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP | 198.40 | 243.20 |
AVX vectoriel SP | 396.80 | 486.40 |
Ivy Bridge (3rd generation)
modifierLe processeur le moins puissant de cette famille est le "Intel® Celeron® Processor 927UE" cadencé à 1.50 GHz (pas de mode turbo) avec un cœur et sans HTT.
Opération flottante | Puissance en GFLOPS |
---|---|
SSE / SSE2 / SSE3 scalaire | 1.50 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 3.00 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP | 6.00 |
AVX vectoriel SP | 12.00 |
Le processeur le plus puissant de cette famille est le "Intel® Xeon® Processor E7-8895 v2" cadencé à 2.80 GHz (mode turbo 3.60 GHz) avec quinze cœurs et avec HTT.
Opération flottante | Puissance en GFLOPS | |
---|---|---|
Mode normal | Mode turbo | |
SSE / SSE2 / SSE3 scalaire | 84.00 | 108.00 |
SSE2 / SSE3 / SSE4.1 vectoriel (DP) | 168.00 | 216.00 |
SSE / SSE2 / SSE3 / SSE4.1 vectoriel (SP) et AVX vectoriel DP | 336.00 | 432.00 |
AVX vectoriel SP | 672.00 | 864.00 |
Haswell (4th generation)
modifierLe jeu d'instruction AVX2 est implémenté dans cette génération de processeur mais n'apporte pas de nouveautés sur les opérations à virgule flottante. Cependant, le jeu d'instruction FMA apporte des opérations multiples.
Calcul du multiplicateur spécifique au jeu d'instruction
modifierLe jeu d'instruction FMA permet d'effectuer en une instruction deux opérations : une multiplication et une addition par exemple. Ce genre d'opération est possible en mode scalaire et en mode vectoriel en simple et double précision sur des variables d'une taille de 256 bits pour le vectoriel et 64 bits pour le mode scalaire.