Користувач:BlzzUa/AVX-512: відмінності між версіями
BlzzUa (обговорення | внесок) Створено шляхом перекладу сторінки «AVX-512» |
(Немає відмінностей)
|
Версія за 11:43, 27 квітня 2024
AVX-512 це набір SIMD-інструкцій для x86 процесорів Intel та AMD, що розширюють 256 бітові інструкції Advanced Vector Extensions 512-бітовими
Запропоновано Intel у липні 2013 року та вперше реалізовано у Intel Xeon Phi x200 (Knights Landing) в 2016 році [1], а потім у ряді процесорів AMD та Intel.
Набір AVX-512 складається блоку інструкцій AVX-512F (AVX-512 Foundation) що вимагається для всіх реалізацій AVX-512, а також інших інструкцій, не всі з яких були реалізовані в різних процесорах.[2] Ця політика є відходом від історичної вимоги впровадження всього блоку інструкцій.
Окрім розширення більшості 256-бітних інструкцій, AVX-512 додає різні нові операції, такі як нові конверсія (перетворення даних), операції розсіювання (scatter) та перестановки.[2] Кількість регістрів AVX збільшена з 16 до 32, а також додано 8 нових "маскових регістрів", які дозволяють гнучко обирати та комбінувати результати інструкцій. У процесорах з розширенням векторної довжини (VL), яке присутнє у більшості CPU з підтримкою AVX-512, ці інструкції можна використовувати також для роботи з векторами розміром 128 та 256 біт. Варто зазначити, що AVX-512 – не перший 512-бітний набір SIMD-інструкцій від Intel. Раніші 512-бітні SIMD-інструкції, що використовувались у копроцесорах Xeon Phi, першого покоління (розроблені на базі проекту Larrabee), мають схожу поведінку, але не сумісні з AVX на двійковому рівні.[1]
Набір інструкцій
Набір інструкцій AVX-512 складається з кількох окремих наборів, кожен із яких має власний унікальний біт в функції CPUID; однак вони зазвичай групуються за поколінням процесорів, які їх реалізують.
Набір інструкцій AVX-512 складається з декількох окремих груп, кожна з них має свій унікальний біт ознаки CPUID.
- F, CD, ER, PF
- Була впроваджена в Xeon Phi x200 (Knights Landing) та процесорах Xeon Gold/Platinum (Skylake SP "Purley")
- AVX-512 Foundation (F) – це базова група, вона розширює більшість 32 бітових та 64 бітових AVX інструкцій за допомогою схеми кодування що називається EVEX (enhanced vector extension). Це дозволяє використовувати регістри розміром 512 біт, маски операцій для гнучкого керування даними, а також вбудоване округлення та контроль помилок.
- AVX-512 Conflict Detection Instructions (CD) – інструкції для ефективного виявлення конфліктів під час виконання векторних операцій.
- AVX-512 Exponential and Reciprocal Instructions (ER) – інструкції для обчислення експонент та обернених величин. Вони допомагають реалізувати складні математичні обчислення.[1]
- AVX-512 Prefetch Instructions (PF) – нові інструкції для попереднього завантаження даних у кеш процесора.
- VL, DQ, BW
- Представлені в Skylake X та Cannon Lake.
- AVX-512 Vector Length Extensions (VL) - розширює функціональність більшості інструкцій AVX-512, дозволяючи їм працювати з 128-бітними (XMM) та 256-бітними (YMM) регістрами.[3]
- AVX-512 Doubleword and Quadword Instructions (DQ) – додає нові 32 бітові та 64 бітові AVX-512 інструкції.[3]
- AVX-512 Byte and Word Instructions (BW) – розширює AVX-512 на 8 бітові та 16 бітові операції з цілими числами[3]
- Така група команд дозволяє працювати з числами що не потребують 512 бітової точності чи діапазону значень.
- IFMA, VBMI
- Представлені в Cannon Lake.[4]
- AVX-512 Integer Fused Multiply Add (IFMA) – операції "перемножити та додати" цілих 52 бітових чисел (цей тип використовується в арифметиці javascript, яка базується на числах з рухомою комою подвійної точності.
- AVX-512 Vector Byte Manipulation Instructions (VBMI) - інструкції для маніпуляції окремими байтами та словами даних. Вони дозволяють виконувати завантаження, збереження та конкатенацію даних зі здвигами. Це корисно для обробки текстових даних, графічних зображень та інших задач, де потрібні детальні операції з окремими бітами чи байтами.
- 4VNNIW, 4FMAPS
- Представлені в Knights Mill.[5][6]
- AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW) – векторні інструкції для глибинного навчання, що працюють зі словом змінної точності.
- AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS) – векторні інструкції для глибинного навчання, що працюють з даними з рухомою комою одинарної точності.
- VPOPCNTDQ - інструкція для підрахунку кількості одиничних бітів у кожному елементі вектора. Використовується для обробки бітових масок, та різних алгоритмів.[7]
- VNNI, VBMI2, BITALG
- Представлені в Ice Lake.[7]
- AVX-512 Vector Neural Network Instructions (VNNI) – векторизовані інструкції для "глибокого навчання".
- AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2) – інструкції для маніпуляції окремими байтами та словами даних для 1-2 байтових змінних.
- AVX-512 Bit Algorithms (BITALG) – набір інструкцій для роботи з бітами даних на рівні байтів та слів. Вони розширюють можливості VPOPCNTDQ, дозволяючи виконувати більш складні маніпуляції з бітами.
- VP2INTERSECT
- Представлені в Tiger Lake.
- AVX-512 Vector Pair Intersection to a Pair of Mask Registers (VP2INTERSECT) - порівнює маски регістри. Використовується в алгоритмах обробки зображень, комп'ютерної графіки та інших задач, де потрібно визначати спільні області в двох наборах даних.
- GFNI – інструкції для роботи з полями Галуа, що використовується в криптографії..
- VPCLMULQDQ (Carry-Less Multiplication of Quadwords) - цілочислове множення дуже великих чисел.
- VAES (VEX та EVEX-encoded AES) - інструкції, що дозволяє виконувати шифрування та дешифрування даних за стандартом AES з високою продуктивністю.
- Представлені в Ice Lake.[7]
Кодування та особливості
Префікс VEX, який використовується AVX і AVX2, хоч і гнучкий, не залишає достатньо місця для функцій, які Intel хотіла додати до AVX-512. Це змусило їх визначити новий префікс під назвою EVEX .
Порівняно з VEX, EVEX додає такі переваги: [6]
- Розширене кодування регістрів, що дозволяє використовувати 32 512-бітні регістри.
- Додає 8 нових регістрів масок для маскування більшості інструкцій AVX-512.
- Додає новий режим скалярної пам’яті, який автоматично виконує трансляцію.
- Додає простір для явного керування округленням у кожній інструкції.
- Додає новий режим адресації пам'яті зі стисненим зміщенням.
Інструкція | опис |
---|---|
VRCP14PD , VRCP14PS
|
Обчисліть приблизні зворотні величини упакованих значень float32/float64 |
VRCP14SD , VRCP14SS
|
Обчисліть приблизні зворотні величини скалярного значення float32/float64 |
VRNDSCALEPS , VRNDSCALEPD
|
Округлені упаковані значення float32/float64, щоб включити задану кількість дробових бітів |
VRNDSCALESS , VRNDSCALESD
|
Округлене скалярне значення float32/float64, яке включає задану кількість дробових бітів |
VRSQRT14PD , VRSQRT14PS
|
Обчислити приблизні зворотні величини квадратних коренів упакованих значень float32/float64 |
VRSQRT14SD , VRSQRT14SS
|
Обчисліть приблизну зворотну величину квадратного кореня зі скалярного значення float32/float64 |
VSCALEFPS , VSCALEFPD
|
Масштабувати упаковані значення float32/float64 зі значеннями float32/float64 |
VSCALEFSS , VSCALEFSD
|
Масштабувати скалярне значення float32/float64 зі значенням float32/float64 |
Процесори з AVX-512
- Intel
- Knights Landing (Xeon Phi x200): [1] [8] AVX-512 F, CD, ER, PF
- Knights Mill (Xeon Phi x205): [7] AVX-512 F, CD, ER, PF, 4FMAPS, 4VNNIW, VPOPCNTDQ
- Skylake-SP, Skylake-X : [9] [10] [11] AVX-512 F, CD, VL, DQ, BW
- Cannon Lake : [7] AVX-512 F, CD, VL, DQ, BW, IFMA, VBMI
- Cascade Lake : AVX-512 F, CD, VL, DQ, BW, VNNI
- Cooper Lake : AVX-512 F, CD, VL, DQ, BW, VNNI, BF16
- Ice Lake, [7] Rocket Lake : [12] [13] AVX-512 F, CD, VL, DQ, BW, IFMA, VBMI, VBMI2, VPOPCNTDQ, BITALG, VNNI, VPCLMULQDQ, GFNI, VAES
- Tiger Lake (офіційно за винятком Pentium і Celeron):[14] AVX-512 F, CD, VL, DQ, BW, IFMA, VBMI, VBMI2, VPOPCNTDQ, BITALG, VNNI, VPCLMULQDQ, GFNI, VAES, VP2INTERSECT
- Alder Lake (офіційно ніколи не підтримувався Intel, повністю видалено в новіших ЦП Note 1 ): [15] [16] AVX-512 F, CD, VL, DQ, BW, IFMA, VBMI, VBMI2, VPOPCNTDQ, BITALG, VNNI, VPCLMULQDQ, GFNI, VAES, BF16, VP2INTERSECT, FP16
- Sapphire Rapids : [17] AVX-512 F, CD, VL, DQ, BW, IFMA, VBMI, VBMI2, VPOPCNTDQ, BITALG, VNNI, VPCLMULQDQ, GFNI, VAES, BF16, FP16
- Centaur Technology
- AMD
Продуктивність
[[Категорія:SIMD]] [[Категорія:Інструкції x86]]
- ↑ а б в г James Reinders (23 July 2013). AVX-512 Instructions. Intel. Процитовано 20 August 2013.
- ↑ а б Kusswurm, 2022, с. 223.
- ↑ а б в James Reinders (17 July 2014). Additional AVX-512 instructions. Intel. Процитовано 3 August 2014.
- ↑ Anton Shilov. Intel 'Skylake' processors for PCs will not support AVX-512 instructions. Kitguru.net. Процитовано 17 березня 2015.
- ↑ Intel will add deep-learning instructions to its processors. 14 October 2016.
- ↑ а б Intel Architecture Instruction Set Extensions Programming Reference (PDF). Intel. Процитовано 29 січня 2014.
- ↑ а б в г д е Intel Architecture Instruction Set Extensions and Future Features Programming Reference. Intel. Процитовано 16 жовтня 2017.
- ↑ Intel Xeon Phi Processor product brief. Intel. Процитовано 12 October 2016.
- ↑ Intel unveils X-series platform: Up to 18 cores and 36 threads, from $242 to $2,000. Ars Technica (амер.). Процитовано 30 травня 2017.
- ↑ Intel Advanced Vector Extensions 2015/2016: Support in GNU Compiler Collection (PDF). Gcc.gnu.org. Процитовано 20 жовтня 2016.
- ↑ Patrizio, Andy (21 September 2015). Intel's Xeon roadmap for 2016 leaks. Itworld.org. Процитовано 20 жовтня 2016.
- ↑ Intel Core i9-11900K Review - World's Fastest Gaming Processor?. www.techpowerup.com. 30 March 2021.
- ↑ "Add rocketlake to gcc" commit. gcc.gnu.org.
- ↑ Using the GNU Compiler Collection (GCC): x86 Options. GNU. Процитовано 14 жовтня 2019.
- ↑ Cutress, Ian; Frumusanu, Andrei. The Intel 12th Gen Core i9-12900K Review: Hybrid Performance Brings Hybrid Complexity. www.anandtech.com. Процитовано 5 November 2021.
- ↑ Larabel, Michael. Intel Core i9 12900K "Alder Lake" AVX-512 On Linux. www.phoronix.com. Процитовано 8 листопада 2021.
- ↑ Larabel, Michael. AVX-512 Performance Comparison: AMD Genoa vs. Intel Sapphire Rapids & Ice Lake. www.phoronix.com. Процитовано 19 січня 2023.
- ↑ The industry's first high-performance x86 SOC with server-class CPUs and integrated AI coprocessor technology. 2 August 2022. Архів оригіналу за 12 грудня 2019.
{{cite web}}
: Обслуговування CS1:Сторінки з посиланнями на джерела, що мають непридатні URL (посилання) - ↑ x86, x64 Instruction Latency, Memory Latency and CPUID dumps (instlatx64). users.atw.hu.
- ↑ AMD Zen 4 Based Ryzen CPUs May Feature Up to 24 Cores, Support for AVX512 Vectors. Hardware Times (амер.). 23 травня 2021. Процитовано 2 вересня 2021.
- ↑ Hagedoorn, Hilbert (18 May 2021). AMD working on a prodigious 96-core EPYC processor. Guru3D.com (амер.). Процитовано 25 травня 2021.
- ↑ clamchowder (23 серпня 2021). Details on the Gigabyte Leak. Chips And Cheese (амер.). Процитовано 10 червня 2022.
- ↑ ((W1zzard)) (26 May 2022). AMD Answers Our Zen 4 Tech Questions, with Robert Hallock. TechPowerUp (амер.). Процитовано 29 травня 2022.
- ↑ Larabel, Michael (26 вересня 2022). AMD Zen 4 AVX-512 Performance Analysis On The Ryzen 9 7950X. www.phoronix.com.
- ↑ Larabel, Michael (10 лютого 2024). AMD Zen 5 Compiler Support Posted For GCC - Confirms New AVX Features & More. www.phoronix.com (амер.).