CUDA

CUDA/ GUS
CUDA
Desenvolvedor	NVIDIA Corporation
Plataforma	GPU Nvidia
Versão estável	11.4.0 (29 de junho de 2021; há 3 anos)
Sistema operativo	Windows XP e superior, Mac OS X e Linux
Licença	Freeware
Estado do desenvolvimento	Ativo
Página oficial	developer.nvidia.com/cuda-zone

CUDA (anteriormente conhecido como Compute Unified Device Architecture ou Arquitetura de Dispositivo de Computação Unificada) é uma API destinada a computação paralela, GPGPU, e computação heterogênea, criada pela Nvidia.^[1] destinada a placas gráficas que suportem a API (normalmente placas gráficas com chipset da Nvidia). A plataforma CUDA dá acesso ao conjunto de instruções virtuais da GPU e a elementos de computação paralela, para a execução de núcleos de computação.^[2]

A API inclui um conjunto de instruções CUDA ISA's (Instruction Set Architecture) e o mecanismo de computação paralela na GPU. Ele expõe os diferentes tipos de memória da placa e obriga que o desenvolvedor configure os acessos da memória global, a cache, a quantidade e a disposição das threads. O desenvolvedor também será responsável por escalonar as atividades entre a GPU e o CPU. A plataforma CUDA é desenhada para trabalhar com linguagem de programação como C, C++ e Fortran. Isto torna acessível a especialistas em programação paralela o uso dos recursos do GPU. APIs anteriores como DirectX e OpenGL, permitem também o uso de GPGPU. Contudo a programação deste tipo de instruções nestas placas gráficas é mais exigente, uma vez que todo o código tem de ser convertido de e para instruções de cálculo vectorial, passíveis de serem calculadas pela placa gráfica. A API suporta, frameworks e APIs opensource, desenvolvidas pelo Khronos Group, como é o caso de OpenACC e OpenCL.^[2] Quando foi introduzida pela primeira vez pela Nvidia, o nome CUDA era um acrónimo de “Compute Unified Device Architecure”,^[3] apesar de a NVIDA ter abandonado o uso deste acrónimo.

O propósito inicial da API destinava-se a propriedades físicas em jogos, identificar placas ocultas em artérias, analisar fluxo do tráfego aéreo e visualização de moléculas. No entanto, não tardaria a que a API fosse usada para outros fins, como por exemplo, Inteligência artificial (de notar que o framework de Python da Google TensorFlow, tira proveito da API), assim como renderização gráfica (a partir de programas como o Octane Render), actividades de foro criptográfico (existem toda uma série de ferramentas, desde ferramentas para exploração de falhas de segurança, a aplicações para blockchain baseadas em APIs como CUDA; OpenCL, e SYCL, que tiram proveito da API). Actualmente, a plataforma CUDA, é das plataformas, de GPGPU mais robustas, e maduras que existem, o que pode ser muitas vezes usado como argumento para validar o preço mais alto de placas gráficas da Nvidia, quando comparado com as concorrentes directas da AMD. Em versões antigas do CUDA Toolkit, era possível desenvolver mesmo sem ter o hardware necessário, usando um emulador, mas a partir da versão 3.0, essa funcionalidade não é mais suportada.^[4]

Potencial

A placa gráfica (GPU), como unidade de processamento lógico, é capaz de calcular instrucções paralelas, com uma grande velocidade de largura de banda, como consequência das suas capacidades para gráficos em tempo real de alta resolução gráficos 3D, que são normalmente tarefas bastante exigentes. Por volta de 2012, os GPUs tinham evoluído para dispositivos de processamento paralelo altamente capazes, permitindo uma manipulação muito eficiente de blocos de informação de grande dimensão. O design é mais eficiente em instruções de cálculo paralelo para fins comuns, como por exemplo:

História

No final dos anos 90, surgiu a primeira GPU da NVIDIA, quando o hardware começou a tornar-se cada vez mais programável. A partir de então pesquisadores começaram a estudar sobre o assunto, culminando na GPU de Propósito Geral (GPGPU). Entretanto a GPGPU naquela época era muito mais complexa, e poucas pessoas conseguiam trabalhar com ela, até que uma equipe de pesquisadores da Universidade de Stanford reuniu-se para melhorar a GPU.

Em 2003, um grupo de pesquisadores liderado por Ian Buck desenvolveu o Brook, o primeiro modelo de programação a adotar a linguagem C em uma plataforma de computação paralela, revelam assim uma GPU como um processador de propósito geral em uma linguagem de alto nível, além de os programas em Brook serem sete vezes mais rápidos.

A NVIDIA então sabia que um hardware extremamente rápido assim deveria conter ferramentas intuitivas, por isso convidou Ian Buck para trabalhar na empresa e começar a desenvolver uma solução para executar o C na GPU de forma melhor. Assim, a NVIDIA apresentou em 2006 o CUDA, a primeira solução para computação de propósito geral em GPUs.

Benefícios e Limitações do CUDA

Benefícios

Leitura paralela - o código pode ler de endereços arbitrários na memória;
Memória compartilhada - CUDA expõe uma região de memória compartilhada rápida (16KB em tamanho) que podem ser compartilhados entre threads. Isso pode ser usado como um cache de usuário, permitindo maior largura de banda do que é possível utilizando textura lookups;
Downloads mais rápidos e readbacks para a GPU;
Suporte completo para operações de números inteiros e operações de bitwise;

Limitações

A renderização de texturas não é suportado;
As cópias realizadas entre uma memória e outra podem gerar algum problema na performance das aplicações;
Ao contrário do OpenCL, o CUDA está disponível apenas para placas de vídeo fabricadas pela própria NVIDIA. Caso seja usado em outro tipo de placa, o CUDA funcionará corretamente, entretanto a performance será bem limitada;

Placas suportadas

Versão	GPUs	Placas
1.0	G80, G92, G92b, G94, G94b	GeForce 8800GTX/Ultra, 9400GT, 9600GT, 9800GT, Tesla C/D/S870, FX4/5600, 360M, GT 420
1.1	G86, G84, G98, G96, G96b, G94, G94b, G92, G92b	GeForce 8400GS/GT, 8600GT/GTS, 8800GT/GTS, 9600 GSO, 9800GTX/GX2, GTS 250, GT 120/30/40, FX 4/570, 3/580, 17/18/3700, 4700x2, 1xxM, 32/370M, 3/5/770M, 16/17/27/28/36/37/3800M, NVS420/50
1.2	GT218, GT216, GT215	GeForce 210, GT 220/40, FX380 LP, 1800M, 370/380M, NVS 2/3100M
1.3	GT200, GT200b	GeForce GTX 260, GTX 275, GTX 280, GTX 285, GTX 295, Tesla C/M1060, S1070, Quadro CX, FX 3/4/5800
2.0	GF100, GF110	GeForce (GF100) GTX 465, GTX 470, GTX 480, Tesla C2050, C2070, S/M2050/70, Quadro Plex 7000, Quadro 4000, 5000, 6000, GeForce (GF110) GTX 560 TI 448, GTX570, GTX580, GTX590
2.1	GF104, GF114, GF116, GF108, GF106	GeForce 610M, GT 430, GT 440, GTS 450, GTX 460, GT 545, GTX 550 Ti, GTX 560, GTX 560 Ti, 500M, Quadro 600, 2000
3.0	GK104, GK106, GK107	GeForce GTX 690, GTX 680, GTX 670, GTX 660 Ti, GTX 660, GTX 650 Ti, GTX 650, GT 640, GeForce GTX 680MX, GeForce GTX 680M, GeForce GTX 675MX, GeForce GTX 670MX, GTX 660M, GeForce GT 650M, GeForce GT 645M, GeForce GT 640M, Quadro K600, Quadro K2000, Quadro K4000, Quadro K5000
3.5	GK110	Tesla K20X, K20, GeForce GTX TITAN

Nvidia GeForce
GeForce GTX TITAN
GeForce GTX 690
GeForce GTX 680
GeForce GTX 670
GeForce GTX 660 Ti
GeForce GTX 660
GeForce GTX 650 Ti
GeForce GTX 650
GeForce GT 640
GeForce GTX 590
GeForce GTX 580
GeForce GTX 570
GeForce GTX 560 Ti
GeForce GTX 560
GeForce GTX 550 Ti
GeForce GT 520
GeForce GTX 480
GeForce GTX 470
GeForce GTX 465
GeForce GTX 460
GeForce GTX 460 SE
GeForce GTS 450
GeForce GT 440
GeForce GT 430
GeForce GT 420
GeForce GTX 295
GeForce GTX 285
GeForce GTX 280
GeForce GTX 275
GeForce GTX 260
GeForce GTS 250
GeForce GTS 240
GeForce GT 240
GeForce GT 220
GeForce 210/G210
GeForce GT 140
GeForce 9800 GX2
GeForce 9800 GTX+
GeForce 9800 GTX
GeForce 9800 GT
GeForce 9600 GSO
GeForce 9600 GT
GeForce 9500 GT
GeForce 9400 GT
GeForce 9400 mGPU
GeForce 9300 mGPU
GeForce 9100 mGPU
GeForce 8800 Ultra
GeForce 8800 GTX
GeForce 8800 GTS
GeForce 8800 GT
GeForce 8800 GS
GeForce 8600 GTS
GeForce 8600 GT
GeForce 8600 mGT
GeForce 8500 GT
GeForce 8400 GS
GeForce 8300 mGPU
GeForce 8200 mGPU
GeForce 8100 mGPU

Nvidia GeForce Mobile
GeForce GTX 680MX
GeForce GTX 680M
GeForce GTX 675MX
GeForce GTX 670MX
GeForce GTX 660M
GeForce GT 650M
GeForce GT 645M
GeForce GT 640M
GeForce GTX 580M
GeForce GTX 570M
GeForce GTX 560M
GeForce GT 555M
GeForce GT 550M
GeForce GT 540M
GeForce GT 525M
GeForce GT 520M
GeForce GTX 480M
GeForce GTX 470M
GeForce GTX 460M
GeForce GT 445M
GeForce GT 435M
GeForce GT 425M
GeForce GT 420M
GeForce GT 415M
GeForce GTX 285M
GeForce GTX 280M
GeForce GTX 260M
GeForce GTS 360M
GeForce GTS 350M
GeForce GTS 260M
GeForce GTS 250M
GeForce GT 335M
GeForce GT 330M
GeForce GT 325M
GeForce GT 320M
GeForce 310M
GeForce GT 240M
GeForce GT 230M
GeForce GT 220M
GeForce G210M
GeForce GTS 160M
GeForce GTS 150M
GeForce GT 130M
GeForce GT 120M
GeForce G110M
GeForce G105M
GeForce G103M
GeForce G102M
GeForce G100
GeForce 9800M GTX
GeForce 9800M GTS
GeForce 9800M GT
GeForce 9800M GS
GeForce 9700M GTS
GeForce 9700M GT
GeForce 9650M GT
GeForce 9650M GS
GeForce 9600M GT
GeForce 9600M GS
GeForce 9500M GS
GeForce 9500M G
GeForce 9400M G
GeForce 9300M GS
GeForce 9300M G
GeForce 9200M GS
GeForce 9100M G
GeForce 8800M GTX
GeForce 8800M GTS
GeForce 8700M GT
GeForce 8600M GT
GeForce 8600M GS
GeForce 8400M GT
GeForce 8400M GS
GeForce 8400M G
GeForce 8200M G

Nvidia Quadro
Quadro K6000
Quadro K5000
Quadro K4000
Quadro K2000D
Quadro K2000
Quadro K600
Quadro 6000
Quadro 5000
Quadro 4000
Quadro 2000
Quadro 600
Quadro FX 5800
Quadro FX 5600
Quadro FX 4800
Quadro FX 4700 X2
Quadro FX 4600
Quadro FX 3800
Quadro FX 3700
Quadro FX 1800
Quadro FX 1700
Quadro FX 580
Quadro FX 570
Quadro FX 380
Quadro FX 370
Quadro NVS 510
Quadro NVS 450
Quadro NVS 420
Quadro NVS 295
Quadro Plex 1000 Model IV
Quadro Plex 1000 Model S4

Nvidia Quadro Mobile
Quadro K5000M
Quadro K4000M
Quadro K3000M
Quadro K2000M
Quadro K1000M
Quadro K500M
Quadro 5010M
Quadro 5000M
Quadro 4000M
Quadro 3000M
Quadro 2000M
Quadro 1000M
Quadro FX 3800M
Quadro FX 3700M
Quadro FX 3600M
Quadro FX 2800M
Quadro FX 2700M
Quadro FX 1800M
Quadro FX 1700M
Quadro FX 1600M
Quadro FX 880M
Quadro FX 770M
Quadro FX 570M
Quadro FX 380M
Quadro FX 370M
Quadro FX 360M
Quadro NVS 320M
Quadro NVS 160M
Quadro NVS 150M
Quadro NVS 140M
Quadro NVS 135M
Quadro NVS 130M

NVIDIA Tesla
Tesla K20X
Tesla K20
Tesla K10
Tesla C2050/2070
Tesla M2050/M2070
Tesla S2050
Tesla S1070
Tesla M1060
Tesla C1060
Tesla C870
Tesla D870
Tesla S870

Próximas arquiteturas CUDA

A próxima geração de arquiteturas CUDA (codename: "Fermi") que vira por padrão na Geforce serie 400 ( GTX 480 estará disponível a partir de 2010) a GPU é desenvolvida para suportar nativamente mais linguagens de programação como C++. É esperado que tenha um desempenho 8 vezes maior na performance de pontos flutuantes se comparada com a geração atual Nvidia Tesla. E terá a introdução de novas características como:

Mais de 512 núcleos CUDA e 3 bilhoes de transistores
NVIDIA Parallel DataCache technology
NVIDIA GigaThread engine
Suporte a Memoria ECC
Suporte nativo ao Visual Studio

CUDA.NET

Cuda.NET é a implementação da tecnologia CUDA para C#. Ela permite que os códigos criados em C# sejam executados pelas placas Nvidia que possuem a tecnologia CUDA, permitindo ganho em relação ao processamento paralelo utilizado pela GPU ao invés do processador.

Referências

↑ Nvidia CUDA Home Page
↑ ^a ^b Abi-Chahla, Fedy (18 de junho de 2008). «Nvidia's CUDA: The End of the CPU?». Tom's Hardware. Consultado em 17 de maio de 2015
↑ Shimpi, Anand Lal; Wilson, Derek (8 de novembro de 2006). «Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10». AnandTech. Consultado em 16 de maio de 2015
↑ CUDA Toolkit 3.0 - release highlights (em inglês)

Ligações externas

«Sítio oficial» (em inglês)

Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[1] Nvidia CUDA Home Page

[CUDA_intro_-_TomsHardware-2] Abi-Chahla, Fedy (18 de junho de 2008). «Nvidia's CUDA: The End of the CPU?». Tom's Hardware. Consultado em 17 de maio de 2015

[CUDA_intro_-_AnandTech-3] Shimpi, Anand Lal; Wilson, Derek (8 de novembro de 2006). «Nvidia's GeForce 8800 (G80): GPUs Re-architected for DirectX 10». AnandTech. Consultado em 16 de maio de 2015

[4] CUDA Toolkit 3.0 - release highlights (em inglês)

[1]

[2]

[3]

[4]