multidimensional array - pass - Asignar matriz 2D en la memoria del dispositivo en CUDA

pass multidimensional array function c (3)

¿Cómo asigno y transfiero (hacia y desde el host) las matrices 2D en la memoria del dispositivo en Cuda?

Aplanarlo: hazlo unidimensional. Mira cómo se hace here

El código de su dispositivo podría ser más rápido. Intenta utilizar los hilos más.

__global__ void kernel(float* devPtr, int pitch) { int r = threadIdx.x; float* row = (float*)((char*)devPtr + r * pitch); for (int c = 0; c < width; ++c) { float element = row[c]; } }

A continuación, calcula la asignación de bloques e hilos adecuada para que cada hilo se ocupe de un solo elemento.

He encontrado una solución a este problema. No tuve que aplanar la matriz.

La función incorporada cudaMallocPitch() hizo el trabajo. Y podría transferir la matriz hacia y desde el dispositivo usando la función cudaMemcpy2D() .

Por ejemplo

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

Esto crea una matriz 2D de tamaño a * b con el tono tal como se pasa como parámetro.

El siguiente código crea una matriz 2D y se desplaza sobre los elementos. Se compila fácilmente, puedes usarlo.

#include<stdio.h> #include<cuda.h> #define height 50 #define width 50 // Device code __global__ void kernel(float* devPtr, int pitch) { for (int r = 0; r < height; ++r) { float* row = (float*)((char*)devPtr + r * pitch); for (int c = 0; c < width; ++c) { float element = row[c]; } } } //Host Code int main() { float* devPtr; size_t pitch; cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height); kernel<<<100, 512>>>(devPtr, pitch); return 0; }