solana-labs
diff --git a/‎src/Makefile
Lines changed: 48 additions & 0 deletions b/‎src/Makefile
Lines changed: 48 additions & 0 deletions
diff --git a/‎src/cuda-headers/gpu_common.h
Lines changed: 4 additions & 0 deletions b/‎src/cuda-headers/gpu_common.h
Lines changed: 4 additions & 0 deletions
diff --git a/‎src/opencl-ecc-ed25519/gpu_ctx.cpp
Lines changed: 157 additions & 0 deletions b/‎src/opencl-ecc-ed25519/gpu_ctx.cpp
Lines changed: 157 additions & 0 deletions
diff --git a/‎src/opencl-ecc-ed25519/gpu_ctx.h
Lines changed: 60 additions & 0 deletions b/‎src/opencl-ecc-ed25519/gpu_ctx.h
Lines changed: 60 additions & 0 deletions
@@ -16,10 +16,20 @@ CHACHA_TEST_BIN=cuda_chacha_test
 ECC_TEST_BIN=cuda_ed25519_verify
 LIB=cuda-crypt
 
+CL_ECC_TEST_BIN=cl_ed25519_verify
+CL_LIB=cl-crypt
+
+CL_HEADER_DIR:=opencl-platform
+
 CUDA_HEADER_DIR:=cuda-headers
 CUDA_SHA256_DIR:=cuda-sha256
 
+CXX ?= g++
 CFLAGS+=-DENDIAN_NEUTRAL -DLTC_NO_ASM -I$(CUDA_HEADER_DIR) -I$(CUDA_SHA256_DIR)
+#use -DUSE_RDTSC for Windows compilation
+CL_CFLAGS=-fPIC -std=c++11 -DENDIAN_NEUTRAL -DOPENCL_VARIANT -DLTC_NO_ASM -I$(CUDA_HEADER_DIR) -I$(CUDA_SHA256_DIR) -I$(CL_HEADER_DIR) -Icommon/
+
+CUDA_PATH ?= /usr/local/cuda-9.1
 
 all: $V/$(CHACHA_TEST_BIN) $V/$(ECC_TEST_BIN) $(V)/lib$(LIB).so
 
@@ -49,13 +59,33 @@ $V/gpu_ctx.o: $(addprefix $(ECC_DIR)/,gpu_ctx.cu gpu_ctx.h)
 	@mkdir -p $(@D)
 	$(NVCC) -rdc=true $(CFLAGS) -c $< -o $@
 
+CL_ECC_DIR:=opencl-ecc-ed25519
+
+CL_SIGN_SRCS:=$(CL_ECC_DIR)/sign.cpp $(ECC_DIR)/fe.cu $(ECC_DIR)/ed25519.h
+$V/cl_sign.o: $(CL_SIGN_SRCS)
+	@mkdir -p $(@D)
+	$(CXX) $(CL_CFLAGS) -I$(ECC_DIR) -c $< -o $@
+
+CL_VERIFY_SRCS:=$(CL_ECC_DIR)/verify.cpp $(ECC_DIR)/seed.cu $(ECC_DIR)/ed25519.h
+$V/cl_verify.o: $(CL_VERIFY_SRCS)
+	@mkdir -p $(@D)
+	$(CXX) $(CL_CFLAGS) -I$(ECC_DIR) -c $< -o $@
+	
+$V/cl_gpu_ctx.o: $(addprefix $(CL_ECC_DIR)/,gpu_ctx.cpp gpu_ctx.h)
+	@mkdir -p $(@D)
+	$(CXX) $(CL_CFLAGS) -I$(ECC_DIR) -c $< -o $@
+	
 CHACHA_DIR:=cuda-crypt
 CHACHA_SRCS:=$(addprefix $(CHACHA_DIR)/,chacha_cbc.cu chacha.h common.cu)
 
 $V/chacha_cbc.o: $(CHACHA_SRCS)
 	@mkdir -p $(@D)
 	$(NVCC) -rdc=true $(CFLAGS) -c $< -o $@
 
+$V/cl_init_platform.o: opencl-platform/cl_init_platform.cpp
+	@mkdir -p $(@D)
+	$(CXX) $(CL_CFLAGS) -c $< -o $@
+
 AES_SRCS:=$(addprefix $(CHACHA_DIR)/,aes_cbc.cu aes_core.cu modes_lcl.h common.cu)
 
 $V/aes_cbc.o: $(AES_SRCS)
@@ -69,6 +99,24 @@ $V/poh_verify.o: $(POH_SRCS)
 	@mkdir -p $(@D)
 	$(NVCC) -rdc=true $(CFLAGS) -c $< -o $@
 
+CL_CPU_GPU_OBJS=$(addprefix $V/,cl_init_platform.o cl_verify.o cl_gpu_ctx.o cl_sign.o)
+
+$V/cl_crypt-dlink.o: $(CL_CPU_GPU_OBJS)
+	ar rvs $@ $^
+
+$V/lib$(CL_LIB).a: $V/cl_crypt-dlink.o $(CL_CPU_GPU_OBJS)
+	ar rcs $@ $^
+
+$V/lib$(CL_LIB).so: $V/cl_crypt-dlink.o $(CL_CPU_GPU_OBJS)
+	$(CXX) -shared --shared $^ -o $@
+
+$V/cl_ecc_main.o: $(CL_ECC_DIR)/main.cpp $(ECC_DIR)/ed25519.h
+	@mkdir -p $(@D)
+	$(CXX) $(CL_CFLAGS) -I$(ECC_DIR) -c $< -o $@
+
+$V/$(CL_ECC_TEST_BIN): $V/cl_ecc_main.o $V/lib$(CL_LIB).so
+	$(CXX) $(CL_CFLAGS) -Wl,-v -L$(CUDA_PATH)/lib64 -L$V -lpthread $^ -lOpenCL -o $@
+
 CPU_GPU_OBJS=$(addprefix $V/,chacha_cbc.o aes_cbc.o verify.o poh_verify.o gpu_ctx.o sign.o seed.o keypair.o)
 
 $V/crypt-dlink.o: $(CPU_GPU_OBJS)
 
@@ -10,6 +10,8 @@ extern bool g_verbose;
 
 #define ROUND_UP_DIV(x, y) (((x) + (y) - 1) / (y))
 
+#ifndef OPENCL_VARIANT
+
 #define CUDA_CHK(ans) { cuda_assert((ans), __FILE__, __LINE__); }
 
 inline void cuda_assert(cudaError_t err, const char *file, int line)
@@ -22,3 +24,5 @@ inline void cuda_assert(cudaError_t err, const char *file, int line)
 }
 
 #endif
+
+#endif
@@ -0,0 +1,157 @@
+#include "ed25519.h"
+#include "gpu_ctx.h"
+#include <pthread.h>
+#include "gpu_common.h"
+
+static pthread_mutex_t g_ctx_mutex = PTHREAD_MUTEX_INITIALIZER;
+
+#define MAX_NUM_GPUS 	1
+#define MAX_QUEUE_SIZE 	1
+
+static gpu_ctx_t g_gpu_ctx[MAX_NUM_GPUS][MAX_QUEUE_SIZE] = {0};
+static uint32_t g_cur_gpu = 0;
+static uint32_t g_cur_queue[MAX_NUM_GPUS] = {0};
+static int32_t g_total_gpus = -1;
+
+static bool cl_crypt_init_locked() {
+    if (g_total_gpus == -1) {
+        g_total_gpus = MAX_NUM_GPUS;
+        LOG("total_gpus: %d\n", g_total_gpus);
+        for (int gpu = 0; gpu < g_total_gpus; gpu++) {
+            for (int queue = 0; queue < MAX_QUEUE_SIZE; queue++) {
+                int err = pthread_mutex_init(&g_gpu_ctx[gpu][queue].mutex, NULL);
+                if (err != 0) {
+                    fprintf(stderr, "pthread_mutex_init error %d gpu: %d queue: %d\n",
+                            err, gpu, queue);
+                    g_total_gpus = 0;
+                    return false;
+                }
+            }
+        }
+    }
+    return g_total_gpus > 0;
+}
+
+bool ed25519_init() {
+    pthread_mutex_lock(&g_ctx_mutex);
+    bool success = cl_crypt_init_locked();
+    pthread_mutex_unlock(&g_ctx_mutex);
+    return success;
+}
+
+gpu_ctx_t* get_gpu_ctx() {
+    int32_t cur_gpu, cur_queue;
+
+    LOG("locking global mutex\n");
+    pthread_mutex_lock(&g_ctx_mutex);
+    if (!cl_crypt_init_locked()) {
+        pthread_mutex_unlock(&g_ctx_mutex);
+        LOG("No GPUs, exiting...\n");
+        return NULL;
+    }
+    cur_gpu = g_cur_gpu;
+    g_cur_gpu++;
+    g_cur_gpu %= g_total_gpus;
+    cur_queue = g_cur_queue[cur_gpu];
+    g_cur_queue[cur_gpu]++;
+    g_cur_queue[cur_gpu] %= MAX_QUEUE_SIZE;
+    pthread_mutex_unlock(&g_ctx_mutex);
+
+    gpu_ctx_t* cur_ctx = &g_gpu_ctx[cur_gpu][cur_queue];
+    LOG("locking contex mutex queue: %d gpu: %d\n", cur_queue, cur_gpu);
+    pthread_mutex_lock(&cur_ctx->mutex);
+
+    LOG("selecting gpu: %d queue: %d\n", cur_gpu, cur_queue);
+
+    return cur_ctx;
+}
+
+void setup_gpu_ctx(verify_ctx_t* cur_ctx,
+                   const gpu_Elems* elems,
+                   uint32_t num_elems,
+                   uint32_t message_size,
+                   uint32_t total_packets,
+                   uint32_t total_packets_size,
+                   uint32_t total_signatures,
+                   const uint32_t* message_lens,
+                   const uint32_t* public_key_offsets,
+                   const uint32_t* signature_offsets,
+                   const uint32_t* message_start_offsets,
+                   size_t out_size
+                   ) {
+	int ret;
+    size_t offsets_size = total_signatures * sizeof(uint32_t);
+
+    LOG("device allocate. packets: %d out: %d offsets_size: %zu\n",
+        total_packets_size, (int)out_size, offsets_size);
+
+    if (cur_ctx->packets == NULL ||
+        total_packets_size > cur_ctx->packets_size_bytes) {
+        clReleaseMemObject(cur_ctx->packets);
+        cur_ctx->packets = clCreateBuffer(context, CL_MEM_READ_WRITE, total_packets_size, NULL, &ret);
+        CL_ERR( ret );
+
+        cur_ctx->packets_size_bytes = total_packets_size;
+    }
+	
+	if (cur_ctx->out == NULL || cur_ctx->out_size_bytes < out_size) {
+        clReleaseMemObject(cur_ctx->out);
+        cur_ctx->out = clCreateBuffer(context, CL_MEM_READ_WRITE, out_size, NULL, &ret);
+        CL_ERR( ret );
+
+        cur_ctx->out_size_bytes = total_signatures;
+    }
+	
+	if (cur_ctx->public_key_offsets == NULL || cur_ctx->offsets_len < total_signatures) {
+        
+        clReleaseMemObject(cur_ctx->public_key_offsets);
+        cur_ctx->public_key_offsets = clCreateBuffer(context, CL_MEM_READ_WRITE, offsets_size, NULL, &ret);
+        CL_ERR( ret );
+        
+        clReleaseMemObject(cur_ctx->signature_offsets);
+        cur_ctx->signature_offsets = clCreateBuffer(context, CL_MEM_READ_WRITE, offsets_size, NULL, &ret);
+        CL_ERR( ret );
+        
+        clReleaseMemObject(cur_ctx->message_start_offsets);
+        cur_ctx->message_start_offsets = clCreateBuffer(context, CL_MEM_READ_WRITE, offsets_size, NULL, &ret);
+        CL_ERR( ret );
+        
+        clReleaseMemObject(cur_ctx->message_lens);
+        cur_ctx->message_lens = clCreateBuffer(context, CL_MEM_READ_WRITE, offsets_size, NULL, &ret);
+        CL_ERR( ret );
+
+        cur_ctx->offsets_len = total_signatures;
+    }
+
+    CL_ERR( clEnqueueWriteBuffer(cmd_queue, cur_ctx->public_key_offsets, CL_TRUE, 0, offsets_size, public_key_offsets, 0, NULL, NULL));
+    CL_ERR( clEnqueueWriteBuffer(cmd_queue, cur_ctx->signature_offsets, CL_TRUE, 0, offsets_size, signature_offsets, 0, NULL, NULL));
+    CL_ERR( clEnqueueWriteBuffer(cmd_queue, cur_ctx->message_start_offsets, CL_TRUE, 0, offsets_size, message_start_offsets, 0, NULL, NULL));
+    CL_ERR( clEnqueueWriteBuffer(cmd_queue, cur_ctx->message_lens, CL_TRUE, 0, offsets_size, message_lens, 0, NULL, NULL));
+
+    size_t cur = 0;
+    for (size_t i = 0; i < num_elems; i++) {
+        LOG("i: %zu size: %d\n", i, elems[i].num * message_size);
+        CL_ERR( clEnqueueWriteBuffer(cmd_queue, cur_ctx->packets, CL_TRUE, cur * message_size, elems[i].num * message_size, elems[i].elems, 0, NULL, NULL));
+        cur += elems[i].num;
+    }
+}
+
+
+void release_gpu_ctx(gpu_ctx_t* cur_ctx) {
+    pthread_mutex_unlock(&cur_ctx->mutex);
+}
+
+void ed25519_free_gpu_mem() {
+	for (size_t gpu = 0; gpu < MAX_NUM_GPUS; gpu++) {
+        for (size_t queue = 0; queue < MAX_QUEUE_SIZE; queue++) {
+            verify_ctx_t* verify_ctx = &g_gpu_ctx[gpu][queue].verify_ctx;
+			
+			CL_ERR(clReleaseMemObject(verify_ctx->packets));
+			CL_ERR(clReleaseMemObject(verify_ctx->out));
+			CL_ERR(clReleaseMemObject(verify_ctx->message_lens));
+			CL_ERR(clReleaseMemObject(verify_ctx->public_key_offsets));
+			CL_ERR(clReleaseMemObject(verify_ctx->signature_offsets));
+			CL_ERR(clReleaseMemObject(verify_ctx->message_start_offsets));
+        }
+    }
+}
@@ -0,0 +1,60 @@
+#ifndef GPU_CTX_H
+#define GPU_CTX_H
+
+#include "cl_common.h"
+
+#include <inttypes.h>
+#include "ed25519.h"
+
+#ifdef __cplusplus
+extern "C" {
+#endif
+
+typedef struct {
+    cl_mem packets;
+	uint32_t packets_size_bytes;
+	
+    cl_mem out;
+	size_t out_size_bytes;
+	
+    cl_mem public_key_offsets;
+    cl_mem message_start_offsets;
+    cl_mem signature_offsets;
+    cl_mem message_lens;
+	size_t offsets_len;
+
+    size_t num;
+    size_t num_signatures;
+    uint32_t total_packets_len;
+} verify_ctx_t;
+
+typedef struct {
+    verify_ctx_t verify_ctx;
+
+    pthread_mutex_t mutex;
+} gpu_ctx_t;
+
+extern gpu_ctx_t* get_gpu_ctx();
+extern void release_gpu_ctx(gpu_ctx_t*);
+
+extern void ed25519_free_gpu_mem();
+
+extern void setup_gpu_ctx(verify_ctx_t* cur_ctx,
+                          const gpu_Elems* elems,
+                          uint32_t num_elems,
+                          uint32_t message_size,
+                          uint32_t total_packets,
+                          uint32_t total_packets_size,
+                          uint32_t total_signatures,
+                          const uint32_t* message_lens,
+                          const uint32_t* public_key_offsets,
+                          const uint32_t* signature_offsets,
+                          const uint32_t* message_start_offsets,
+                          size_t out_size
+						  );
+
+#ifdef __cplusplus
+}
+#endif
+
+#endif