gLLM/kernels.cpp at main · adityav31121999/gLLM · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
#include <iostream>
#include <vector>
#include <string>
#include "gllm.h"

#ifdef USE_CL

    #ifdef __linux__
        std::string path2Folder = "/home/adi23444/code/";
    #else
        std::string path2Folder = "D:/gLLMo";
    #endif

    // Source files - Paths relative to this header file's location
    std::vector<std::string> kernelSourceFiles = {
        path2Folder + "/src/maths/src/basic/cl/activations.cl",
        path2Folder + "/src/maths/src/basic/cl/vect.cl",
        path2Folder + "/src/maths/src/mat/cl/operators.cl",
        path2Folder + "/src/neural/src/mlp/cl/utils.cl",
        path2Folder + "/src/neural/src/mlp/cl/mlp.cl",
        path2Folder + "/src/neural/src/mlp/cl/mlp2d.cl",
        path2Folder + "/src/neural/src/attention/cl/attention.cl",
        path2Folder + "/src/neural/src/attention/cl/kdotq.cl",
        path2Folder + "/src/neural/src/attention/cl/weights.cl",
        path2Folder + "/src/model/src/tokens/token.cl"
    };

    // Kernel names - Must be unique across ALL source files loaded into the context
    std::vector<std::string> kernelNames = {
        // vect.cl
        "matrixMultiplyKernel",
        "vectorAddKernel",
        "vectorsAddKernel",
        // operators.cl
        "kernelTransposeMatrix",
        "matrix_multiply",
        "vector_matrix_multiply",
        "dot_matrix_vector",
        "vectorxMatTkernel",
        "matxMatTkernel",
        "dot_vector_matrix_vector",
        // activations.cl
        "clSigmoid",
        "clSigmoid1d",
        "clSigmoid2d",
        "clSigmoidder",
        "clSigmoid1dder",
        "clSigmoid2dder",
        "clSoftmax1d",
        "clSoftmax2d",
        "clSoftmax1dder",
        "clSoftmax2dder",
        "clReLU",
        "clReLU1d",
        "clReLU2d",
        "clReLUder",
        "clReLUder2d",
        "clLOTA1d",
        "clLOTA2d",
        "clLOTA2dmasking",
        "clLOTA1dder",
        "clLOTA2dder",
        "clLOTA2ddermasking",
        // mlp.cl
        "kernelOutputDelta",
        "l1PenaltyKernel",
        "l2PenaltyKernel",
        "absDiffKernel",
        "squaredDiffKernel",
        "kernelComputeGradMLPInput",
        "kernelOutputDeltaSigmoid",
        "kernelHiddenDeltaSigmoid",
        "kernelLastLayerDeltaSigmoid",
        "kernelUpdateWeights",
        "kernelUpdateWeightsAndGradients",
        "kernelUpdateInputMLP",
        "kernelLayerForward",
        "kernelMseReduction",
        "kernelRpropUpdate",
        "kernelUpdateElasticNet",
        // attention.cl
        "updateEVRowsKernelCL",
        "kernelElementwiseMultiply",
        "kernelComputeHeadSumsMasked",
        "kernelComputeHeadSumsMaskedev",
        "kernelAccumulateWeightedVectors",
        "kernelAccumulateWeightedVectorsev",
        "kernelComputeGradpred",
        "KernelComputeGradDeEmbeddings",
        "kernelGradForAttentionOutput",
        "kernelComputeGradientsEH",
        "kernelComputeGradientsEH_EV",
        "kernelComputeGradientsEHEVFromMSE",
        "kernelComputeGradientsEV_V",
        "kernelComputeGradDhDv",
        "kernelComputeGradDhDv_1stHead",
        "kernelComputePreMH_MV",
        "kernelComputeGradMH_MV",
        "kernelComputeGradHead",
        "kernelComputeGradK_Q",
        "kernelComputeGradMK_MQ",
        "kernelComputePreMV_V",
        "kernelComputeGradMV_V",
        "kernelComputeGradHead_V",
        "kernelComputeGradQ_V",
        "kernelComputeGradMQ_V",
        "kernelComputeGradMKCorrection",
        "kernelRowSum",
        // kdotq.cl
        "kernelCompute_single_kq_vector",
        "kernelComputeKQall",
        "kernelKdotQforSelf_train",
        "kernelKdotQforCross_train",
        "kernelKdotQ_Block1_Selfi",
        "kernelKdotQ_Block1_Crossi",
        "kernelKdotQ_BlockN_Selfi",
        "kernelKdotQ_BlockN_Crossi",
        "kernelComputeGradKdotQ_LOTA",
        // weights.cl
        "kernelUpdateEVrows",
        "kernelUpdateWeightsHeadHVElastic",
        "kernelUpdateWeightsHeadElastic",
        "kernelUpdateWeightsGeneral",
        "kernelUpdateWeightsGeneral_f4",
        "kernelUpdateSimple",
        "kernelUpdateSimple_Elastic",
        "accumulateEVRowsKernelCL",
        "kernelComputePrediction",
        "kernelComputePredictionWithScores",
        "updateEmbeddings",
        // model
        "generate_embeddings",
        "batchedVectorInverseKernel"
    };

#endif