Aakash-kaushik/mlpack/multihead__attention_8hpp_source.html

 #ifndef MLPACK_METHODS_ANN_LAYER_MULTIHEAD_ATTENTION_HPP
 #define MLPACK_METHODS_ANN_LAYER_MULTIHEAD_ATTENTION_HPP

 #include <mlpack/prereqs.hpp>
 #include <mlpack/methods/ann/layer/softmax.hpp>
 #include <mlpack/methods/ann/layer/dropout.hpp>
 #include <mlpack/methods/ann/init_rules/glorot_init.hpp>
 #include <mlpack/methods/ann/regularizer/no_regularizer.hpp>

 namespace mlpack {
 namespace ann  {

 template <
     typename InputDataType = arma::mat,
     typename OutputDataType = arma::mat,
     typename RegularizerType = NoRegularizer
 >
 class MultiheadAttention
 {
  public:
   MultiheadAttention();

   MultiheadAttention(const size_t tgtSeqLen,
                      const size_t srcSeqLen,
                      const size_t embedDim,
                      const size_t numHeads);

   void Reset();

   template<typename eT>
   void Forward(const arma::Mat<eT>& input, arma::Mat<eT>& output);

   template<typename eT>
   void Backward(const arma::Mat<eT>& /* input */,
                 const arma::Mat<eT>& gy,
                 arma::Mat<eT>& g);

   template<typename eT>
   void Gradient(const arma::Mat<eT>& input,
                 const arma::Mat<eT>& error,
                 arma::Mat<eT>& gradient);

   size_t WeightSize() const { return 4 * (embedDim + 1) * embedDim; }

   template<typename Archive>
   void serialize(Archive& ar, const uint32_t /* version */);

   size_t TgtSeqLen() const { return tgtSeqLen; }
   size_t& TgtSeqLen() { return tgtSeqLen; }

   size_t SrcSeqLen() const { return srcSeqLen; }
   size_t& SrcSeqLen() { return srcSeqLen; }

   size_t EmbedDim() const { return embedDim; }
   size_t& EmbedDim() { return embedDim; }

   size_t NumHeads() const { return numHeads; }
   size_t& NumHeads() { return numHeads; }

   OutputDataType const& AttentionMask() const { return attnMask; }
   OutputDataType& AttentionMask() { return attnMask; }

   OutputDataType const& KeyPaddingMask() const { return keyPaddingMask; }
   OutputDataType& KeyPaddingMask() { return keyPaddingMask; }

   OutputDataType const& OutputParameter() const { return outputParameter; }
   OutputDataType& OutputParameter() { return outputParameter; }

   OutputDataType const& Delta() const { return delta; }
   OutputDataType& Delta() { return delta; }

   OutputDataType const& Gradient() const { return grad; }
   OutputDataType& Gradient() { return grad; }

   OutputDataType const& Parameters() const { return weights; }
   OutputDataType& Parameters() { return weights; }

   size_t InputShape() const
   {
     return embedDim * (tgtSeqLen + 2 * srcSeqLen);
   }

  private:
   typedef typename OutputDataType::elem_type ElemType;

   size_t tgtSeqLen;

   size_t srcSeqLen;

   size_t embedDim;

   size_t numHeads;

   size_t headDim;

   OutputDataType attnMask;

   OutputDataType keyPaddingMask;

   OutputDataType queryWt;

   OutputDataType keyWt;

   OutputDataType valueWt;

   OutputDataType outWt;

   OutputDataType qBias;

   OutputDataType kBias;

   OutputDataType vBias;

   OutputDataType outBias;

   OutputDataType weights;

   arma::Cube<ElemType> qProj;

   arma::Cube<ElemType> kProj;

   arma::Cube<ElemType> vProj;

   arma::Cube<ElemType> scores;

   arma::Cube<ElemType> attnOut;

   Softmax<InputDataType, OutputDataType> softmax;

   OutputDataType delta;

   OutputDataType grad;

   OutputDataType outputParameter;

   RegularizerType regularizer;
 }; // class MultiheadAttention
 } // namespace ann
 } // namespace mlpack

 // Include implementation.
 #include "multihead_attention_impl.hpp"

 #endif
glorot_init.hpp

mlpack::ann::MultiheadAttention::Gradient
OutputDataType const  & Gradient() const
Get the gradient.
Definition: multihead_attention.hpp:173

mlpack::ann::MultiheadAttention::TgtSeqLen
size_t TgtSeqLen() const
Get the target sequence length.
Definition: multihead_attention.hpp:133

dropout.hpp

mlpack::ann::MultiheadAttention::serialize
void serialize(Archive &ar, const uint32_t)
Serialize the layer.
Definition: multihead_attention_impl.hpp:437

mlpack
Linear algebra utility functions, generally performed on matrices or vectors.
Definition: cv.hpp:1

mlpack::ann::MultiheadAttention::Backward
void Backward(const arma::Mat< eT > &, const arma::Mat< eT > &gy, arma::Mat< eT > &g)
Ordinary feed backward pass of a neural network, calculating the function f(x) by propagating x backw...
Definition: multihead_attention_impl.hpp:195

mlpack::ann::MultiheadAttention::Parameters
OutputDataType const  & Parameters() const
Get the parameters.
Definition: multihead_attention.hpp:178

mlpack::ann::MultiheadAttention::AttentionMask
OutputDataType & AttentionMask()
Modify the two dimensional Attention Mask.
Definition: multihead_attention.hpp:155

mlpack::ann::MultiheadAttention::SrcSeqLen
size_t SrcSeqLen() const
Get the source sequence length.
Definition: multihead_attention.hpp:138

prereqs.hpp
The core includes that mlpack expects; standard C++ includes and Armadillo.

mlpack::ann::MultiheadAttention::Delta
OutputDataType & Delta()
Modify the delta.
Definition: multihead_attention.hpp:170

mlpack::ann::MultiheadAttention::Forward
void Forward(const arma::Mat< eT > &input, arma::Mat< eT > &output)
Ordinary feed forward pass of a neural network, evaluating the function f(x) by propagating the activ...
Definition: multihead_attention_impl.hpp:89

mlpack::ann::MultiheadAttention::Gradient
OutputDataType & Gradient()
Modify the gradient.
Definition: multihead_attention.hpp:175

mlpack::ann::MultiheadAttention::OutputParameter
OutputDataType const  & OutputParameter() const
Get the output parameter.
Definition: multihead_attention.hpp:163

mlpack::ann::Softmax
Implementation of the Softmax layer.
Definition: softmax.hpp:38

mlpack::ann::MultiheadAttention::TgtSeqLen
size_t & TgtSeqLen()
Modify the target sequence length.
Definition: multihead_attention.hpp:135

mlpack::ann::MultiheadAttention::NumHeads
size_t & NumHeads()
Modify the number of attention heads.
Definition: multihead_attention.hpp:150

mlpack::ann::MultiheadAttention::Parameters
OutputDataType & Parameters()
Modify the parameters.
Definition: multihead_attention.hpp:180

mlpack::ann::MultiheadAttention::Delta
OutputDataType const  & Delta() const
Get the delta.
Definition: multihead_attention.hpp:168

mlpack::ann::MultiheadAttention::WeightSize
size_t WeightSize() const
Get the size of the weights.
Definition: multihead_attention.hpp:124

softmax.hpp

mlpack::ann::MultiheadAttention::KeyPaddingMask
OutputDataType & KeyPaddingMask()
Modify the Key Padding Mask.
Definition: multihead_attention.hpp:160

mlpack::ann::MultiheadAttention::KeyPaddingMask
OutputDataType const  & KeyPaddingMask() const
Get Key Padding Mask.
Definition: multihead_attention.hpp:158

mlpack::ann::MultiheadAttention::NumHeads
size_t NumHeads() const
Get the number of attention heads.
Definition: multihead_attention.hpp:148

mlpack::ann::MultiheadAttention::AttentionMask
OutputDataType const  & AttentionMask() const
Get the two dimensional Attention Mask.
Definition: multihead_attention.hpp:153

mlpack::ann::MultiheadAttention::EmbedDim
size_t EmbedDim() const
Get the embedding dimension.
Definition: multihead_attention.hpp:143

no_regularizer.hpp

mlpack::ann::MultiheadAttention::MultiheadAttention
MultiheadAttention()
Default constructor.
Definition: multihead_attention_impl.hpp:27

mlpack::ann::MultiheadAttention::EmbedDim
size_t & EmbedDim()
Modify the embedding dimension.
Definition: multihead_attention.hpp:145

mlpack::ann::MultiheadAttention::OutputParameter
OutputDataType & OutputParameter()
Modify the output parameter.
Definition: multihead_attention.hpp:165

mlpack::ann::MultiheadAttention::SrcSeqLen
size_t & SrcSeqLen()
Modify the source sequence length.
Definition: multihead_attention.hpp:140

mlpack::ann::MultiheadAttention::Reset
void Reset()
Reset the layer parameters.
Definition: multihead_attention_impl.hpp:63

multihead_attention_impl.hpp