wichtounet/etl/vec__eval__functors_8hpp_source.html

 //=======================================================================
 // Copyright (c) 2014-2023 Baptiste Wicht
 // Distributed under the terms of the MIT License.
 // (See accompanying file LICENSE or copy at
 //  http://opensource.org/licenses/MIT)
 //=======================================================================

 #pragma once

 namespace etl::detail {

 template <vector_mode_t V>
 struct vectorized_base {
     using vect_impl = typename get_vector_impl<V>::type;

     template <typename T>
     static inline auto load(T&& x, size_t i) {
         return x.template load<vect_impl>(i);
     }
 };

 template <vector_mode_t V>
 struct VectorizedAssign : vectorized_base<V> {
     using base_t = vectorized_base<V>;
     using base_t::load;
     using vect_impl = typename base_t::vect_impl;

     template <typename L_Expr, typename R_Expr>
     static void apply(L_Expr&& lhs, R_Expr&& rhs) {
         using IT = typename get_intrinsic_traits<V>::template type<value_t<R_Expr>>;

         const size_t N = etl::size(lhs);

         auto* lhs_mem = lhs.memory_start();

         constexpr bool remainder = !padding || !all_padded<L_Expr, R_Expr>;

         const size_t last = remainder ? prev_multiple(N, IT::size) : N;

         size_t i = 0;

         // 0. If possible and interesting, use streaming stores

         if constexpr (streaming) {
             if (N > stream_threshold / (sizeof(value_t<L_Expr>) * 3) && !rhs.alias(lhs)) {
                 for (; i < last; i += IT::size) {
                     lhs.template stream<vect_impl>(load(rhs, i), i);
                 }

                 for (; remainder && i < N; ++i) {
                     lhs_mem[i] = rhs[i];
                 }

                 return;
             }
         }

         // 1. In the default case, simple unrolled vectorization

         for (; i + (IT::size * 3) < last; i += 4 * IT::size) {
             lhs.template store<vect_impl>(load(rhs, i + 0 * IT::size), i + 0 * IT::size);
             lhs.template store<vect_impl>(load(rhs, i + 1 * IT::size), i + 1 * IT::size);
             lhs.template store<vect_impl>(load(rhs, i + 2 * IT::size), i + 2 * IT::size);
             lhs.template store<vect_impl>(load(rhs, i + 3 * IT::size), i + 3 * IT::size);
         }

         for (; i < last; i += IT::size) {
             lhs.template store<vect_impl>(load(rhs, i), i);
         }

         for (; remainder && i < N; ++i) {
             lhs_mem[i] = rhs[i];
         }
     }
 };

 template <vector_mode_t V>
 struct VectorizedAssignAdd : vectorized_base<V> {
     using base_t = vectorized_base<V>;
     using base_t::load;
     using vect_impl = typename base_t::vect_impl;

     template <typename L_Expr, typename R_Expr>
     static void apply(L_Expr&& lhs, R_Expr&& rhs) {
         using IT = typename get_intrinsic_traits<V>::template type<value_t<R_Expr>>;

         const size_t N = etl::size(lhs);

         auto* lhs_mem = lhs.memory_start();

         constexpr bool remainder = !padding || !all_padded<L_Expr, R_Expr>;

         const size_t last = remainder ? prev_multiple(N, IT::size) : N;

         size_t i = 0;

         for (; i + (IT::size * 3) < last; i += 4 * IT::size) {
             lhs.template store<vect_impl>(vect_impl::add(load(lhs, i + 0 * IT::size), load(rhs, i + 0 * IT::size)), i + 0 * IT::size);
             lhs.template store<vect_impl>(vect_impl::add(load(lhs, i + 1 * IT::size), load(rhs, i + 1 * IT::size)), i + 1 * IT::size);
             lhs.template store<vect_impl>(vect_impl::add(load(lhs, i + 2 * IT::size), load(rhs, i + 2 * IT::size)), i + 2 * IT::size);
             lhs.template store<vect_impl>(vect_impl::add(load(lhs, i + 3 * IT::size), load(rhs, i + 3 * IT::size)), i + 3 * IT::size);
         }

         for (; i < last; i += IT::size) {
             lhs.template store<vect_impl>(vect_impl::add(load(lhs, i), load(rhs, i)), i);
         }

         for (; remainder && i < N; ++i) {
             lhs_mem[i] += rhs[i];
         }
     }
 };

 template <vector_mode_t V>
 struct VectorizedAssignSub : vectorized_base<V> {
     using base_t = vectorized_base<V>;
     using base_t::load;
     using vect_impl = typename base_t::vect_impl;

     template <typename L_Expr, typename R_Expr>
     static void apply(L_Expr&& lhs, R_Expr&& rhs) {
         using IT = typename get_intrinsic_traits<V>::template type<value_t<R_Expr>>;

         const size_t N = etl::size(lhs);

         auto* lhs_mem = lhs.memory_start();

         constexpr bool remainder = !padding || !all_padded<L_Expr, R_Expr>;

         const size_t last = remainder ? prev_multiple(N, IT::size) : N;

         size_t i = 0;

         for (; i + (IT::size * 3) < last; i += 4 * IT::size) {
             lhs.template store<vect_impl>(vect_impl::sub(load(lhs, i + 0 * IT::size), load(rhs, i + 0 * IT::size)), i + 0 * IT::size);
             lhs.template store<vect_impl>(vect_impl::sub(load(lhs, i + 1 * IT::size), load(rhs, i + 1 * IT::size)), i + 1 * IT::size);
             lhs.template store<vect_impl>(vect_impl::sub(load(lhs, i + 2 * IT::size), load(rhs, i + 2 * IT::size)), i + 2 * IT::size);
             lhs.template store<vect_impl>(vect_impl::sub(load(lhs, i + 3 * IT::size), load(rhs, i + 3 * IT::size)), i + 3 * IT::size);
         }

         for (; i < last; i += IT::size) {
             lhs.template store<vect_impl>(vect_impl::sub(load(lhs, i), load(rhs, i)), i);
         }

         for (; remainder && i < N; ++i) {
             lhs_mem[i] -= rhs[i];
         }
     }
 };

 template <vector_mode_t V>
 struct VectorizedAssignMul : vectorized_base<V> {
     using base_t = vectorized_base<V>;
     using base_t::load;
     using vect_impl = typename base_t::vect_impl;

     template <typename L_Expr, typename R_Expr>
     static void apply(L_Expr&& lhs, R_Expr&& rhs) {
         using IT = typename get_intrinsic_traits<V>::template type<value_t<R_Expr>>;

         const size_t N = etl::size(lhs);

         auto* lhs_mem = lhs.memory_start();

         constexpr bool remainder = !padding || !all_padded<L_Expr, R_Expr>;

         const size_t last = remainder ? prev_multiple(N, IT::size) : N;

         size_t i = 0;

         for (; i + (IT::size * 3) < last; i += 4 * IT::size) {
             lhs.template store<vect_impl>(vect_impl::mul(load(lhs, i + 0 * IT::size), load(rhs, i + 0 * IT::size)), i + 0 * IT::size);
             lhs.template store<vect_impl>(vect_impl::mul(load(lhs, i + 1 * IT::size), load(rhs, i + 1 * IT::size)), i + 1 * IT::size);
             lhs.template store<vect_impl>(vect_impl::mul(load(lhs, i + 2 * IT::size), load(rhs, i + 2 * IT::size)), i + 2 * IT::size);
             lhs.template store<vect_impl>(vect_impl::mul(load(lhs, i + 3 * IT::size), load(rhs, i + 3 * IT::size)), i + 3 * IT::size);
         }

         for (; i < last; i += IT::size) {
             lhs.template store<vect_impl>(vect_impl::mul(load(lhs, i), load(rhs, i)), i);
         }

         for (; remainder && i < N; ++i) {
             lhs_mem[i] *= rhs[i];
         }
     }
 };

 template <vector_mode_t V>
 struct VectorizedAssignDiv : vectorized_base<V> {
     using base_t = vectorized_base<V>;
     using base_t::load;
     using vect_impl = typename base_t::vect_impl;

     template <typename L_Expr, typename R_Expr>
     static void apply(L_Expr&& lhs, R_Expr&& rhs) {
         using IT = typename get_intrinsic_traits<V>::template type<value_t<R_Expr>>;

         const size_t N = etl::size(lhs);

         auto* lhs_mem = lhs.memory_start();

         constexpr bool remainder = !padding || !all_padded<L_Expr, R_Expr>;

         const size_t last = remainder ? prev_multiple(N, IT::size) : N;

         size_t i = 0;

         for (; i + (IT::size * 3) < last; i += 4 * IT::size) {
             lhs.template store<vect_impl>(vect_impl::div(load(lhs, i + 0 * IT::size), load(rhs, i + 0 * IT::size)), i + 0 * IT::size);
             lhs.template store<vect_impl>(vect_impl::div(load(lhs, i + 1 * IT::size), load(rhs, i + 1 * IT::size)), i + 1 * IT::size);
             lhs.template store<vect_impl>(vect_impl::div(load(lhs, i + 2 * IT::size), load(rhs, i + 2 * IT::size)), i + 2 * IT::size);
             lhs.template store<vect_impl>(vect_impl::div(load(lhs, i + 3 * IT::size), load(rhs, i + 3 * IT::size)), i + 3 * IT::size);
         }

         for (; i < last; i += IT::size) {
             lhs.template store<vect_impl>(vect_impl::div(load(lhs, i), load(rhs, i)), i);
         }

         for (; remainder && i < N; ++i) {
             lhs_mem[i] /= rhs[i];
         }
     }
 };

 } //end of namespace etl::detail
etl::padding
constexpr bool padding
Indicates if ETL is allowed to pad matrices and vectors.
Definition: config.hpp:135

etl::get_intrinsic_traits
Traits to get the intrinsic traits for a vector mode.
Definition: vectorization.hpp:88

etl::detail::VectorizedAssignDiv
Functor for vectorized compound assign div.
Definition: vec_eval_functors.hpp:233

etl::detail::VectorizedAssignAdd::apply
static void apply(L_Expr &&lhs, R_Expr &&rhs)
Compute the vectorized iterations of the loop using aligned store operations.
Definition: vec_eval_functors.hpp:113

etl::detail::VectorizedAssignAdd
Functor for vectorized compound assign add.
Definition: vec_eval_functors.hpp:104

etl::detail
Definition: expression_builder.hpp:699

etl::detail::vectorized_base
Common base for vectorized functors.
Definition: vec_eval_functors.hpp:22

etl::load
auto load(size_t x) const noexcept
Load several elements of the expression at once.
Definition: dyn_matrix_view.hpp:143

etl::stream_threshold
constexpr size_t stream_threshold
The threshold at which stream is used.
Definition: threshold.hpp:80

etl::detail::VectorizedAssignSub::apply
static void apply(L_Expr &&lhs, R_Expr &&rhs)
Compute the vectorized iterations of the loop using aligned store operations.
Definition: vec_eval_functors.hpp:156

etl::detail::VectorizedAssign
Functor for vectorized assign.
Definition: vec_eval_functors.hpp:43

etl::detail::VectorizedAssignSub
Functor for vectorized compound assign sub.
Definition: vec_eval_functors.hpp:147

etl::size
constexpr size_t size(const E &expr) noexcept
Returns the size of the given ETL expression.
Definition: helpers.hpp:108

etl::detail::VectorizedAssign::apply
static void apply(L_Expr &&lhs, R_Expr &&rhs)
Compute the vectorized iterations of the loop using aligned store operations.
Definition: vec_eval_functors.hpp:52

etl::detail::VectorizedAssignDiv::apply
static void apply(L_Expr &&lhs, R_Expr &&rhs)
Compute the vectorized iterations of the loop using aligned store operations.
Definition: vec_eval_functors.hpp:242

etl::detail::vectorized_base::vect_impl
typename get_vector_impl< V >::type vect_impl
The vectorization type.
Definition: vec_eval_functors.hpp:23

etl::detail::VectorizedAssignMul
Functor for vectorized compound assign mul.
Definition: vec_eval_functors.hpp:190

etl::detail::VectorizedAssignMul::apply
static void apply(L_Expr &&lhs, R_Expr &&rhs)
Compute the vectorized iterations of the loop using aligned store operations.
Definition: vec_eval_functors.hpp:199

etl::detail::vectorized_base::load
static auto load(T &&x, size_t i)
Load a vector from lhs at position i.
Definition: vec_eval_functors.hpp:31

etl::value_t
typename decay_traits< E >::value_type value_t
Traits to extract the value type out of an ETL type.
Definition: tmp.hpp:81

etl::streaming
constexpr bool streaming
Indicates if ETL is allowed to perform streaming (non-temporal writes).
Definition: config.hpp:130

etl::no_vec
Vectorization support when no vectorization is enabled.
Definition: no_vectorization.hpp:29