wichtounet/etl/batch__k__scale__expr_8hpp_source.html

 //=======================================================================
 // Copyright (c) 2014-2023 Baptiste Wicht
 // Distributed under the terms of the MIT License.
 // (See accompanying file LICENSE or copy at
 //  http://opensource.org/licenses/MIT)
 //=======================================================================

 #pragma once

 #include "etl/expr/base_temporary_expr.hpp"

 #include "etl/impl/egblas/batch_k_scale.hpp"

 namespace etl {

 template <etl_1d A, etl_2d_or_4d B>
 struct batch_k_scale_expr : base_temporary_expr_bin<batch_k_scale_expr<A, B>, A, B> {
     using value_type  = value_t<A>;
     using this_type   = batch_k_scale_expr<A, B>;
     using base_type   = base_temporary_expr_bin<this_type, A, B>;
     using left_traits = decay_traits<A>;

     static constexpr bool D4 = is_4d<B>;

     static constexpr auto storage_order = left_traits::storage_order;

     static constexpr bool gpu_computable =
                (!D4 && impl::egblas::has_sbatch_k_scale2 && all_row_major<A, B> && all_floating<A, B>)
             || (D4  && impl::egblas::has_dbatch_k_scale4 && all_row_major<A, B> && all_floating<A, B>);
     batch_k_scale_expr(A a, B b) : base_type(a, b) {
         //Nothing else to init
     }

     template <same_dimensions<B> C>
     static void check([[maybe_unused]] const A& a, [[maybe_unused]] const B& b, [[maybe_unused]] const C& c) {
         if constexpr (D4) {
             if constexpr (all_fast<A, C>) {
                 static_assert(etl::dim<0, B>() == etl::dim<0, C>(), "Invalid dimensions for batch_k_scale");
                 static_assert(etl::dim<1, B>() == etl::dim<1, C>(), "Invalid dimensions for batch_k_scale");
                 static_assert(etl::dim<2, B>() == etl::dim<2, C>(), "Invalid dimensions for batch_k_scale");
                 static_assert(etl::dim<3, B>() == etl::dim<3, C>(), "Invalid dimensions for batch_k_scale");

                 static_assert(etl::dim<0, A>() == etl::dim<1, B>(), "Invalid dimensions for batch_k_scale");
             } else {
                 cpp_assert(etl::dim<0>(b) == etl::dim<0>(c), "Invalid dimensions for batch_k_scale");
                 cpp_assert(etl::dim<1>(b) == etl::dim<1>(c), "Invalid dimensions for batch_k_scale");
                 cpp_assert(etl::dim<2>(b) == etl::dim<2>(c), "Invalid dimensions for batch_k_scale");
                 cpp_assert(etl::dim<3>(b) == etl::dim<3>(c), "Invalid dimensions for batch_k_scale");

                 cpp_assert(etl::dim<0>(a) == etl::dim<1>(b), "Invalid dimensions for batch_k_scale");
             }
         } else {
             if constexpr (all_fast<A, C>) {
                 static_assert(etl::dim<0, B>() == etl::dim<0, C>(), "Invalid dimensions for batch_k_scale");
                 static_assert(etl::dim<1, B>() == etl::dim<1, C>(), "Invalid dimensions for batch_k_scale");

                 static_assert(etl::dim<0, A>() == etl::dim<1, B>(), "Invalid dimensions for batch_k_scale");
             } else {
                 cpp_assert(etl::dim<0>(b) == etl::dim<0>(c), "Invalid dimensions for batch_k_scale");
                 cpp_assert(etl::dim<1>(b) == etl::dim<1>(c), "Invalid dimensions for batch_k_scale");

                 cpp_assert(etl::dim<0>(a) == etl::dim<1>(b), "Invalid dimensions for batch_k_scale");
             }
         }
     }

     // Assignment functions

     template <etl_expr L>
     void assign_to(L&& lhs) const {
         inc_counter("temp:assign");

         auto& a = this->a();
         auto& b = this->b();

         check(a, b, lhs);

         if constexpr (D4) {
             const auto Batch = etl::dim<0>(lhs);
             const auto K     = etl::dim<1>(lhs);
             const auto M     = etl::dim<2>(lhs);
             const auto N     = etl::dim<3>(lhs);

             if constexpr (impl::egblas::has_sbatch_k_scale4 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 decltype(auto) t1 = smart_forward_gpu(a);
                 decltype(auto) t2 = smart_forward_gpu(b);

                 t1.ensure_gpu_up_to_date();
                 t2.ensure_gpu_up_to_date();

                 lhs.ensure_gpu_allocated();

                 impl::egblas::batch_k_scale(Batch, K, M, N, t2.gpu_memory(), t1.gpu_memory(), lhs.gpu_memory());

                 lhs.validate_gpu();
                 lhs.invalidate_cpu();
             } else {
                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             const auto MN = M * N;

                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     T ak = a(k);

                                     auto lhs_sub = lhs(batch)(k);
                                     auto b_sub   = b(batch)(k);

                                     size_t mn = 0;

                                     auto a1 = vec_type::set(ak);

                                     for (; mn + 4 * vec_size - 1 < MN; mn += 4 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto b3 = b_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto b4 = b_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto r1 = vec_type::mul(a1, b1);
                                         auto r2 = vec_type::mul(a1, b2);
                                         auto r3 = vec_type::mul(a1, b3);
                                         auto r4 = vec_type::mul(a1, b4);

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r3, mn + 2 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r4, mn + 3 * vec_size);
                                     }

                                     for (; mn + 2 * vec_size - 1 < MN; mn += 2 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto r1 = vec_type::mul(a1, b1);
                                         auto r2 = vec_type::mul(a1, b2);

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                     }

                                     for (; mn + vec_size - 1 < MN; mn += vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn);

                                         auto r1 = vec_type::mul(a1, b1);

                                         lhs_sub.template storeu<vec_type>(r1, mn);
                                     }

                                     for (; mn + 3 < MN; mn += 4) {
                                         lhs_sub[mn + 0] = ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] = ak * b_sub[mn + 1];
                                         lhs_sub[mn + 2] = ak * b_sub[mn + 2];
                                         lhs_sub[mn + 3] = ak * b_sub[mn + 3];
                                     }

                                     for (; mn + 1 < MN; mn += 2) {
                                         lhs_sub[mn + 0] = ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] = ak * b_sub[mn + 1];
                                     }

                                     for (; mn < MN; ++mn) {
                                         lhs_sub[mn] = ak * b_sub[mn];
                                     }
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     for (size_t m = 0; m < M; ++m) {
                                         for (size_t n = 0; n < N; ++n) {
                                             lhs(batch, k, m, n) = a(k) * b(batch, k, m, n);
                                         }
                                     }
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         } else {
             const auto Batch = etl::dim<0>(lhs);
             const auto K     = etl::dim<1>(lhs);

             if constexpr (impl::egblas::has_sbatch_k_scale2 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 decltype(auto) t1 = smart_forward_gpu(a);
                 decltype(auto) t2 = smart_forward_gpu(b);

                 t1.ensure_gpu_up_to_date();
                 t2.ensure_gpu_up_to_date();

                 lhs.ensure_gpu_allocated();

                 impl::egblas::batch_k_scale(Batch, K, t2.gpu_memory(), t1.gpu_memory(), lhs.gpu_memory());

                 lhs.validate_gpu();
                 lhs.invalidate_cpu();
             } else {
                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             for (size_t batch = first; batch < last; ++batch) {
                                 size_t k = 0;

                                 size_t base = batch * K;

                                 for (; k + 4 * vec_size - 1 < K; k += 4 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);
                                     auto a3 = a.template load<vec_type>(k + 2 * vec_size);
                                     auto a4 = a.template load<vec_type>(k + 3 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto b3 = b.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto b4 = b.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto r1 = vec_type::mul(a1, b1);
                                     auto r2 = vec_type::mul(a2, b2);
                                     auto r3 = vec_type::mul(a3, b3);
                                     auto r4 = vec_type::mul(a4, b4);

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                     lhs.template storeu<vec_type>(r3, base + k + 2 * vec_size);
                                     lhs.template storeu<vec_type>(r4, base + k + 3 * vec_size);
                                 }

                                 for (; k + 2 * vec_size - 1 < K; k += 2 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto r1 = vec_type::mul(a1, b1);
                                     auto r2 = vec_type::mul(a2, b2);

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                 }

                                 for (; k + vec_size - 1 < K; k += vec_size) {
                                     auto a1 = a.template load<vec_type>(k);

                                     auto b1 = b.template loadu<vec_type>(base + k);

                                     auto r1 = vec_type::mul(a1, b1);

                                     lhs.template storeu<vec_type>(r1, base + k);
                                 }

                                 for (; k + 3 < K; k += 4) {
                                     lhs(batch, k + 0) = a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) = a(k + 1) * b(batch, k + 1);
                                     lhs(batch, k + 2) = a(k + 2) * b(batch, k + 2);
                                     lhs(batch, k + 3) = a(k + 3) * b(batch, k + 3);
                                 }

                                 for (; k + 1 < K; k += 2) {
                                     lhs(batch, k + 0) = a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) = a(k + 1) * b(batch, k + 1);
                                 }

                                 if (k < K) {
                                     lhs(batch, k) = a(k) * b(batch, k);
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     lhs(batch, k) = a(k) * b(batch, k);
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         }
     }

     template <etl_expr L>
     void assign_add_to(L&& lhs) const {
         auto& a = this->a();
         auto& b = this->b();

         check(a, b, lhs);

         if constexpr (D4) {
             if constexpr (impl::egblas::has_sbatch_k_scale4 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_add_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);
                 const auto M     = etl::dim<2>(lhs);
                 const auto N     = etl::dim<3>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             const auto MN = M * N;

                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     T ak = a(k);

                                     auto lhs_sub = lhs(batch)(k);
                                     auto b_sub   = b(batch)(k);

                                     size_t mn = 0;

                                     auto a1 = vec_type::set(ak);

                                     for (; mn + 4 * vec_size - 1 < MN; mn += 4 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto b3 = b_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto b4 = b_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto l3 = lhs_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto l4 = lhs_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto r1 = vec_type::add(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::add(l2, vec_type::mul(a1, b2));
                                         auto r3 = vec_type::add(l3, vec_type::mul(a1, b3));
                                         auto r4 = vec_type::add(l4, vec_type::mul(a1, b4));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r3, mn + 2 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r4, mn + 3 * vec_size);
                                     }

                                     for (; mn + 2 * vec_size - 1 < MN; mn += 2 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto r1 = vec_type::add(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::add(l2, vec_type::mul(a1, b2));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                     }

                                     for (; mn + vec_size - 1 < MN; mn += vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn);

                                         auto r1 = vec_type::add(l1, vec_type::mul(a1, b1));

                                         lhs_sub.template storeu<vec_type>(r1, mn);
                                     }

                                     for (; mn + 3 < MN; mn += 4) {
                                         lhs_sub[mn + 0] += ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] += ak * b_sub[mn + 1];
                                         lhs_sub[mn + 2] += ak * b_sub[mn + 2];
                                         lhs_sub[mn + 3] += ak * b_sub[mn + 3];
                                     }

                                     for (; mn + 1 < MN; mn += 2) {
                                         lhs_sub[mn + 0] += ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] += ak * b_sub[mn + 1];
                                     }

                                     for (; mn < MN; ++mn) {
                                         lhs_sub[mn] += ak * b_sub[mn];
                                     }
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     for (size_t m = 0; m < M; ++m) {
                                         for (size_t n = 0; n < N; ++n) {
                                             lhs(batch, k, m, n) += a(k) * b(batch, k, m, n);
                                         }
                                     }
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         } else {
             if constexpr (impl::egblas::has_sbatch_k_scale2 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_add_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             for (size_t batch = first; batch < last; ++batch) {
                                 size_t k = 0;

                                 size_t base = batch * K;

                                 for (; k + 4 * vec_size - 1 < K; k += 4 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);
                                     auto a3 = a.template load<vec_type>(k + 2 * vec_size);
                                     auto a4 = a.template load<vec_type>(k + 3 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto b3 = b.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto b4 = b.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto l3 = lhs.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto l4 = lhs.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto r1 = vec_type::add(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::add(l2, vec_type::mul(a2, b2));
                                     auto r3 = vec_type::add(l3, vec_type::mul(a3, b3));
                                     auto r4 = vec_type::add(l4, vec_type::mul(a4, b4));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                     lhs.template storeu<vec_type>(r3, base + k + 2 * vec_size);
                                     lhs.template storeu<vec_type>(r4, base + k + 3 * vec_size);
                                 }

                                 for (; k + 2 * vec_size - 1 < K; k += 2 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto r1 = vec_type::add(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::add(l2, vec_type::mul(a2, b2));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                 }

                                 for (; k + vec_size - 1 < K; k += vec_size) {
                                     auto a1 = a.template load<vec_type>(k);

                                     auto b1 = b.template loadu<vec_type>(base + k);

                                     auto l1 = lhs.template loadu<vec_type>(base + k);

                                     auto r1 = vec_type::add(l1, vec_type::mul(a1, b1));

                                     lhs.template storeu<vec_type>(r1, base + k);
                                 }

                                 for (; k + 3 < K; k += 4) {
                                     lhs(batch, k + 0) += a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) += a(k + 1) * b(batch, k + 1);
                                     lhs(batch, k + 2) += a(k + 2) * b(batch, k + 2);
                                     lhs(batch, k + 3) += a(k + 3) * b(batch, k + 3);
                                 }

                                 for (; k + 1 < K; k += 2) {
                                     lhs(batch, k + 0) += a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) += a(k + 1) * b(batch, k + 1);
                                 }

                                 if (k < K) {
                                     lhs(batch, k) += a(k) * b(batch, k);
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     lhs(batch, k) += a(k) * b(batch, k);
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         }
     }

     template <etl_expr L>
     void assign_sub_to(L&& lhs) const {
         auto& a = this->a();
         auto& b = this->b();

         check(a, b, lhs);

         if constexpr (D4) {
             if constexpr (impl::egblas::has_sbatch_k_scale4 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_sub_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);
                 const auto M     = etl::dim<2>(lhs);
                 const auto N     = etl::dim<3>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             const auto MN = M * N;

                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     T ak = a(k);

                                     auto lhs_sub = lhs(batch)(k);
                                     auto b_sub   = b(batch)(k);

                                     size_t mn = 0;

                                     auto a1 = vec_type::set(ak);

                                     for (; mn + 4 * vec_size - 1 < MN; mn += 4 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto b3 = b_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto b4 = b_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto l3 = lhs_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto l4 = lhs_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto r1 = vec_type::sub(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::sub(l2, vec_type::mul(a1, b2));
                                         auto r3 = vec_type::sub(l3, vec_type::mul(a1, b3));
                                         auto r4 = vec_type::sub(l4, vec_type::mul(a1, b4));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r3, mn + 2 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r4, mn + 3 * vec_size);
                                     }

                                     for (; mn + 2 * vec_size - 1 < MN; mn += 2 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto r1 = vec_type::sub(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::sub(l2, vec_type::mul(a1, b2));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                     }

                                     for (; mn + vec_size - 1 < MN; mn += vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn);

                                         auto r1 = vec_type::sub(l1, vec_type::mul(a1, b1));

                                         lhs_sub.template storeu<vec_type>(r1, mn);
                                     }

                                     for (; mn + 3 < MN; mn += 4) {
                                         lhs_sub[mn + 0] -= ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] -= ak * b_sub[mn + 1];
                                         lhs_sub[mn + 2] -= ak * b_sub[mn + 2];
                                         lhs_sub[mn + 3] -= ak * b_sub[mn + 3];
                                     }

                                     for (; mn + 1 < MN; mn += 2) {
                                         lhs_sub[mn + 0] -= ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] -= ak * b_sub[mn + 1];
                                     }

                                     for (; mn < MN; ++mn) {
                                         lhs_sub[mn] -= ak * b_sub[mn];
                                     }
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     for (size_t m = 0; m < M; ++m) {
                                         for (size_t n = 0; n < N; ++n) {
                                             lhs(batch, k, m, n) -= a(k) * b(batch, k, m, n);
                                         }
                                     }
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         } else {
             if constexpr (impl::egblas::has_sbatch_k_scale2 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_sub_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             for (size_t batch = first; batch < last; ++batch) {
                                 size_t k = 0;

                                 size_t base = batch * K;

                                 for (; k + 4 * vec_size - 1 < K; k += 4 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);
                                     auto a3 = a.template load<vec_type>(k + 2 * vec_size);
                                     auto a4 = a.template load<vec_type>(k + 3 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto b3 = b.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto b4 = b.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto l3 = lhs.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto l4 = lhs.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto r1 = vec_type::sub(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::sub(l2, vec_type::mul(a2, b2));
                                     auto r3 = vec_type::sub(l3, vec_type::mul(a3, b3));
                                     auto r4 = vec_type::sub(l4, vec_type::mul(a4, b4));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                     lhs.template storeu<vec_type>(r3, base + k + 2 * vec_size);
                                     lhs.template storeu<vec_type>(r4, base + k + 3 * vec_size);
                                 }

                                 for (; k + 2 * vec_size - 1 < K; k += 2 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto r1 = vec_type::sub(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::sub(l2, vec_type::mul(a2, b2));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                 }

                                 for (; k + vec_size - 1 < K; k += vec_size) {
                                     auto a1 = a.template load<vec_type>(k);

                                     auto b1 = b.template loadu<vec_type>(base + k);

                                     auto l1 = lhs.template loadu<vec_type>(base + k);

                                     auto r1 = vec_type::sub(l1, vec_type::mul(a1, b1));

                                     lhs.template storeu<vec_type>(r1, base + k);
                                 }

                                 for (; k + 3 < K; k += 4) {
                                     lhs(batch, k + 0) -= a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) -= a(k + 1) * b(batch, k + 1);
                                     lhs(batch, k + 2) -= a(k + 2) * b(batch, k + 2);
                                     lhs(batch, k + 3) -= a(k + 3) * b(batch, k + 3);
                                 }

                                 for (; k + 1 < K; k += 2) {
                                     lhs(batch, k + 0) -= a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) -= a(k + 1) * b(batch, k + 1);
                                 }

                                 if (k < K) {
                                     lhs(batch, k) -= a(k) * b(batch, k);
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     lhs(batch, k) -= a(k) * b(batch, k);
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         }
     }

     template <etl_expr L>
     void assign_mul_to(L&& lhs) const {
         auto& a = this->a();
         auto& b = this->b();

         check(a, b, lhs);

         if constexpr (D4) {
             if constexpr (impl::egblas::has_sbatch_k_scale4 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_mul_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);
                 const auto M     = etl::dim<2>(lhs);
                 const auto N     = etl::dim<3>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             const auto MN = M * N;

                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     T ak = a(k);

                                     auto lhs_sub = lhs(batch)(k);
                                     auto b_sub   = b(batch)(k);

                                     size_t mn = 0;

                                     auto a1 = vec_type::set(ak);

                                     for (; mn + 4 * vec_size - 1 < MN; mn += 4 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto b3 = b_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto b4 = b_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto l3 = lhs_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto l4 = lhs_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto r1 = vec_type::mul(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::mul(l2, vec_type::mul(a1, b2));
                                         auto r3 = vec_type::mul(l3, vec_type::mul(a1, b3));
                                         auto r4 = vec_type::mul(l4, vec_type::mul(a1, b4));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r3, mn + 2 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r4, mn + 3 * vec_size);
                                     }

                                     for (; mn + 2 * vec_size - 1 < MN; mn += 2 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto r1 = vec_type::mul(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::mul(l2, vec_type::mul(a1, b2));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                     }

                                     for (; mn + vec_size - 1 < MN; mn += vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn);

                                         auto r1 = vec_type::mul(l1, vec_type::mul(a1, b1));

                                         lhs_sub.template storeu<vec_type>(r1, mn);
                                     }

                                     for (; mn + 3 < MN; mn += 4) {
                                         lhs_sub[mn + 0] *= ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] *= ak * b_sub[mn + 1];
                                         lhs_sub[mn + 2] *= ak * b_sub[mn + 2];
                                         lhs_sub[mn + 3] *= ak * b_sub[mn + 3];
                                     }

                                     for (; mn + 1 < MN; mn += 2) {
                                         lhs_sub[mn + 0] *= ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] *= ak * b_sub[mn + 1];
                                     }

                                     for (; mn < MN; ++mn) {
                                         lhs_sub[mn] *= ak * b_sub[mn];
                                     }
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     for (size_t m = 0; m < M; ++m) {
                                         for (size_t n = 0; n < N; ++n) {
                                             lhs(batch, k, m, n) *= a(k) * b(batch, k, m, n);
                                         }
                                     }
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         } else {
             if constexpr (impl::egblas::has_sbatch_k_scale2 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_mul_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             for (size_t batch = first; batch < last; ++batch) {
                                 size_t k = 0;

                                 size_t base = batch * K;

                                 for (; k + 4 * vec_size - 1 < K; k += 4 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);
                                     auto a3 = a.template load<vec_type>(k + 2 * vec_size);
                                     auto a4 = a.template load<vec_type>(k + 3 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto b3 = b.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto b4 = b.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto l3 = lhs.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto l4 = lhs.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto r1 = vec_type::mul(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::mul(l2, vec_type::mul(a2, b2));
                                     auto r3 = vec_type::mul(l3, vec_type::mul(a3, b3));
                                     auto r4 = vec_type::mul(l4, vec_type::mul(a4, b4));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                     lhs.template storeu<vec_type>(r3, base + k + 2 * vec_size);
                                     lhs.template storeu<vec_type>(r4, base + k + 3 * vec_size);
                                 }

                                 for (; k + 2 * vec_size - 1 < K; k += 2 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto r1 = vec_type::mul(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::mul(l2, vec_type::mul(a2, b2));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                 }

                                 for (; k + vec_size - 1 < K; k += vec_size) {
                                     auto a1 = a.template load<vec_type>(k);

                                     auto b1 = b.template loadu<vec_type>(base + k);

                                     auto l1 = lhs.template loadu<vec_type>(base + k);

                                     auto r1 = vec_type::mul(l1, vec_type::mul(a1, b1));

                                     lhs.template storeu<vec_type>(r1, base + k);
                                 }

                                 for (; k + 3 < K; k += 4) {
                                     lhs(batch, k + 0) *= a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) *= a(k + 1) * b(batch, k + 1);
                                     lhs(batch, k + 2) *= a(k + 2) * b(batch, k + 2);
                                     lhs(batch, k + 3) *= a(k + 3) * b(batch, k + 3);
                                 }

                                 for (; k + 1 < K; k += 2) {
                                     lhs(batch, k + 0) *= a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) *= a(k + 1) * b(batch, k + 1);
                                 }

                                 if (k < K) {
                                     lhs(batch, k) *= a(k) * b(batch, k);
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     lhs(batch, k) *= a(k) * b(batch, k);
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         }
     }

     template <etl_expr L>
     void assign_div_to(L&& lhs) const {
         auto& a = this->a();
         auto& b = this->b();

         check(a, b, lhs);

         if constexpr (D4) {
             if constexpr (impl::egblas::has_sbatch_k_scale4 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_div_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);
                 const auto M     = etl::dim<2>(lhs);
                 const auto N     = etl::dim<3>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             const auto MN = M * N;

                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     T ak = a(k);

                                     auto lhs_sub = lhs(batch)(k);
                                     auto b_sub   = b(batch)(k);

                                     size_t mn = 0;

                                     auto a1 = vec_type::set(ak);

                                     for (; mn + 4 * vec_size - 1 < MN; mn += 4 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto b3 = b_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto b4 = b_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);
                                         auto l3 = lhs_sub.template loadu<vec_type>(mn + 2 * vec_size);
                                         auto l4 = lhs_sub.template loadu<vec_type>(mn + 3 * vec_size);

                                         auto r1 = vec_type::div(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::div(l2, vec_type::mul(a1, b2));
                                         auto r3 = vec_type::div(l3, vec_type::mul(a1, b3));
                                         auto r4 = vec_type::div(l4, vec_type::mul(a1, b4));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r3, mn + 2 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r4, mn + 3 * vec_size);
                                     }

                                     for (; mn + 2 * vec_size - 1 < MN; mn += 2 * vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto b2 = b_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn + 0 * vec_size);
                                         auto l2 = lhs_sub.template loadu<vec_type>(mn + 1 * vec_size);

                                         auto r1 = vec_type::div(l1, vec_type::mul(a1, b1));
                                         auto r2 = vec_type::div(l2, vec_type::mul(a1, b2));

                                         lhs_sub.template storeu<vec_type>(r1, mn + 0 * vec_size);
                                         lhs_sub.template storeu<vec_type>(r2, mn + 1 * vec_size);
                                     }

                                     for (; mn + vec_size - 1 < MN; mn += vec_size) {
                                         auto b1 = b_sub.template loadu<vec_type>(mn);

                                         auto l1 = lhs_sub.template loadu<vec_type>(mn);

                                         auto r1 = vec_type::div(l1, vec_type::mul(a1, b1));

                                         lhs_sub.template storeu<vec_type>(r1, mn);
                                     }

                                     for (; mn + 3 < MN; mn += 4) {
                                         lhs_sub[mn + 0] /= ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] /= ak * b_sub[mn + 1];
                                         lhs_sub[mn + 2] /= ak * b_sub[mn + 2];
                                         lhs_sub[mn + 3] /= ak * b_sub[mn + 3];
                                     }

                                     for (; mn + 1 < MN; mn += 2) {
                                         lhs_sub[mn + 0] /= ak * b_sub[mn + 0];
                                         lhs_sub[mn + 1] /= ak * b_sub[mn + 1];
                                     }

                                     for (; mn < MN; ++mn) {
                                         lhs_sub[mn] /= ak * b_sub[mn];
                                     }
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     for (size_t m = 0; m < M; ++m) {
                                         for (size_t n = 0; n < N; ++n) {
                                             lhs(batch, k, m, n) /= a(k) * b(batch, k, m, n);
                                         }
                                     }
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         } else {
             if constexpr (impl::egblas::has_sbatch_k_scale2 && all_row_major<A, B, L> && all_floating<A, B, L>) {
                 std_div_evaluate(*this, lhs);
             } else {
                 const auto Batch = etl::dim<0>(lhs);
                 const auto K     = etl::dim<1>(lhs);

                 standard_evaluator::pre_assign_rhs(a);
                 standard_evaluator::pre_assign_rhs(b);

                 a.ensure_cpu_up_to_date();
                 b.ensure_cpu_up_to_date();
                 lhs.ensure_cpu_up_to_date();

                 auto batch_fun_b = [&](const size_t first, const size_t last) {
                     CPU_SECTION {
                         if constexpr (vec_enabled && all_vectorizable<vector_mode, A, L> && all_row_major<A, L>) {
                             using vec_type = default_vec;
                             using T        = value_t<L>;

                             static constexpr size_t vec_size = vec_type::template traits<T>::size;

                             for (size_t batch = first; batch < last; ++batch) {
                                 size_t k = 0;

                                 size_t base = batch * K;

                                 for (; k + 4 * vec_size - 1 < K; k += 4 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);
                                     auto a3 = a.template load<vec_type>(k + 2 * vec_size);
                                     auto a4 = a.template load<vec_type>(k + 3 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto b3 = b.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto b4 = b.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);
                                     auto l3 = lhs.template loadu<vec_type>(base + k + 2 * vec_size);
                                     auto l4 = lhs.template loadu<vec_type>(base + k + 3 * vec_size);

                                     auto r1 = vec_type::div(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::div(l2, vec_type::mul(a2, b2));
                                     auto r3 = vec_type::div(l3, vec_type::mul(a3, b3));
                                     auto r4 = vec_type::div(l4, vec_type::mul(a4, b4));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                     lhs.template storeu<vec_type>(r3, base + k + 2 * vec_size);
                                     lhs.template storeu<vec_type>(r4, base + k + 3 * vec_size);
                                 }

                                 for (; k + 2 * vec_size - 1 < K; k += 2 * vec_size) {
                                     auto a1 = a.template load<vec_type>(k + 0 * vec_size);
                                     auto a2 = a.template load<vec_type>(k + 1 * vec_size);

                                     auto b1 = b.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto b2 = b.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto l1 = lhs.template loadu<vec_type>(base + k + 0 * vec_size);
                                     auto l2 = lhs.template loadu<vec_type>(base + k + 1 * vec_size);

                                     auto r1 = vec_type::div(l1, vec_type::mul(a1, b1));
                                     auto r2 = vec_type::div(l2, vec_type::mul(a2, b2));

                                     lhs.template storeu<vec_type>(r1, base + k + 0 * vec_size);
                                     lhs.template storeu<vec_type>(r2, base + k + 1 * vec_size);
                                 }

                                 for (; k + vec_size - 1 < K; k += vec_size) {
                                     auto a1 = a.template load<vec_type>(k);

                                     auto b1 = b.template loadu<vec_type>(base + k);

                                     auto l1 = lhs.template loadu<vec_type>(base + k);

                                     auto r1 = vec_type::div(l1, vec_type::mul(a1, b1));

                                     lhs.template storeu<vec_type>(r1, base + k);
                                 }

                                 for (; k + 3 < K; k += 4) {
                                     lhs(batch, k + 0) /= a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) /= a(k + 1) * b(batch, k + 1);
                                     lhs(batch, k + 2) /= a(k + 2) * b(batch, k + 2);
                                     lhs(batch, k + 3) /= a(k + 3) * b(batch, k + 3);
                                 }

                                 for (; k + 1 < K; k += 2) {
                                     lhs(batch, k + 0) /= a(k + 0) * b(batch, k + 0);
                                     lhs(batch, k + 1) /= a(k + 1) * b(batch, k + 1);
                                 }

                                 if (k < K) {
                                     lhs(batch, k) /= a(k) * b(batch, k);
                                 }
                             }
                         } else {
                             for (size_t batch = first; batch < last; ++batch) {
                                 for (size_t k = 0; k < K; ++k) {
                                     lhs(batch, k) /= a(k) * b(batch, k);
                                 }
                             }
                         }
                     }
                 };

                 engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

                 lhs.validate_cpu();
                 lhs.invalidate_gpu();
             }
         }
     }

     template <etl_expr L>
     void assign_mod_to(L&& lhs) const {
         auto& a = this->a();
         auto& b = this->b();

         check(a, b, lhs);

         standard_evaluator::pre_assign_rhs(a);
         standard_evaluator::pre_assign_rhs(b);

         a.ensure_cpu_up_to_date();
         b.ensure_cpu_up_to_date();
         lhs.ensure_cpu_up_to_date();

         if constexpr (D4) {
             const auto Batch = etl::dim<0>(lhs);
             const auto K     = etl::dim<1>(lhs);
             const auto M     = etl::dim<2>(lhs);
             const auto N     = etl::dim<3>(lhs);

             auto batch_fun_b = [&](const size_t first, const size_t last) {
                 CPU_SECTION {
                     for (size_t batch = first; batch < last; ++batch) {
                         for (size_t k = 0; k < K; ++k) {
                             for (size_t m = 0; m < M; ++m) {
                                 for (size_t n = 0; n < N; ++n) {
                                     lhs(batch, k, m, n) %= a(k) * b(batch, k, m, n);
                                 }
                             }
                         }
                     }
                 }
             };

             engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

             lhs.validate_cpu();
             lhs.invalidate_gpu();
         } else {
             const auto Batch = etl::dim<0>(lhs);
             const auto K     = etl::dim<1>(lhs);

             auto batch_fun_b = [&](const size_t first, const size_t last) {
                 CPU_SECTION {
                     for (size_t batch = first; batch < last; ++batch) {
                         for (size_t k = 0; k < K; ++k) {
                             lhs(batch, k) %= a(k) * b(batch, k);
                         }
                     }
                 }
             };

             engine_dispatch_1d_serial(batch_fun_b, 0, Batch, 2UL);

             lhs.validate_cpu();
             lhs.invalidate_gpu();
         }
     }

     friend std::ostream& operator<<(std::ostream& os, const batch_k_scale_expr& expr) {
         return os << "batch_k_scale(" << expr._a << "," << expr._b << ")";
     }
 };

 template <typename A, typename B>
 struct etl_traits<etl::batch_k_scale_expr<A, B>> {
     using expr_t     = etl::batch_k_scale_expr<A, B>;
     using sub_expr_t = std::decay_t<B>;
     using sub_traits = etl_traits<sub_expr_t>;
     using value_type = value_t<A>;

     static constexpr bool  is_etl         = true;
     static constexpr bool  is_transformer = false;
     static constexpr bool  is_view        = false;
     static constexpr bool  is_magic_view  = false;
     static constexpr bool  is_fast        = sub_traits::is_fast;
     static constexpr bool  is_linear      = false;
     static constexpr bool  is_thread_safe = true;
     static constexpr bool  is_value       = false;
     static constexpr bool  is_direct      = true;
     static constexpr bool  is_generator   = false;
     static constexpr bool  is_padded      = false;
     static constexpr bool  is_aligned     = true;
     static constexpr bool  is_temporary   = true;
     static constexpr bool  gpu_computable = true;
     static constexpr order storage_order  = sub_traits::storage_order;

     template <vector_mode_t V>
     static constexpr bool vectorizable = true;

     template <size_t DD>
     static constexpr size_t dim() {
         return decay_traits<B>::template dim<DD>();
     }

     static size_t dim(const expr_t& e, size_t d) {
         return etl::dim(e._b, d);
     }

     static size_t size(const expr_t& e) {
         return etl::size(e._b);
     }

     static constexpr size_t size() {
         return decay_traits<B>::size();
     }

     static constexpr size_t dimensions() {
         return decay_traits<B>::dimensions();
     }

     static constexpr int complexity() noexcept {
         return -1;
     }
 };

 // Note: This function should not be called directly
 // instead, batch_hint(a >> b) should be used
 // But this function is used as helpers from batch_hint

 template <etl_1d A, etl_2d_or_4d B>
 batch_k_scale_expr<detail::build_type<A>, detail::build_type<B>> batch_k_scale(const A& a, const B& b) {
     return {a, b};
 }

 } //end of namespace etl
etl::etl_traits< etl::batch_k_scale_expr< A, B > >::size
static constexpr size_t size()
Returns the size of the expression.
Definition: batch_k_scale_expr.hpp:1464

etl::batch_k_scale_expr::assign_mul_to
void assign_mul_to(L &&lhs) const
Multiply the given left-hand-side expression.
Definition: batch_k_scale_expr.hpp:834

etl::batch_k_scale_expr::storage_order
static constexpr auto storage_order
The sub storage order.
Definition: batch_k_scale_expr.hpp:29

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::value_type
value_t< A > value_type
The value type of the expression.
Definition: batch_k_scale_expr.hpp:1406

etl::batch_k_scale_expr::operator<<
friend std::ostream & operator<<(std::ostream &os, const batch_k_scale_expr &expr)
Print a representation of the expression on the given stream.
Definition: batch_k_scale_expr.hpp:1392

etl::batch_k_scale
batch_k_scale_expr< detail::build_type< A >, detail::build_type< B > > batch_k_scale(const A &a, const B &b)
Returns the transpose of the given expression.
Definition: batch_k_scale_expr.hpp:1495

etl::batch_k_scale_expr::value_type
value_t< A > value_type
The type of value of the expression.
Definition: batch_k_scale_expr.hpp:22

etl::batch_k_scale_expr
A transposition expression.
Definition: batch_k_scale_expr.hpp:21

etl::base_temporary_expr_bin::_b
B _b
The sub expression reference.
Definition: base_temporary_expr.hpp:534

etl::engine_dispatch_1d_serial
void engine_dispatch_1d_serial(Functor &&functor, size_t first, size_t last, size_t threshold, [[maybe_unused]] size_t n_threads=etl::threads)
Dispatch the elements of a range to a functor in a parallel manner, using the global thread engine...
Definition: parallel_support.hpp:734

etl::is_magic_view
constexpr bool is_magic_view
Traits indicating if the given ETL type is a magic view expression.
Definition: traits.hpp:311

etl::base_temporary_expr_bin::_a
A _a
The sub expression reference.
Definition: base_temporary_expr.hpp:533

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::complexity
static constexpr int complexity() noexcept
Estimate the complexity of computation.
Definition: batch_k_scale_expr.hpp:1480

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::dim
static constexpr size_t dim()
Returns the DDth dimension of the expression.
Definition: batch_k_scale_expr.hpp:1437

etl::vec_enabled
constexpr bool vec_enabled
Indicates if vectorization is available in any format.
Definition: config.hpp:220

etl::order
order
Storage order of a matrix.
Definition: order.hpp:15

etl::base_temporary_expr_bin
Abstract base class for temporary binary expression.
Definition: base_temporary_expr.hpp:529

etl::base_temporary_expr_bin< batch_k_scale_expr< A, B >, A, B >::b
std::add_lvalue_reference_t< B > b()
Returns the sub expression.
Definition: base_temporary_expr.hpp:593

etl::batch_k_scale_expr::gpu_computable
static constexpr bool gpu_computable
Indicates if the temporary expression can be directly evaluated using only GPU.
Definition: batch_k_scale_expr.hpp:35

etl::is_fast
constexpr bool is_fast
Traits to test if the given ETL expresion type is fast (sizes known at compile-time) ...
Definition: traits.hpp:588

etl::base_temporary_expr< batch_k_scale_expr< A, B >, true >::vec_type
typename VV::template vec_type< value_type > vec_type
The vectorization type for VV.
Definition: base_temporary_expr.hpp:107

etl::etl_traits
Traits to get information about ETL types.
Definition: tmp.hpp:68

etl
Root namespace for the ETL library.
Definition: adapter.hpp:15

etl::batch_k_scale_expr::assign_div_to
void assign_div_to(L &&lhs) const
Divide the given left-hand-side expression.
Definition: batch_k_scale_expr.hpp:1081

etl::etl_traits::dimensions
static constexpr size_t dimensions()
Return the number of dimensions of the expression.
Definition: traits_base.hpp:31

batch_k_scale.hpp
EGBLAS wrappers for the batch_k_scale operation.

etl::default_vec
no_vec default_vec
The default vectorization scheme.
Definition: vectorization.hpp:242

etl::dim
auto dim(E &&value, size_t i) -> detail::identity_helper< E, dim_view< detail::build_identity_type< E >, D >>
Return a view representing the ith Dth dimension.
Definition: view_expression_builder.hpp:25

etl::detail::build_type
std::conditional_t< is_etl_value< T >, const std::decay_t< T > &, std::decay_t< T > > build_type
Helper to build the type for a sub expression.
Definition: expression_helpers.hpp:24

etl::batch_k_scale_expr::batch_k_scale_expr
batch_k_scale_expr(A a, B b)
Construct a new expression.
Definition: batch_k_scale_expr.hpp:42

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::sub_expr_t
std::decay_t< B > sub_expr_t
The sub expression type.
Definition: batch_k_scale_expr.hpp:1404

etl::std_mul_evaluate
void std_mul_evaluate(Expr &&expr, Result &&result)
Compound multiply evaluation of the expr into result.
Definition: evaluator.hpp:1233

etl::is_transformer
constexpr bool is_transformer
Traits indicating if the given ETL type is a transformer expression.
Definition: traits.hpp:297

etl::smart_forward_gpu
decltype(auto) smart_forward_gpu(E &expr)
Smart forwarding for a temporary expression that will be computed in GPU.
Definition: helpers.hpp:343

etl::size
constexpr size_t size(const E &expr) noexcept
Returns the size of the given ETL expression.
Definition: helpers.hpp:108

etl::is_view
constexpr bool is_view
Traits indicating if the given ETL type is a view expression.
Definition: traits.hpp:304

etl::batch_k_scale_expr::assign_sub_to
void assign_sub_to(L &&lhs) const
Sub from the given left-hand-side expression.
Definition: batch_k_scale_expr.hpp:587

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::size
static size_t size(const expr_t &e)
Returns the size of the expression.
Definition: batch_k_scale_expr.hpp:1456

etl::batch_k_scale_expr::assign_add_to
void assign_add_to(L &&lhs) const
Add to the given left-hand-side expression.
Definition: batch_k_scale_expr.hpp:340

etl::batch_k_scale_expr::D4
static constexpr bool D4
If the expression is 4D (instead of 2D)
Definition: batch_k_scale_expr.hpp:27

etl::std_sub_evaluate
void std_sub_evaluate(Expr &&expr, Result &&result)
Compound subtract evaluation of the expr into result.
Definition: evaluator.hpp:1214

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::dim
static size_t dim(const expr_t &e, size_t d)
Returns the dth dimension of the expression.
Definition: batch_k_scale_expr.hpp:1447

etl::is_thread_safe
constexpr bool is_thread_safe
Traits to test if the given ETL expresion type is thread safe.
Definition: traits.hpp:687

etl::batch_k_scale_expr::check
static void check([[maybe_unused]] const A &a, [[maybe_unused]] const B &b, [[maybe_unused]] const C &c)
Validate the transposition dimensions.
Definition: batch_k_scale_expr.hpp:52

etl::value_t
typename decay_traits< E >::value_type value_t
Traits to extract the value type out of an ETL type.
Definition: tmp.hpp:81

etl::std_div_evaluate
void std_div_evaluate(Expr &&expr, Result &&result)
Compound divide evaluation of the expr into result.
Definition: evaluator.hpp:1252

etl::batch_k_scale_expr::assign_mod_to
void assign_mod_to(L &&lhs) const
Modulo the given left-hand-side expression.
Definition: batch_k_scale_expr.hpp:1328

etl::inc_counter
void inc_counter([[maybe_unused]] const char *name)
Increase the given counter.
Definition: counters.hpp:25

etl::base_temporary_expr_bin< batch_k_scale_expr< A, B >, A, B >::a
std::add_lvalue_reference_t< A > a()
Returns the sub expression.
Definition: base_temporary_expr.hpp:577

etl::etl_traits< etl::batch_k_scale_expr< A, B > >::dimensions
static constexpr size_t dimensions()
Returns the number of dimensions of the expression.
Definition: batch_k_scale_expr.hpp:1472

etl::std_add_evaluate
void std_add_evaluate(Expr &&expr, Result &&result)
Compound add evaluation of the expr into result.
Definition: evaluator.hpp:1195

etl::batch_k_scale_expr::assign_to
void assign_to(L &&lhs) const
Assign to a matrix of the same storage order.
Definition: batch_k_scale_expr.hpp:91