#ifndef VIENNACL_LINALG_QR_HPP #define VIENNACL_LINALG_QR_HPP /* ========================================================================= Copyright (c) 2010-2011, Institute for Microelectronics, Institute for Analysis and Scientific Computing, TU Wien. ----------------- ViennaCL - The Vienna Computing Library ----------------- Project Head: Karl Rupp rupp@iue.tuwien.ac.at (A list of authors and contributors can be found in the PDF manual) License: MIT (X11), see file LICENSE in the base directory ============================================================================= */ /** @file viennacl/linalg/qr.hpp @brief Proivdes a QR factorization using a block-based approach. Experimental in 1.2.x. */ #include #include #include #include #include #include #include #include #include "boost/numeric/ublas/vector.hpp" #include "boost/numeric/ublas/matrix.hpp" #include "boost/numeric/ublas/matrix_proxy.hpp" #include "boost/numeric/ublas/io.hpp" #include "boost/numeric/ublas/matrix_expression.hpp" #include "viennacl/matrix.hpp" #include "viennacl/linalg/prod.hpp" namespace viennacl { namespace linalg { // orthogonalises j-th column of A template typename MatrixType::value_type setup_householder_vector(MatrixType const & A, VectorType & v, size_t j) { typedef typename MatrixType::value_type ScalarType; //compute norm of column below diagonal: ScalarType sigma = 0; ScalarType beta = 0; for (size_t k = j+1; k void householder_reflect(MatrixType & A, VectorType & v, ScalarType beta, size_t j, size_t k) { ScalarType v_in_col = A(j,k); for (size_t i=j+1; i void householder_reflect(MatrixType & A, VectorType & v, ScalarType beta, size_t j) { size_t column_end = A.size2(); for (size_t k=j; k void write_householder_to_A(MatrixType & A, VectorType const & v, size_t j) { for (size_t i=j+1; i void recoverQ(MatrixType const & A, VectorType const & betas, MatrixType & Q, MatrixType & R) { typedef typename MatrixType::value_type ScalarType; std::vector v(A.size1()); Q.clear(); R.clear(); // // Recover R from upper-triangular part of A: // size_t i_max = std::min(R.size1(), R.size2()); for (size_t i=0; i std::vector qr(MatrixType & A) { typedef typename MatrixType::value_type ScalarType; std::vector betas(A.size2()); std::vector v(A.size1()); //copy A to Q: for (size_t j=0; j class sub_matrix { public: typedef typename MatrixType::value_type value_type; sub_matrix(MatrixType & mat, range row_range, range col_range) : mat_(mat), row_range_(row_range), col_range_(col_range) {} value_type operator()(size_t row, size_t col) const { assert(row < size1()); assert(col < size2()); return mat_(row + row_range_.lower(), col + col_range_.lower()); } size_t size1() const { return row_range_.upper() - row_range_.lower(); } size_t size2() const { return col_range_.upper() - col_range_.lower(); } private: MatrixType & mat_; range row_range_; range col_range_; }; //computes C = prod(A, B) template void prod_AA(MatrixTypeA const & A, MatrixTypeB const & B, MatrixTypeC & C) { assert(C.size1() == A.size1()); assert(A.size2() == B.size1()); assert(B.size2() == C.size2()); typedef typename MatrixTypeC::value_type ScalarType; for (size_t i=0; i void prod_TA(MatrixTypeA const & A, MatrixTypeB const & B, MatrixTypeC & C) { assert(C.size1() == A.size2()); assert(A.size1() == B.size1()); assert(B.size2() == C.size2()); typedef typename MatrixTypeC::value_type ScalarType; for (size_t i=0; i std::vector inplace_qr(MatrixType & A, std::size_t block_size = 32) { typedef typename MatrixType::value_type ScalarType; if ( A.size2() % block_size != 0 ) std::cout << "ViennaCL: Warning in inplace_qr(): Matrix columns are not divisible by block_size!" << std::endl; std::vector betas(A.size2()); std::vector v(A.size1()); //size_t block_size = 90; MatrixType Y(A.size1(), block_size); Y.clear(); MatrixType W(A.size1(), block_size); W.clear(); //run over A in a block-wise manner: for (size_t j = 0; j < std::min(A.size1(), A.size2()); j += block_size) { //determine Householder vectors: for (size_t k = 0; k < block_size; ++k) { betas[j+k] = setup_householder_vector(A, v, j+k); for (size_t l = k; l < block_size; ++l) householder_reflect(A, v, betas[j+k], j+k, j+l); write_householder_to_A(A, v, j+k); } // // Setup Y: // for (size_t k = 0; k < block_size; ++k) { //write Householder to Y: Y(k,k) = 1.0; for (size_t l=k+1; l temp(k); //actually of size (k \times 1) for (size_t l=0; l 0) { //temp = prod(W^T, A) MatrixType temp(block_size, A.size2() - j - block_size); boost::numeric::ublas::range A_rows(j, A.size1()); boost::numeric::ublas::range A_cols(j+block_size, A.size2()); boost::numeric::ublas::matrix_range A_part(A, A_rows, A_cols); viennacl::matrix gpu_A_part(A_part.size1(), A_part.size2()); viennacl::copy(A_part, gpu_A_part); //transfer W boost::numeric::ublas::range W_cols(0, block_size); boost::numeric::ublas::matrix_range W_part(W, A_rows, W_cols); viennacl::matrix gpu_W(W_part.size1(), W_part.size2()); viennacl::copy(W_part, gpu_W); viennacl::matrix gpu_temp(gpu_W.size2(), gpu_A_part.size2()); gpu_temp = viennacl::linalg::prod(trans(gpu_W), gpu_A_part); //A += Y * temp: boost::numeric::ublas::range Y_cols(0, Y.size2()); boost::numeric::ublas::matrix_range Y_part(Y, A_rows, Y_cols); viennacl::matrix gpu_Y(Y_part.size1(), Y_part.size2()); viennacl::copy(Y_part, gpu_Y); //A_part += prod(Y_part, temp); gpu_A_part += prod(gpu_Y, gpu_temp); MatrixType A_part_back(A_part.size1(), A_part.size2()); viennacl::copy(gpu_A_part, A_part_back); A_part = A_part_back; //A_part += prod(Y_part, temp); } } return betas; } template std::vector inplace_qr_ublas(MatrixType & A) { typedef typename MatrixType::value_type ScalarType; std::vector betas(A.size2()); std::vector v(A.size1()); size_t block_size = 3; MatrixType Y(A.size1(), block_size); Y.clear(); MatrixType W(A.size1(), block_size); W.clear(); //run over A in a block-wise manner: for (size_t j = 0; j < std::min(A.size1(), A.size2()); j += block_size) { //determine Householder vectors: for (size_t k = 0; k < block_size; ++k) { betas[j+k] = setup_householder_vector(A, v, j+k); for (size_t l = k; l < block_size; ++l) householder_reflect(A, v, betas[j+k], j+k, j+l); write_householder_to_A(A, v, j+k); } // // Setup Y: // for (size_t k = 0; k < block_size; ++k) { //write Householder to Y: Y(k,k) = 1.0; for (size_t l=k+1; l temp(k); //actually of size (k \times 1) for (size_t l=0; l 0) { //temp = prod(W^T, A) MatrixType temp(block_size, A.size2() - j - block_size); boost::numeric::ublas::range A_rows(j, A.size1()); boost::numeric::ublas::range A_cols(j+block_size, A.size2()); boost::numeric::ublas::matrix_range A_part(A, A_rows, A_cols); boost::numeric::ublas::range W_cols(0, block_size); boost::numeric::ublas::matrix_range W_part(W, A_rows, W_cols); temp = boost::numeric::ublas::prod(trans(W_part), A_part); //A += Y * temp: boost::numeric::ublas::range Y_cols(0, Y.size2()); boost::numeric::ublas::matrix_range Y_part(Y, A_rows, Y_cols); A_part += prod(Y_part, temp); } } return betas; } template std::vector inplace_qr_pure(MatrixType & A) { typedef typename MatrixType::value_type ScalarType; std::vector betas(A.size2()); std::vector v(A.size1()); size_t block_size = 5; MatrixType Y(A.size1(), block_size); Y.clear(); MatrixType W(A.size1(), block_size); W.clear(); //run over A in a block-wise manner: for (size_t j = 0; j < std::min(A.size1(), A.size2()); j += block_size) { //determine Householder vectors: for (size_t k = 0; k < block_size; ++k) { betas[j+k] = setup_householder_vector(A, v, j+k); for (size_t l = k; l < block_size; ++l) householder_reflect(A, v, betas[j+k], j+k, j+l); write_householder_to_A(A, v, j+k); } // // Setup Y: // for (size_t k = 0; k < block_size; ++k) { //write Householder to Y: Y(k,k) = 1.0; for (size_t l=k+1; l temp(k); //actually of size (k \times 1) for (size_t l=0; l 0) { //temp = prod(W^T, A) MatrixType temp(block_size, A.size2() - j - block_size); ScalarType entry = 0; for (size_t l = 0; l < temp.size2(); ++l) { for (size_t k = 0; k < temp.size1(); ++k) { entry = 0; for (size_t n = j; n < A.size1(); ++n) entry += W(n, k) * A(n, j + block_size + l); temp(k,l) = entry; } } //A += Y * temp: for (size_t l = j+block_size; l < A.size2(); ++l) { for (size_t k = j; k