lbfgs-FFNN/iteration__recorder_8hpp_source.html

 #pragma once


 #include <algorithm>

 #include <vector>


 struct CpuBackend;

 struct CudaBackend;


 template <typename Backend> class IterationRecorder;


 template <> class IterationRecorder<CpuBackend> {

 public:

   void init(int capacity) {

     if (capacity <= 0) return;

     capacity_ = capacity;

     loss_.assign(static_cast<size_t>(capacity), 0.0);

     grad_norm_.assign(static_cast<size_t>(capacity), 0.0);

     time_ms_.assign(static_cast<size_t>(capacity), 0.0);

     size_ = 0;

   }


   void reset() { size_ = 0; }


   void record(int idx, double loss, double grad_norm, double time_ms = 0.0) {

     if (idx < 0 || idx >= capacity_) return;

     size_t i = static_cast<size_t>(idx);

     loss_[i] = loss;

     grad_norm_[i] = grad_norm;

     time_ms_[i] = time_ms;

     size_ = std::max(size_, idx + 1);

   }


   void copy_to_host(std::vector<double> &loss_out, std::vector<double> &grad_norm_out) const {

     loss_out.assign(loss_.begin(), loss_.begin() + size_);

     grad_norm_out.assign(grad_norm_.begin(), grad_norm_.begin() + size_);

   }


   void copy_to_host(

       std::vector<double> &loss_out, std::vector<double> &grad_norm_out, std::vector<double> &time_ms_out) const {

     loss_out.assign(loss_.begin(), loss_.begin() + size_);

     grad_norm_out.assign(grad_norm_.begin(), grad_norm_.begin() + size_);

     time_ms_out.assign(time_ms_.begin(), time_ms_.begin() + size_);

   }


   int size() const { return size_; }


 private:

   std::vector<double> loss_;

   std::vector<double> grad_norm_;

   std::vector<double> time_ms_;

   int capacity_ = 0;

   int size_ = 0;

 };


 #ifdef __CUDACC__

   #include "cuda/common.cuh"

   #include "cuda/device_buffer.cuh"


 template <> class IterationRecorder<CudaBackend> {

 public:

   void init(int capacity) {

     if (capacity <= 0) return;

     capacity_ = capacity;

     loss_.resize(static_cast<size_t>(capacity));

     grad_norm_.resize(static_cast<size_t>(capacity));

     time_ms_.resize(static_cast<size_t>(capacity));

     size_ = 0;

   }


   void reset() { size_ = 0; }


   void record(int idx, cuda_mlp::CudaScalar loss, cuda_mlp::CudaScalar grad_norm, cuda_mlp::CudaScalar time_ms = 0) {

     if (idx < 0 || idx >= capacity_) return;

     cuda_mlp::cuda_check(

         cudaMemcpy(loss_.data() + idx, &loss, sizeof(cuda_mlp::CudaScalar), cudaMemcpyHostToDevice), "record loss");

     cuda_mlp::cuda_check(

         cudaMemcpy(grad_norm_.data() + idx, &grad_norm, sizeof(cuda_mlp::CudaScalar), cudaMemcpyHostToDevice),

         "record grad_norm");

     cuda_mlp::cuda_check(

         cudaMemcpy(time_ms_.data() + idx, &time_ms, sizeof(cuda_mlp::CudaScalar), cudaMemcpyHostToDevice), "record time_ms");

     size_ = std::max(size_, idx + 1);

   }


   void copy_to_host(std::vector<cuda_mlp::CudaScalar> &loss_out, std::vector<cuda_mlp::CudaScalar> &grad_norm_out) const {

     loss_out.resize(size_);

     grad_norm_out.resize(size_);

     if (size_ == 0) return;

     loss_.copy_to_host(loss_out.data(), size_);

     grad_norm_.copy_to_host(grad_norm_out.data(), size_);

   }


   void copy_to_host(std::vector<cuda_mlp::CudaScalar> &loss_out,

       std::vector<cuda_mlp::CudaScalar> &grad_norm_out,

       std::vector<cuda_mlp::CudaScalar> &time_ms_out) const {

     loss_out.resize(size_);

     grad_norm_out.resize(size_);

     time_ms_out.resize(size_);

     if (size_ == 0) return;

     loss_.copy_to_host(loss_out.data(), size_);

     grad_norm_.copy_to_host(grad_norm_out.data(), size_);

     time_ms_.copy_to_host(time_ms_out.data(), size_);

   }


   int size() const { return size_; }


 private:

   cuda_mlp::DeviceBuffer<cuda_mlp::CudaScalar> loss_;

   cuda_mlp::DeviceBuffer<cuda_mlp::CudaScalar> grad_norm_;

   cuda_mlp::DeviceBuffer<cuda_mlp::CudaScalar> time_ms_;

   int capacity_ = 0;

   int size_ = 0;

 };

 #endif

IterationRecorder< CpuBackend >::copy_to_host
void copy_to_host(std::vector< double > &loss_out, std::vector< double > &grad_norm_out) const
Copy recorded loss and gradient norm to output vectors.
Definition: iteration_recorder.hpp:50

IterationRecorder< CpuBackend >::size
int size() const
Current number of recorded entries.
Definition: iteration_recorder.hpp:64

IterationRecorder< CpuBackend >::init
void init(int capacity)
Allocate buffers for up to capacity iterations.
Definition: iteration_recorder.hpp:21

IterationRecorder< CpuBackend >::reset
void reset()
Reset recorded size without releasing memory.
Definition: iteration_recorder.hpp:31

IterationRecorder< CpuBackend >::copy_to_host
void copy_to_host(std::vector< double > &loss_out, std::vector< double > &grad_norm_out, std::vector< double > &time_ms_out) const
Copy recorded loss, gradient norm, and time to output vectors.
Definition: iteration_recorder.hpp:56

IterationRecorder< CpuBackend >::record
void record(int idx, double loss, double grad_norm, double time_ms=0.0)
Record a loss/grad/time entry at iteration index.
Definition: iteration_recorder.hpp:40

IterationRecorder
Iteration recorder specialized by backend (CPU/CUDA).
Definition: iteration_recorder.hpp:13

cuda_mlp::DeviceBuffer
Owning buffer for device memory.
Definition: device_buffer.cuh:7

common.cuh

device_buffer.cuh

cuda_mlp::CudaScalar
float CudaScalar
Scalar type used across CUDA kernels and optimizers.
Definition: common.cuh:11

cuda_mlp::cuda_check
void cuda_check(cudaError_t err, const char *msg)
Check a CUDA API call and abort with a message on failure.
Definition: common.cuh:18

CpuBackend
Backend tag for CPU implementations.
Definition: network_wrapper.hpp:20

CudaBackend
Backend tag for CUDA implementations.
Definition: network_wrapper.hpp:22