#ifndef CCTBX_MILLER_MERGE_EQUIVALENTS_H #define CCTBX_MILLER_MERGE_EQUIVALENTS_H #include #include #include #include #include namespace cctbx { namespace miller { template struct merge_equivalents_impl { template void loop_over_groups( DerivedType& self, af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data) { CCTBX_ASSERT(unmerged_data.size() == unmerged_indices.size()); if (unmerged_indices.size() == 0) return; std::size_t group_begin = 0; std::size_t group_end = 1; for(;group_end void process_group( DerivedType& self, std::size_t group_begin, std::size_t group_end, index<> const& current_index, af::const_ref const& unmerged_data) { std::size_t n = group_end - group_begin; if (n == 0) return; self.indices.push_back(current_index); self.data.push_back(self.merge( current_index, &unmerged_data[group_begin], n)); self.redundancies.push_back(n); } }; namespace merge_equivalents { template < typename DerivedType, typename DataElementType, typename FloatType> void compute_r_factors( DerivedType& self, const DataElementType* data_group, std::size_t n, FloatType const& result) { FloatType sum_num = scitbx::fn::absolute(data_group[0] - result); FloatType sum_den = scitbx::fn::absolute(data_group[0]); FloatType sum_merge_den = data_group[0]; for(std::size_t i=1;i struct merge_equivalents_string : merge_equivalents_impl { merge_equivalents_string() {} merge_equivalents_string( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data) { merge_equivalents_impl ::loop_over_groups(*this, unmerged_indices, unmerged_data); } af::shared > indices; af::shared data; af::shared redundancies; StringElementType merge( miller::index<> const& /*current_index*/, const StringElementType* data_group, std::size_t n) { StringElementType result = data_group[0]; for (std::size_t i = 1; i < n; i++) result += "\n" + data_group[i]; return result; } }; template struct merge_equivalents_generic : merge_equivalents_impl { merge_equivalents_generic() {} merge_equivalents_generic( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data) { merge_equivalents_impl ::loop_over_groups(*this, unmerged_indices, unmerged_data); } af::shared > indices; af::shared data; af::shared redundancies; DataElementType merge( miller::index<> const& /*current_index*/, const DataElementType* data_group, std::size_t n) { DataElementType result = data_group[0]; for (std::size_t i = 1; i < n; i++) result += data_group[i]; return result / static_cast(n); } }; template struct merge_equivalents_exact : merge_equivalents_impl { merge_equivalents_exact() {} merge_equivalents_exact( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data, boost::optional incompatible_flags_replacement=boost::optional()) : incompatible_flags_replacement(incompatible_flags_replacement), n_incompatible_flags(0) { merge_equivalents_impl ::loop_over_groups(*this, unmerged_indices, unmerged_data); } af::shared > indices; af::shared data; af::shared redundancies; boost::optional incompatible_flags_replacement; int n_incompatible_flags; IntegralType merge( miller::index<> const& current_index, const IntegralType* data_group, std::size_t n) { for(std::size_t i=1;i struct merge_equivalents_real : merge_equivalents_impl { merge_equivalents_real() : r_int_num(0), r_int_den(0), r_merge_den(0), r_meas_num(0), r_pim_num(0) {} merge_equivalents_real( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data) : r_int_num(0), r_int_den(0), r_merge_den(0), r_meas_num(0), r_pim_num(0) { merge_equivalents_impl ::loop_over_groups(*this, unmerged_indices, unmerged_data); } af::shared > indices; af::shared data; af::shared redundancies; //! r_linear = sum(abs(data - mean(data))) / sum(abs(data)) af::shared r_linear; //! r_square = sum((data - mean(data))**2) / sum(data**2) af::shared r_square; /** r_int = sum(abs(data - mean(data))) / sum(abs(data)) where the sums run over all unique reflections but mean(data) is the same as for r_linear, i.e. the mean for the group of symmetry equivalent reflections. */ FloatType r_int_num, r_int_den; // r_merge = sum(abs(data - mean(data))) / sum(data) // almost identical to r_int, but without abs() in the denominator FloatType r_merge_den, r_meas_num, r_pim_num; FloatType merge( miller::index<> const& /*current_index*/, const FloatType* data_group, std::size_t n) { FloatType result = data_group[0]; for(std::size_t i=1;i(n); merge_equivalents::compute_r_factors(*this, data_group, n, result); return result; } FloatType r_int() { return r_int_den == 0 ? 0 : r_int_num / r_int_den; } FloatType r_merge() { return r_merge_den == 0 ? 0 : r_int_num / r_merge_den; } FloatType r_meas() { return r_merge_den == 0 ? 0 : r_meas_num / r_merge_den; } FloatType r_pim() { return r_merge_den == 0 ? 0 : r_pim_num / r_merge_den; } }; template class merge_equivalents_obs { public: merge_equivalents_obs() : r_int_num(0), r_int_den(0), r_merge_den(0), r_meas_num(0), r_pim_num(0) {} merge_equivalents_obs( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas, FloatType sigma_dynamic_range_=1e-6, bool use_internal_variance=true) : sigma_dynamic_range(sigma_dynamic_range_), r_int_num(0), r_int_den(0), r_merge_den(0), r_meas_num(0), r_pim_num(0) { CCTBX_ASSERT(unmerged_data.size() == unmerged_indices.size()); CCTBX_ASSERT(unmerged_sigmas.size() == unmerged_indices.size()); init(unmerged_indices, unmerged_data, unmerged_sigmas, use_internal_variance); } af::shared > indices; af::shared data; af::shared sigmas; FloatType sigma_dynamic_range; af::shared redundancies; //! r_linear = sum(abs(data - mean(data))) / sum(abs(data)) af::shared r_linear; //! r_square = sum((data - mean(data))**2) / sum(data**2) af::shared r_square; /** r_int = sum(abs(data - mean(data))) / sum(abs(data)) where the sums run over all unique reflections but mean(data) is the same as for r_linear, i.e. the mean for the group of symmetry equivalent reflections. */ FloatType r_int_num, r_int_den; FloatType r_merge_den, r_meas_num, r_pim_num; FloatType r_int() { return r_int_den == 0 ? 0 : r_int_num / r_int_den; } FloatType r_merge() { return r_merge_den == 0 ? 0 : r_int_num / r_merge_den; } FloatType r_meas() { return r_merge_den == 0 ? 0 : r_meas_num / r_merge_den; } FloatType r_pim() { return r_merge_den == 0 ? 0 : r_pim_num / r_merge_den; } protected: void init( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas, bool use_internal_variance=true) { if (unmerged_indices.size() == 0) return; std::vector values; std::vector weights; std::size_t group_begin = 0; std::size_t group_end = 1; for(;group_end const& current_index, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas, std::vector& values, std::vector& weights, bool use_internal_variance=true) { std::size_t n = group_end - group_begin; if (n == 0) return; indices.push_back(current_index); values.clear(); values.reserve(n); weights.clear(); weights.reserve(n); FloatType sigma_threshold = 0; if (sigma_dynamic_range > 0) { FloatType max_sigma = 0; for(std::size_t i=0;i sigma_threshold) { values.push_back(unmerged_data[group_begin+i]); weights.push_back(1 / scitbx::fn::pow2(s)); unmerged_sigma = unmerged_sigmas[group_begin+i]; } } if (values.size() == 0) { data.push_back(0); sigmas.push_back(0); } else if (values.size() == 1) { data.push_back(values[0]); sigmas.push_back(unmerged_sigma); } else { af::const_ref data_group( &*values.begin(), values.size()); af::const_ref weights_group( &*weights.begin(), weights.size()); scitbx::math::mean_and_variance mv( data_group, weights_group); data.push_back(mv.mean()); FloatType merged_sigma; if (use_internal_variance) { merged_sigma = std::sqrt( std::max( mv.gsl_stats_wvariance()/values.size(), 1/mv.sum_weights())); } else { merged_sigma = std::sqrt(1/mv.sum_weights()); } sigmas.push_back(merged_sigma); } redundancies.push_back(n); merge_equivalents::compute_r_factors( *this, &unmerged_data[group_begin], n, data.back()); } }; /** refs: shelxl code; and http://www.crystal.chem.uu.nl/distr/mergehklf5/mergehklf5.html main difference to standard merging are the weights and replacing the experimental sigmas with sum(data-mean(data))/(n*(n-1)^0.5), if experimental sigmas are smaller */ template class merge_equivalents_shelx { public: merge_equivalents_shelx() : inconsistent_eq(0) {} merge_equivalents_shelx( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas) : r_int_num(0), r_int_den(0), r_merge_den(0), r_meas_num(0), r_pim_num(0) { CCTBX_ASSERT(unmerged_data.size() == unmerged_indices.size()); CCTBX_ASSERT(unmerged_sigmas.size() == unmerged_indices.size()); init(unmerged_indices, unmerged_data, unmerged_sigmas); } af::shared > indices; af::shared data; af::shared sigmas; af::shared redundancies; //! r_linear = sum(abs(data - mean(data))) / sum(abs(data)) af::shared r_linear; //! r_square = sum((data - mean(data))**2) / sum(data**2) af::shared r_square; /** r_int = sum(sum(abs(data - mean(data)))) / sum(sum(abs(data))) where inner sums run over the equivalent reflections and the outer ones run over all unique reflections. the r_ factors should be calculated in the same way as in the merge_equivalents_obs */ FloatType r_int_num, r_int_den; FloatType r_merge_den, r_meas_num, r_pim_num; /** number of inconsistent equivalents: sum(data-mean(data))/(n*(n-1)^0.5) > 5/sum(1/sig^2), where n is the number of reflections in the group and mean value is calculated with these weights: weight = ((data > 3.0*sig) ? data/sig^2 : 3./sig) */ std::size_t inconsistent_eq; FloatType r_int() { return (r_int_den == 0 ? 0 : r_int_num / r_int_den); } FloatType r_merge() { return (r_merge_den == 0 ? 0 : r_int_num / r_merge_den); } FloatType r_meas() { return (r_merge_den == 0 ? 0 : r_meas_num / r_merge_den); } FloatType r_pim() { return (r_merge_den == 0 ? 0 : r_pim_num / r_merge_den); } std::size_t inconsistent_equivalents() const { return inconsistent_eq; } protected: void init( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas) { inconsistent_eq = 0; if (unmerged_indices.size() == 0) return; std::size_t group_begin = 0; std::size_t group_end = 1; for(;group_end const& current_index, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas) { std::size_t n = group_end - group_begin; if (n == 0) return; FloatType oss_sum = 0, w_sum = 0, i_wght_sum = 0; for(std::size_t i=0;i(1e-3) : unmerged_sigmas[index]); const FloatType oss = scitbx::fn::pow2(1./s); const FloatType val = unmerged_data[index]; const FloatType w = ((val > 3.0*s) ? val*oss : 3.0/s); oss_sum += oss; w_sum += w; i_wght_sum += w*val; } const FloatType mean = i_wght_sum/w_sum; FloatType sum_diff = 0, sum_i = 0, sum_diffs = 0, sum_is = 0; for(std::size_t i=0;i1) { r_int_num += sum_diff; r_int_den += sum_i; r_meas_num += std::sqrt((FloatType)n/(FloatType)(n-1)) * sum_diff; r_pim_num += std::sqrt(1.0 / (FloatType)(n-1)) * sum_diff; const FloatType sig_int = sum_diff/(n*sqrt(static_cast(n)-1.0)); if (sig_int > sig) { if (sig_int > 5*sig) inconsistent_eq++; sig = sig_int; //replace the experimental sigma } } r_linear.push_back(sum_i == 0 ? 0 : sum_diff/sum_i); r_square.push_back(sum_is == 0 ? 0 : sum_diffs/sum_is); indices.push_back(current_index); data.push_back(i_wght_sum/w_sum); sigmas.push_back(sig); redundancies.push_back(n); } }; template class split_unmerged { public : af::shared data_1; af::shared data_2; af::shared< index<> > indices; split_unmerged ( af::const_ref > const& unmerged_indices, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas, bool weighted=true, unsigned seed=0) { if (unmerged_indices.size() == 0) return; if (seed != 0) gen.seed(seed); CCTBX_ASSERT(unmerged_sigmas.all_gt(0.0)); std::size_t group_begin = 0; std::size_t group_end = 1; for(;group_end(data_1, // data_2).coefficient(); // } protected: void process_group ( std::size_t group_begin, std::size_t group_end, index<> const& current_index, af::const_ref const& unmerged_data, af::const_ref const& unmerged_sigmas, bool weighted) { const std::size_t n = group_end - group_begin; if (n < 2) { return; } else { // temp is a copy of the array of intensites of each observation std::vector temp(n), temp_w(n); for(std::size_t i=0;i i_obs(2, 0.), sum_w(2, 0.); for(std::size_t i=0;i