Use full dataset or analysis dataset for multiple imputation of missing race & ethnicity

在流行病学研究与公共卫生数据分析中，种族与民族变量常因受访者拒绝回答、数据录入错误或历史记录不完整而大量缺失。如何处理这些缺失值，特别是使用多重插补（Multiple Imputation, MI）时，研究者面临一个关键抉择：应基于包含所有可能相关变量的完整数据集进行插补，还是仅基于后续统计分析所需的精简分析数据集？近日，一项发表在《美国流行病学杂志》上的方法学研究给出了明确建议——使用完整数据集能够显著降低偏倚，提高估计的准确性。

缺失种族数据的普遍困境

种族与民族信息在健康差异研究中具有不可替代的作用。美国国家卫生研究院（NIH）强制要求在临床试验中报告种族与民族数据，但实际操作中，仍有10%至30%的观测值缺失。在电子健康记录（EHR）中，这一比例甚至更高。传统的做法包括删除缺失样本、使用单一值填补或简单地将其归为“其他”类别，这些方法往往导致选择偏倚或信息损失。

多重插补作为当前最广泛认可的缺失数据处理方法，通过创建多个填补数据集并合并分析结果，能够有效保留样本量和统计效力。然而，一个尚未完全解决的实践问题在于：研究者应当将插补模型建立在包含所有潜在预测变量的完整数据集上，还是仅使用最终分析模型中的变量子集？

完整数据集 vs. 分析数据集：两种策略的差异

所谓“完整数据集策略”，是指将数据库中所有可能与种族/民族相关的变量——包括人口学特征、社会经济指标、地理区域、健康行为、慢性病史等——都纳入插补模型，即便这些变量并不在最终分析模型中。而“分析数据集策略”则只保留最终分析所需的变量，对缺失的种族/民族进行插补。

表面上看，后者更简单高效，也避免了引入不相关的混杂因素。但该方法学派研究通过大规模模拟和实证数据验证发现，当种族/民族与其他变量存在非线性或交互关系时，限制插补模型会破坏多重插补的核心假设——即缺失值在给定观测数据条件下为随机缺失（MAR）。一旦遗漏关键预测变量，插补结果会产生系统偏倚，进而影响比值比、风险比等核心估计量的准确性。

研究结果：完整数据集显著提升插补质量

该研究团队利用美国国家健康与营养调查（NHANES）和医疗保险索赔数据进行了对比实验。在人为制造种族与民族数据缺失（缺失比例设为20%、40%和60%）后，分别采用两种策略进行多重插补，并与真实值比较。

结果显示，在使用完整数据集进行插补时，所有评估指标——包括偏差、均方误差和90%区间覆盖率——均优于分析数据集策略。特别当缺失比例较高（>40%）时，分析数据集策略产生的种族分布估计严重偏向非西班牙裔白人群体，而完整数据集策略仍能较好还原真实比例。此外，在后续的回归分析中，完整数据集策略下的种族效应估计偏倚降低了35%至50%。

“种族不是孤立存在的变量，它与居住地、收入、教育、医疗可及性等诸多因素紧密关联，”该研究的第一作者、约翰霍普金斯大学彭博公共卫生学院的张博士表示，“如果我们只用分析模型中的少数几个变量去预测缺失的种族，就相当于丢失了大量辅助信息，而这些信息恰恰是使插补满足随机缺失假设的关键。”

实操建议：数据整合是关键

对于正在处理缺失种族与民族数据的研究者，该研究提出了三点可操作建议：

第一，在开始多重插补之前，应尽可能收集并整合所有与研究主题相关的辅助变量。即使是最终分析中不会使用的变量，只要与种族/民族存在合理关联，都应纳入插补模型。

第二，对于大规模数据库，可利用正则化方法（如LASSO或随机森林）在完整数据集中筛选出有效的预测变量，避免模型过拟合的同时保留关键信息。

第三，报告插补过程时应明确说明所使用的变量集，并开展敏感性分析：分别报告基于完整数据集与分析数据集的插补结果，以便读者评估潜在偏倚。

结语：方法选择关乎研究公正

种族与民族数据的科学处理，不仅是一个技术问题，更关乎健康公平研究的结论可靠性。当缺失数据被不当填补时，边缘群体的健康需求可能被系统性地低估或忽视。采用完整数据集进行多重插补，尽管增加了前期数据准备的工作量，却是确保研究质量与伦理责任的基础保障。正如张博士在文末所言：“我们不应因数据缺失而让某些人群变得‘不可见’——而完整数据集插补，正是让这些人群重现的唯一正确途径。”

Use full dataset or analysis dataset for multiple imputation of missing race &amp; ethnicity

缺失种族数据的普遍困境

完整数据集 vs. 分析数据集：两种策略的差异

研究结果：完整数据集显著提升插补质量

实操建议：数据整合是关键

结语：方法选择关乎研究公正

相关阅读