本章思维导图:


【资料图】

Mixture analysis是近几年环境流行病学最热门的方法,即“混合物分析”。很多污染物是同源的(co-exposed congeners),而且污染物与污染物之间可能存在交互效应。在传统的分析方法中,化学物间高度的共线性(collinearity)可能导致结果错误。混合物成分可能与健康具有复杂的非线性和非加性关系、多暴露变量交互作用产生高纬度导致回归模型拟合不佳。

常见的例子有空气污染、塑化剂混合物(邻苯二甲酸、持久性有机化学品)、营养素、重金属之类。例如,钙和维生素D的作用是相辅相成的,研究钙的健康效应的时候,VD是否考虑了?研究贫血的时候,铁和钴是否同时考虑?再比如,A铅暴露比较高,A神经疾病可能性较大;但如果A饮食模式好、补充抗氧化微量元素,又或经常补充拮抗受体锌,那A理论上神经疾病可能性就很小。但若实际上,A依然患病,那么问题来了!是不是A别的重金属超标?是不是微量元素的正作用不够抵消铅的负作用?请问到底吃啥能抵消啥?这些问题似乎在过去很难有答案。但是,随着方法学的进步很好地解决此类纠缠不清的问题。

混合物分析系列将分为3-4期文章随着方法学进化而逐一讲解,涉及BKMR(贝叶斯核机器回归)、CEVK、WQS、QcG分析,这些方法共同解决了化学物共同暴露对健康结局的总体效应、化学物对健康结局影响的重要程度、不同化学物之间的交互作用的痛点。

旧方法局限性

聚类方法由于对连续暴露浓度进行分类而导致信息丢失。诸如随机森林之类的统计学习算法可以为混合成分提供可变重要性的度量,但该度量并没有简洁地总结关联的大小或方向。回归框架内的变量选择技术LASSO将各个回归系数缩小到零,但这些通常基于相对简单的混合成分参数模型。分层模型通过将个体效应估计缩小到组均值来解决高度相关的污染物,但这种方法通常还假设每个成分与健康之间存在线性和可加性关联。由此,BKMR克服了上述传统方法可能受到多重共线性和模型选择误差限制的缺点,因此更加可靠地评估环境化学混合物对健康的影响。

BKMR原理

BKMR无需设置参数表达形式,允许非线性效应和交互作用存在,可以根据模型里放进来的混合物变量,生成核函数,然后再利用贝叶斯抽样和分析方法,生成混合物组分和模型里放入的疾病变量的关系曲线(dose-response curves)。方法学文章见 Bobb et al. 2015(doi:10.1093/biostatistics/kxu058)和 Bobb et al. 2018(doi.org/10.1186/s12940-018-0413-y)。简而言之,迭代2万次后构建暴露剂量响应函数h()。公式:

注意,BKMR公式中的x为协变量,z才是暴露因素。

BKMR案例

案例1

(PMID: 32006885): 696名焦炉作业工人作为研究对象,问卷调查收集人群基本资料,高效液相色谱质谱联用方法检测尿中PAHs羟基代谢产物:2-OHNAP、1-OHNAP、3-OHFLU、2-OHFLU、2-OHPHE、9-OHPHE、1-OHPHE、1-OHPYR、9-OHBAP、3-OHCHR、6-OHCHR。9-OHBAP、3-OHCHR和6-OHCHR检测率接近或低于50%,定义为二分类变量(检出或未检出),以协变量的方式纳入研究。文章尝试两种核函数(Gaussian and Binomial possible choices for specifying the kernel function)。

当8种PAHs代谢物 (2-OHNAP, 1-OHNAP, 3-OHFLU, 2-OHFLU, 2-OHPHE, 9-OHPHE, 1-OHPHE, 1-OHPYR) 的整体浓度在高于P₃₅时,随着代谢物浓度的增加,mtDNAcn呈下降趋势(图A);当其他代谢物分别固定在P₂₅、P₅₀和P₇₅时,评估单个代谢物对于结局影响时发现,随着2-OHNAP和2-OHPHE浓度的增加,mtDNAcn下降(图B);

图C显示2-OHNAP和2-OHPHE与mtDNAcn的线性关系(不如rcssci包的rcs图直观和严谨,更推荐绘制rcs曲线);图D中的平行暴露-反应关系表明,2-OHNAP与2-OHPHE并不存在相互作用。

案例2

(PMID: 34293557),解为探寻何种污染物在空气污染整体健康效应中占据主导,该研究计算了混合物成分PM2.5、O3、和NO2的后验包含概率(posterior inclusion probability, PIP)。

如图(a) 所示,分别有99.3%的PM2.5,86.7%的O3和84.0%的NO2PIP值高于阈值(0.5)。研究者还试图通过改变用来确定是否要包含某变量的阈值来识别主要污染物。如图 (b) 所示,在阈值从0增加到1的过程中,PM2.5始终具有最大比例高于阈值的PIP值,这说明PM2.5对全因死亡率增加的解释力度强于O3和NO2。

R实战

R代码:

Tips

上述过程需要注意几点:

①代码中,暴露因素z的预处理,可以酌情按照ln或者log10转换后再中心化,可均数或中位数中心,文献报道不一。 

中心化代码:

②BKMR思路见思维导图,其中纳入BKMR的混合物不同,最后的结果也可能很不同。简而言之,多test然后依据可解释性选阳性结果。

筛选方法可以是混合物z全部入选,也可以LASSO筛选,甚至可以自行组合混合物模式。BKMR 不是基于零假设检验的经典统计框架,95% CI 被解释为可信区间,应避免讨论统计效能。换句话说,样本量小不影响结果。但是,笔者真实分析发现,混合物>10时过多,需研究样本量较大才容易有阳性结果。

③混合物间如果存在高度相关性或者familywise效应,可以用group参数处理。相关性可用相关系数矩阵(可搜索前期文章相关系数图)、热图、VIF等指标来探索。

④PIP =0 意味着该协变量的CR剂量反应是零点上的一条直线,但是这并不意味着此Z对y没有影响,而只是在BKMR二阶段程序中没有选择它。⑤ BKMR结局可以是连续y,也可以是二分类y。当二分类y时,需要标出family="binomial"。BKMR包运用probit回归估计的β相比logistic偏小,βlogit≈1.6 *βprobit。

⑤ BKMR大样本>1万人需运行几小时,iteration迭代2万次会更慢。可以考虑适当降低标准,笔者推荐迭代1000次先做预分析。

⑥高分SCI有许多敏感性分析,总结见思维导图。

发散思维

1.BMKR 文章大多都是环境领域的队列研究 或者横断面,也有(nested )case-control,那么BKMR是否可以运用于临床研究指标?

2.BKMR扩展:基于time的BKMR[4],基于滞后回归的 BKMR 纵向版本[5]。当然,也可以按照time因素分层做普通的BKMR[6]。

小结

BKMR法提供了存在共线性问题的混合物解决方法,可计算总效应趋势(多污染物模式)、单独效应(单污染物模式)、相对重要性(PIP)、非线性剂量效应曲线(CR曲线)、交互作用(双CR曲线),是环境领域的一大利器。

数据和代码索要请在公众号消息界面,发送信息“BKMR”

本公众号建立了学术交流群(群),仅供SCI学术交流,人数有限需要实名制。入群请加笔者微信popnie,加好友请备注说明:姓名-学校(单位)-专业,否则不会通过(别再问我为啥不理你)。

参考文献:

1https://academic.oup.com/biostatistics/article/16/3/493/2697192https://ehjournal.biomedcentral.com/articles/10.1186/s12940-018-0413-y3https://jenfb.github.io/bkmr/ProbitEx.html4Domingo-Relloso, Arce, Maria Grau-Perez, Laisa Briongos-Figuero, Jose L Gomez-Ariza, Tamara Garcia-Barrera, Antonio Dueñas-Laita, Jennifer F Bobb, et al. 2019. “The Association of Urine Metals and Metal Mixtures with Cardiovascular Incidence in an Adult Population from Spain: The Hortega Follow-up Study.” International Journal of Epidemiology 48 (6): 1839–49.5Liu, Shelley H, Jennifer F Bobb, Kyu Ha Lee, Chris Gennings, Birgit Claus Henn, David Bellinger, Christine Austin, et al. 2018. “Lagged Kernel Machine Regression for Identifying Time Windows of Susceptibility to Exposures of Complex Mixtures.” Biostatistics 19 (3): 325–41.6Tyagi, Pooja, Tamarra James-Todd, Lidia Mı́nguez-Alarcón, Jennifer B Ford, Myra Keller, John Petrozza, Antonia M Calafat, et al. 2021. “Identifying Windows of Susceptibility to Endocrine Disrupting Chemicals in Relation to Gestational Weight Gain Among Pregnant Women Attending a Fertility Clinic.” Environmental Research 194: 110638.7https://www.niehs.nih.gov/news/events/pastmtg/2015/statistical/8https://jenfb.github.io/bkmr/overview.html

原创不易,欢迎转载,分享给你身边的小伙伴。

BKMR系列1