·论著·

机器学习早产预测模型的建立

何子洋 王称 周艳芝 杨兰

【摘要】 目的 筛选早产危险因素,构建基于一般信息和临床信息的早产预测模型,为早产筛查工作提供参考。 方法 选取“兰州出生队列”的10 524名孕妇为研究对象,选取一般特征、妊娠史、新生儿情况、母体因素等相关资料。研究数据集按照7∶3的比例随机分为训练集和测试集,在训练集中筛选早产危险因素。对训练集中早产与非早产两类进行数据平衡,分别采用三种机器学习算法构建预测模型。选取受试者工作特征曲线下面积(AUC)、平衡准确率、敏感度、特异度、几何平均值(G-mean)等指标在测试集上进行性能评价。 结果 共纳入10 136例孕妇进入研究,纳入9个变量进入模型训练。采用平衡后数据的模型具有较好的预测性能,受试者工作特征曲线下面积分别为0.766(95%CI:0.736~0.796)和0.759(95%CI:0.730~0.788)。 结论 本研究筛选出早产的危险因素,采用数据平衡的方法构建机器学习早产预测模型,具有较好的预测性能,为早产的筛查提供了更多参考。未来有必要采取多中心研究进一步验证模型性能。

【关键词】 早产儿; 机器学习; 预测模型

世界卫生组织将早产儿定义为出生胎龄<37周的新生儿,2020年,全球早产发病率为9.9%[1]。1990年—2020年间,中国早产发病率呈上升趋势,西部地区发病率较高,其中西北地区为10.3%[2]。早产并发症是5岁以下儿童死亡的主要原因之一[3-4],存活早产儿患慢性病[5]及过早死亡的风险较足月儿也有所增加[6]。对单胎妊娠、既往有自发性流产和宫颈长度小于25 mm的孕妇预防性使用黄体酮可降低早产发生率[7],因此,及早发现早产高风险孕妇非常重要。目前,识别早产高风险孕妇方法较少,妊娠中期经阴道测量宫颈长度是目前常用方法,但该方法阳性预测值及敏感度均较低[8],因此,多数指南并不推荐其作为常规筛查项目[9],仅建议对早产高风险人群,即有早产史或晚期流产史的孕妇在孕16~24周经阴道超声测量宫颈长度[10]

预测模型可以通过对指标综合分析预测事件发生的可能性,Li等[11]使用基于Logistic的列线图模型预测美国孕产妇早产,受试者工作特征曲线下面积(area under the curve,AUC)和准确度分别为0.688和0.762,国内一项研究采用多因素Logistic回归模型预测早产,AUC、敏感度和特异度分别为0.749、0.610和0.886[12],传统多因素回归预测模型对多重共线性比较敏感,很难处理复杂数据。机器学习算法适应性强,能处理复杂的非线性关系,在早产预测领域的应用逐渐增多,但其中大多没有考虑数据不平衡问题[13-15]。数据不平衡指数据集中不同结局的样本数量差异很大,直接使用不平衡数据训练预测模型可能会造成预测结果偏多数类,降低模型的泛化能力。合成少数过采样技术(synthetic minority over-sampling technique,SMOTE)可以通过特定算法合成少数类样本使数据达到平衡状态。本研究基于出生队列数据,采取数据平衡方法构建机器学习早产预测模型,进一步探索提高预测模型性能的方法,为早产的预测提供帮助。

对象与方法

一、对象

选取“兰州出生队列”相关数据进行模型构建研究,该队列建立于2010年2月至2012年12月期间,在位于甘肃省兰州市的甘肃省妇幼保健院募集孕妇,收集建卡的孕妇信息。纳入标准:年龄大于18岁;孕周大于等于20周。排除标准:有精神病史;表达理解能力障碍。共有14 359名孕妇入组,其中拒绝参加研究的孕妇3 712名,未能完成调查的孕妇105名,最终收集到10 542名孕妇的相关信息。剔除死胎死产53例、失访及相关信息缺失数据353例后,最终10 136例孕妇纳入本研究。根据孕妇是否早产分为非早产组(≥37周孕龄)与早产组(<37周孕龄),孕周信息来源于医院诊断。本研究已通过甘肃省妇幼保健院医学伦理委员会批准。

二、方法

1.相关变量选取:从队列中选取了四个方面29个变量作为候选变量。一般特征包括母亲年龄(≥35岁)、母亲文化程度、家庭月收入(≥3 000元)、孕期健康教育,妊娠史包括既往死产数量,新生儿因素包括多胎妊娠、新生儿性别、宫内窘迫。母体因素包括母亲体质指数(body mass index,BMI)、妊娠期高血压、妊娠期糖尿病、辅助生殖、母亲贫血、阴道出血、胆汁淤积症、前置胎盘、子痫、子痫前期、胎膜早破、胎膜早剥、羊水过多、羊水过少,营养及环境因素包括孕前一年、孕早期、孕中期和孕晚期服叶酸,及孕早期、孕中期、孕晚期烟草暴露等。一般资料及营养环境因素来源于问卷调查,疾病症状和结局信息来源于住院病历资料。

2.统计学处理:一般资料描述和训练集测试集分布对比采用卡方检验。一般资料描述时使用原始数据集,缺失值未进入统计分析,P<0.05为差异有统计学意义。

对异常数据、重复数据及缺失数据进行处理。采用K近邻填补缺失值并进行敏感性分析,处理后按照7∶3的比例随机划分训练集与测试集,采用卡方检验比较两组数据的分布情况,在训练集中采用Logistic回归筛选重要影响因素,变量进入模型的方式采用逐步回归。利用SMOTE构建平衡数据集,分别使用不平衡数据集和平衡数据集构建早产预测模型。研究采用随机森林(random forest, RF)、反向传播神经网络(back propagation neural network, BPNN)和极端梯度提升树(eXtreme gradient boosting, XGBoost)3种机器学习算法构建预测模型,使用网格搜索法寻取最优参数,利用AUC、平衡准确率、敏感度、特异度、几何平均值(G-mean)等指标在测试集上进行性能评价。

采用SPSS 26.0软件和Python 3.7软件完成统计分析,使用Python的sklearn库完成模型构建及图形绘制。

结 果

一、研究对象的一般特征

本次研究共纳入早产孕妇1 194例,早产发生率11.8%。年龄大于35岁和家庭月收入少于3 000元的孕妇早产发生率较高,超重和肥胖的孕妇早产发生率均高于其他孕妇,文化程度越高,孕妇早产发生率越低,差异均有统计学意义。早产组与非早产组新生儿性别差异无统计学意义。见表1。

表1 研究人群一般特征

Table 1 Basic characteristics of the subjects

*P<0.05, compared between the two groups

VariablesFull term deliveryPreterm birthIncidence (%)Age≥35 years∗ Yes78316917.8 No8 1591 02511.2Education∗ Primary school or below43016127.2 Middle school or high school2 93551715.0 College or above5 5465138.5Household income(Yuan/Month)∗ ≥3 0003 7793298.0 <3 0004 47579815.1Pre-pregnancy BMI(kg/m2)∗ <18.51 86924611.6 18.5≤-<245 79171311.0 24≤-<2896415714.0 ≥281753315.9Health education∗ Yes4 5774659.2 No4 34672514.3Gender of newborn Male4 69764212.0 Female4 23254811.5

采用K近邻填充缺失值,其中家庭月收入缺失755例,母亲BMI缺失188例,母亲文化程度缺失34例,孕前教育缺失23例,孕晚期服叶酸缺失1例,阴道出血缺失36例,其余变量均无缺失。敏感性分析表明缺失数据对本研究结果无重大影响。

二、训练集和验证集比较

采用K近邻填补缺失值并进行敏感性分析,处理后按照7∶3的比例随机划分训练集与测试集,训练集7 078例,测试集3 058例。训练集中早产组843例,发生率11.9%;测试集中早产组351例,发生率11.5%。训练集与测试集各个变量间差异均无统计学意义,两组数据分布不存在差异,见表2。

表2 训练集与测试集变量比较[例(%)]

Table 2 Comparison between training set and test set[n(%)]

VariablesTraining setTest setAge≥35 years649(10.1)303(9.9)Pre-pregnancy BMI(kg/m2) <18.51 518(21.4)639(20.9) 18.5≤-<244 628(65.4)1 994(65.2) 24≤-<28785(11.1)360(11.8) ≥28147(2.1)65(2.1)Household income(Yuan/Month)≥3 0003 116(44.0)1 344(44.0)Health education3 551(50.2)1 502(49.1)Education Primary school or below419(5.9)175(5.7) Middle school orhigh school2 422(34.2)1 045(34.2) College or above4 237(59.9)1 838(60.1)Gender of newborn (male)3 735(0.5)1 614(0.5)Multiple pregnancy189(<0.1)92(<0.1)Gestational hypertension261(3.7)111(3.6)Gestational diabetes66(0.9)31(1.0)Folate use one year before pregnancy2 236(31.6)972(31.8)Folate use during the first trimester4 613(65.2)2 016(65.9)Folate use during the second trimester591(8.3)261(8.5)Folate use during the third trimester218(3.1)104(3.4)Active or passive smoke during the first trimester1 281(18.1)566(18.5)Active or passive smoke during the sec-ond trimester1 167(16.5)520(17.0)Active or passive smoke during the third trimester1 035(14.6)470(15.4)Assisted pregnancy251(3.5)113(3.7)Stillbirth history 06 936(98.0)3 009(98.4) 1133(1.9)48(1.6) ≥29(0.1)1(<0.1)Anemia800(11.3)351(11.5)Vaginal bleeding1 305(18.4)569(18.6)Intrahepatic cholestasis163(2.3)60(2.0)Placentaprevia117(1.7)51(1.7)Eclampsia75(1.1)28(0.9)Preeclampsia276(3.9)116(3.8)Premature rupture of membrane37(0.5)15(0.5)Placenta abruption58(0.8)30(1.0)Fetal distress1 054(14.9)438(14.3)Polyhydramnios108(1.5)47(1.5)Oligohydramnios214(3.0)100(3.3)

三、早产的多因素分析

训练集Logistic回归分析结果显示,多胎妊娠、妊娠期糖尿病、妊娠期高血压、胆汁淤积症、子痫、子痫前期和前置胎盘是早产的危险因素,孕期健康教育和孕前一年服叶酸是早产的保护因素,见表3。

表3 早产影响因素的Logistic回归分析

Table 3 Logistic regression analysis of preterm birth

VariablesβWaldPOR95%CIMultiple pregnancy No———1.00— Yes2.904296.695<0.00118.2513.11-25.40Health education No———1.00— Yes-0.1415.1460.0230.830.71-0.98Folate use one year before pregnancy No———1.00— Yes-0.2034.1820.0410.820.67-0.99Gestationaldiabetes No———1.00— Yes0.9197.6360.0062.511.31-4.81Gestational hypertension No———1.00— Yes1.17730.940<0.0013.242.14-4.91Intrahepatic cholestasis No———1.00— Yes1.58572.063<0.0014.883.38-7.03Eclampsia No———1.00— Yes0.6334.5900.0321.881.06-3.36Preeclampsia No———1.00— Yes0.77712.587<0.0012.181.42-3.34Placentaprevia No———1.00— Yes2.403141.175<0.00111.067.44-16.44

四、训练集数据平衡结果

采用SMOTE法过采样平衡训练集数据,平衡前训练集有数据7 078条,其中早产843例;平衡后训练集有数据12 470条,其中早产6 235例,平衡前后训练集分布比例见图1。

图1 使用SMOTE过采样数据平衡前后对比

Figure 1 Comparison of balanced and imbalanced datasets

五、早产预测模型建立

基于训练集Logistic回归分析结果,将多胎妊娠、孕期健康教育、孕前一年服叶酸、妊娠期糖尿病、妊娠期高血压、胆汁淤积症、子痫、子痫前期和前置胎盘共9个变量纳入随机森林、反向传播神经网络和极端梯度提升树等3种模型进行分析,分别使用平衡前训练集和平衡后训练集构建早产预测模型。采用测试集对模型进行测试,模型在测试集上的表现见图2。采用平衡数据集后随机森林模型和反向传播神经网络模型性能有所提升,并且随机森林模型在所有模型中具有最佳性能。

图2 不平衡(A)和平衡(B)数据集模型的受试者工作特征曲线

Figure 2 Receiver operating characteristic curve in balanced and imbalanced datasets

表4列出了不同模型的各项指标。结果显示在采用平衡数据集后,多数指标有所提升。随机森林模型的AUC(0.766;95%CI:0.736~0.796)和特异度(0.913)较高,反向传播神经网络模型平衡准确率(0.825)、敏感度(0.743)和几何平均值(0.821)指标更佳,两个模型均有一定的预测效能。

表4 不平衡和平衡数据集训练的模型性能比较

Table 4 Performance of the models trained with imbalanced and balanced datasets

ModelsBalanced accuracyAUC (95% CI)SensitivitySpecificityG-meanRF Imbalanced data model0.7870.753(0.726-0.780)0.6630.9110.777 Balanced data model0.8230.766(0.736-0.796)0.7330.9130.818BPNN Imbalanced data model0.8060.746(0.708-0.784)0.6990.9130.799 Balanced data model0.8250.759(0.730-0.788)0.7430.9070.821XGBoost Imbalanced data model0.7870.689(0.649-0.729)0.6630.9120.777 Balanced data model0.7810.737(0.700-0.774)0.6490.9120.769

讨 论

本研究选用出生队列资料,筛选了早产的9个影响因素,使用数据平衡和机器学习方法构建早产预测模型。结果显示,使用平衡数据训练的随机森林模型和反向传播神经网络模型性能优于未使用平衡数据的模型。

本研究采用了SMOTE过采样法平衡数据,使用该方法后随机森林模型和反向传播神经网络模型的性能均有提高,AUC分别为0.766和0.759,其中RF模型的平衡准确度和敏感度提升较多。Leme等[16]在预测老年衰弱的模型中采用了类似的数据平衡方法,结果显示绝大多数模型性能均有提升,敏感度的提升尤为突出,这与本研究结果类似。孕妇中早产与非早产数量差异较大,在模型构建中采用数据平衡方法可以进一步提高早产预测模型性能,从而对早产筛查提供更多帮助。

本研究中,XGBoost模型在使用平衡数据后仅AUC有一定增加,平衡准确率和敏感度均略有下降,可能是平衡过程中引入了噪音。Aponte-Hao等[17]在研究中发现,数据平衡过程中如果两类特征具有重叠区域,SMOTE合成过采样数据时可能会无意中引入假阳性样本,由此导致模型辨别假阳性的能力下降。目前,人工智能领域逐步采用改进算法以减少SMOTE方法的合成样本质量问题,例如Borderline-SMOTE方法、SMOTE-Tomek方法和IDP-SMOTE方法。以上方法在医学领域应用较少,尚需要未来进一步探索。

既往早产预测模型中极少采用数据平衡方法,Zhang等[14]使用长短期记忆网络模型预测早产发生情况,AUC为0.651;Khan等[15]使用多种机器学习模型预测早产,XGBoost模型表现最好,AUC为0.735;汪琼等[12]采用多因素Logistic回归模型预测早产,AUC为0.749,敏感度和特异度分别为0.610和0.886。另一些研究[13]引入了实验室或影像学结果进行预测,难以进行比较。本研究随机森林模型AUC为0.766,敏感度为0.733,特异度为0.913,具有较好的预测性能。

本研究利用队列数据筛选出早产重要影响因素,并构建了早产预测模型,基于平衡数据的随机森林模型和反向传播神经网络模型预测性能较好,对早产的筛查具有一定的参考意义。采用数据平衡的方法进一步提高了模型的性能,减少过拟合风险;数据来自于一项前瞻性队列研究,对疾病因果关系更具有说服力。但本研究仅限于单中心,缺乏外部对照,尚不确定其泛化能力。未来可以通过多中心研究收集外部数据进行验证,同时可以纳入超声指标和生物标志物以提高模型预测性能。

所有作者声明无利益冲突。

参考文献

1 Ohuma EO,Moller AB,Bradley E,et al.National,regional,and global estimates of preterm birth in 2020,with trends from 2010:a systematic analysis.Lancet,2023,402:1261-1271.

2 Chen C,Zhang JW,Xia HW,et al.Preterm Birth in China Between 2015 and 2016.Am J Public Health,2019,109:1597-1604.

3 Perin J,Mulick A,Yeung D,et al.Global,regional,and national causes of under-5 mortality in 2000-19:an updated systematic analysis with implications for the Sustainable Development Goals.Lancet Child Adolesc Health,2022,6:106-115.

4 He C,Liu L,Chu Y,et al.National and subnational all-cause and cause-specific child mortality in China,1996-2015:a systematic analysis with implications for the Sustainable Development Goals.Lancet Glob Health,2017,5:e186-e197.

5 Luu TM,Katz SL,Leeson P,et al.Preterm birth:risk factor for early-onset chronic diseases.CMAJ,2016,188:736-746.

6 Crump C.Preterm birth and mortality in adulthood:a systematic review.J Perinatol,2020,40:833-843.

7 da Fonseca EB,Damião R,Moreira DA.Preterm birth prevention.Best Pract Res Clin Obstet Gynaecol,2020,69:40-49.

8 Pizzella S,El Helou N,Chubiz J,et al.Evolving cervical imaging technologies to predict preterm birth.Semin Immunopathol,2020,42:385-396.

9 Medley N,Poljak B,Mammarella S,et al.Clinical guidelines for prevention and management of preterm birth:a systematic review.BJOG,2018,125:1361-1369.

10 中华医学会妇产科学分会产科学组.早产临床防治指南(2024版).中华妇产科杂志,2024,59:257-269.

11 Li Y,Fu X,Guo X,et al.Maternal preterm birth prediction in the United States:a case-control database study.BMC Pediatr,2022,22:547.

12 汪琼,陈丹青,魏伊丽,等.早产风险预测模型研究.预防医学,2024,36:663-668.

13 Arabi Belaghi R,Beyene J,McDonald SD.Prediction of preterm birth in nulliparous women using logistic regression and machine learning.PLoS One,2021,16:e0252025.

14 Zhang Y,Lu S,Wu Y,et al.The Prediction of Preterm Birth Using Time-Series Technology-Based Machine Learning:Retrospective Cohort Study.JMIR Med Inform,2022,10:e33835.

15 Khan W,Zaki N,Ghenimi N,et al.Predicting preterm birth using explainable machine learning in a prospective cohort of nulliparous and multiparous pregnant women.PLoS One,2023,18:e0293925.

16 Leme D,de Oliveira C.Machine Learning Models to Predict Future Frailty in Community-Dwelling Middle-Aged and Older Adults:The ELSA Cohort Study.J Gerontol A Biol Sci Med Sci,2023,78:2176-2184.

17 Aponte-Hao S,Wong ST,Thandi M,et al.Machine learning for identification of frailty in Canadian primary care practices.Int J Popul Data Sci,2021,6:1650.

Machine learning model for predicting preterm birth

HE Ziyang, WANG Chen, ZHOU Yanzhi, YANG Lan.

Lanzhou University School of Public Health, Lanzhou 730000, China; Gansu Provincial Maternal and Child Care Hospital, Lanzhou 730000, China

[Abstract] Objective To screen the risk factors for preterm birth and construct a preterm birth prediction model based on general and clinical information which provide reference for preterm birth screening. Methods 10 524 pregnant women from Lanzhou birth cohort were selected as subjects, and the relevant data such as general characteristics, pregnancy history, newborn condition and maternal factors were selected. The research data set was randomly divided into a training set and a test set according to the ratio of 7∶3, and the risk factors of preterm birth were screened in the training set. The data of preterm and non-preterm birth in the training set were balanced, and three kinds of machine learning algorithms were used to build prediction models. The area under receiver operating characteristic curve (AUC), balance accuracy, sensitivity, specificity and geometric mean (G-mean) were selected for performance evaluation in the test set. Results 10 136 pregnant women were included in the study and 9 variables were included in the model training. The model using the data balancing method had better prediction performance, and the AUCs were 0.766(95%CI:0.736-0.796) and 0.759(95%CI:0.730-0.788), respectively. Conclusion This study initially screened out the risk factors of preterm birth, and improved the performance of the machine learning preterm birth prediction model with data balancing, which provided more references for the screening of preterm birth. In the future, it is necessary to conduct a multi-center study to further verify the model performance.

[Key words] preterm birth; machine learning; prediction model

【中图分类号】 R17

作者单位:730000 兰州,兰州大学公共卫生学院儿少卫生与妇幼保健学系(何子洋);甘肃省妇幼保健院感染控制办公室(周艳芝),科技发展部(杨兰,王称)

通信作者:杨兰(yanglan0608@126.com)

(收稿日期:2024-10-23)