8 年
手机商铺
公司新闻/正文
10065 人阅读发布时间:2025-03-04 16:21
其实,代谢组学数据处理主要包括2个步骤:原始数据预处理和数据分析。
1 原始数据预处理
确保实验的设计合理和实验的数据准确的基础上,首先从质谱原始数据出发,进行峰对齐、保留时间校正和峰面积提取;其次,采用精确质量数匹配(<25 ppm)和二级谱图匹配的方式,检索METLIN数据库和 HMDB 数据库对代谢物结构进行鉴定;接着,删除缺失值均大于50%的离子峰;最后,对代谢物的表达量进行对数转换并采用autoscaling或UV法进行归一化处理。下图是数据经归一化处理前后的分布情况,结果表明数据经归一化处理后基本呈正态分布。

2 数据分析
2.1主成分分析
主成分分析(Principal Component Analysis, PCA)是将鉴定到的所有代谢物重新进行线性组合,形成一组新的综合变量,同时根据所分析的问题通常从中选取2-3个综合变量,使它们尽可能多地反映原有变量的信息,从而达到降维的目的。同时,对代谢物进行主成分分析还能从总体上反映组间和组内的变异度。采用PCA的方法观察所有样本之间的总体分布趋势,找出可能存在的离散点。下图是所有样本的 PCA 得分图,在PC1和PC2维图上比较的三组间有明显的分离趋势,表明这三个比较组代谢谱发生了明显变化。

2.2 偏最小二乘判别分析或正交偏最小二乘判别分析
偏最小二乘判别分析(Partial Least Squares Discrimination Analysis, PLS-DA)或正交偏最小二乘判别分析(Orthogonal Partial Least Squares Discrimination Analysis,OPLS-DA)是一种有监督的判别分析统计方法。其运用PLS-DA或OPLS-DA建立代谢物表达量与样品类别之间的关系模型,从而实现对样品类别的预测;同时,通过计算变量投影重要度(Variable Importance for the Projection, VIP)来衡量各代谢物的表达模式对各样本分类判别的影响强度和解释能力,从而辅助筛选标志代谢物(通常以VIP score > 1.0作为筛选标准)。
分别建立三个比较组的PLS-DA模型(图3)或OPLS-DA模型(图4)。其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,理论上R2和Q2值越接近1说明模型越好,越低说明模型的拟合准确性越差,通常情况下,R2和Q2高于0.5较好,高于0.4即可接受,且两者差值不宜过大。临床样本由于个体间差异大且不可控,尤其大样本时,R2和Q2大小为0.2左右亦可。从下图中可以看出,各比较组之间具有明显的分离趋势,说明PLS-DA模型或OPLS-DA模型能够将各比较组进行很好的区分。

2.3 火山图
火山图(Volcano Plot)是一种单变量分析方法,能够简单直观的反映各个样本间所有代谢物的表达水平差异和显著性,从而帮助我们筛选出潜在的标志代谢物(通常以FC > 2.0且 P value < 0.05作为筛选标准)。下图是火山图, FC(Fold Change)是各个样本间表达量的比值,即差异倍数,横坐标为log2(FC),可以将差异特别大的和差异比较小的数值之间的缩小差距。FDR(False Discovery Rate)是错误发现率,能够反映FC是否具有统计学差异。图中绿色点和红色点都是 FC > 2.0且P value < 0.05的代谢物,即显著性差异代谢物,黑色点为非差异代谢物。

2.4 差异代谢物聚类分析
下图是将显著性差异代谢物的表达量与各个样本进行层次聚类(Hierarchical Clustering)分析,我们可以全面直观地观察到四个样本(PG、L、M和SO)之间的关系以及各个代谢物在不同的样本中表达量和表达模式之间的差异。一般地,当筛选的代谢物合理且准确时,同组样本能够通过聚类出现在同一簇(Cluster)中;同时,聚在同一簇内的代谢物具有相似的表达模式,可能在代谢过程中反应步骤较为接近。图中红色代表上调的代谢物,绿色代表下调的代谢物,而且颜色越深说明差异性越显著。

2.5 差异代谢物KEGG代谢通路分析
KEGG是一个整合了化合物、酶、代谢网络以及基因的综合性数据库,其利用图形简洁直观的展示各种代谢途径以及各个途径的相互关系。我们可以利用KEGG数据库找到与所分析问题相关的代谢通路、代谢物、以及各代谢物之间的作用关系,然后根据自身实验的需要选取某个代谢途径或者代谢物,重新做一张差异代谢物之间的通路图,从而辅助我们解释代谢物表达量发生改变的原因(图7)。
