批次效应

数据整合分析过程中必须考虑的问题

Posted by CHY on January 15, 2020

基本概念

整合分析过程中最重要的就是关于批次效应的去除,常用的包括包括Combat方法、替代变量分析法、距离加权判别法和基于比值的方法等。文献提出combat方法是最好的去除基因表达谱数据集批次效应的方法.

数据整合分析有两种形式:元分析和数据合并

元分析:首先独立分析每个数据集,最后将它们的结果联合起来,获得多个研究结果的综合结论。

数据合并:首先将来自不同数据集的样本合并得到一个大的数据集,再对新合并的数据集进行分析。 它比元分析方法的优势主要在于通过分析合并后的大样本集获得的结果具有更高的统计显著性,推断结果更加严谨 但是需要开发有效的方法合并来自不同来源的样本集。

批次效应表示样品在不同批次中处理和测量产生的与试验期间记录的任何生物变异无关的技术差异。

批次效应去除方法

一般形式

平均中心法

平均中心方法是通过测量的基因表达值减去所以样品中该基因的均值来转化数据。 不同批次的基因表达值数据通过中心标准化调整,使样品中每个基因表达值的平均值变为0。

计算公式

Z-score方法

Z-score标准化方法是通过测量的基因表达值减去样品中该基因的均值再除以样品中每个基因的标准差来转化数据,不同批次的基因表达值数据,通过Z-score标准化方法调整,使每个基因表达值的均值变为0,标准差变为1。

计算公式

基于比值的方法

基于比值的方法是通过减去每个批次中参考样本的均值来调整不同批次的差异,如果每个批次有多个参考样品,则使用参考样品的几何平均值或算术平均值为参考。

计算公式

距离加权判别法

距离加权判别(DWD)法是一种对高维低样本量的数据进行两类判别的方法,该方法基于支持向量机(SVM)算法,认为每个批次的样品属于一个特定的分类,使用DWD作为分类算法ꎬ通过寻找两批次之间的最优超平面w×x + b=0,分离出不同批次的样品通过计算每个批次中所有样本到超平面的平均距离然后减去这个平面的法向量与平均距离的乘积ꎬ得到调整后的数据。

计算公式

ComBat方法

ComBat方法是一种基于经验贝叶斯方法去除批量效应的方法,尤其对小样本数据更加有效,ComBat方法基于估计参数的先验分布为每个基因独立估算每个批次的均值和方差并进行调整。

计算公式

改进ComBat方法

改进的ComBat法(M-ComBat)是将总体样本的平均值和方差转换为“金标准”参考批次的平均值和方差。

计算公式

基于奇异值分解的方法

基于奇异值分解(SVD)方法是通过对输入的基因表达值矩阵进行矩阵分解去除与批次效应相关的因子并对矩阵进行重构。

批次效应去除效果评估

基因表达数据箱线图通过5个样品参数(极大、小值,中位数,上、下四分位数)表示出样本总体分布情况ꎬ根据箱线图的分布情况判断调整方法的有效性,箱线图分布越靠近调整效果越好。

通过估计不同批次基因表达值的密度分布绘制基因表达分布密度图,根据概率密度函数图的重叠情况判断调整方法的有效性ꎬ密度曲线重叠程度越高表示调整效果越好。

通过对不同批次数据分层聚类获得树状图

对基因表达矩阵进行对数转化,计算每个基因的对数表达值及其中值,计算每个样品中每个基因的对数表达值与中值的偏差,根据偏差值绘制相对对数表达图

参考链接

基因表达数据批次效应去除方法的研究进展