在 DNA 或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对 DNA 或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。这些保守的位点就称为“模体(motif)”。motif 最先是通过实验的方法发现的。motif 这个单词就是形容一种反复出现的模式,而序列 motif 往往是 DNA 上的反复出现的模式,并被假设拥有生物学功能。而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)。
在 motif 的分析中,根据分析的目的不同可以分为 4 类:
- motif discovery 根据 chip_seq 等数据获取到的 peak 序列,挖掘这些序列中存在的模式特征。
- Motif Enrichment 分析已知的 motif 在输入序列上的富集情况
- Motif Scanning 用于分析输入序列上可能的 motif 出现的位置
- Motif Comparison 用于比较不同 motif 之间的相似性
motif 富集分析
转录因子 motif 是一些很短的模序(~10bp),在大基因组里很容易出现随机比对,而且是以 position weight matrix (PWM)格式来呈现,说明它的可变性,因此研究 motif 有哪些 binding 区域是没有意义的,因为很难找到一个方法(阈值)来判断真正的比对和随机的比对。但是换个思路,如果做富集分析,那就稳了,给定一个指定的区域(promoter 或 enhancer 区域),根据统计学检验,我们很容易知道一个 motif 是否显著富集在这个区域(与背景区域相比),这就回答了一个很好的生物学问题:这个转录因子是否显著地结合到这片区域。