对于一些非模式物种,尤其是对于植物领域的研究来说,在没有很好的注释等背景信息的提供,对于生信相关的研究也是很为难的。所以在此记录一下,目前存在的多种方法用于探究物种间的同源基因分析。
第一种:biomart
https://www.ensembl.info/2009/01/21/how-to-get-all-the-orthologous-genes-between-two-species/
biomart库中提供了一些主要物种间的同源基因信息,可以根据自己的需求对应下载,查看链接中的博客即可。
第二种:orthofinder
OrthoFinder
OrthoFinder的分析步骤:
- BLAST all-vs-all搜索。使用BLASTP以evalue=10e-3进行搜索,寻找潜在的同源基因。(除了BLAST, 还可以选择DIAMOND和MMSeq2)
- 基于基因长度和系统发育距离对BLAST bit得分进行标准化。
- 使用RBNHs确定同源组序列性相似度的阈值
- 构建直系同源组图(orthogroup graph),用作MCL的输入
- 使用MCL对基因进行聚类,划分直系同源组
OrthoFinder2在OrthoFinder的基础上增加了物种系统发育树的构建:
- 为每个直系同源组构建基因系统发育树
- 使用STAG算法从无根基因树上构建无根物种树
- 使用STRIDE算法构建有根物种树
- 有根物种树进一步辅助构建有根基因树
orthofinder -f ExampleData -S mmseqs
# -f 指定文件夹
# -S 指定序列搜索程序,有blast, mmseqs, blast_gz, diamond可用