GEO基本概念
- GEO Platform (GPL) 芯片平台
- GEO Sample (GSM) 样本的ID号
- GEO Series (GSE) study的ID号
- GEO Dataset (GDS) 数据集的ID号 一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS。而每个数据集都有着自己对应的芯片平台,就是GPL。
GEOquery下载数据
主要学习三个相关函数:getGEO/getGEOfile/getGEOSuppFiles
# 下载安装加载包
BiocManager::install("GEOquery")
library(GEOquery)
# getGEO函数
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件,返回的对象较为复杂
Table(gds858) # 获得表达矩阵
Meta(gds858) # 获得描述信息
eset <- GDS2eSet(gds858,do.log2 = TRUE) # 转变为expression set对象
# 下载GPL
gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根据GPL号下载的是芯片设计的信息!
names(Meta(gpl96))
Table(gpl96)[1:10,1:4]
##下面这个就是芯片ID的基因注释信息
Table(gpl96)[1:10,c("ID","GB_LIST","Gene.Title","Gene.Symbol","Entrez.Gene")]
# 下载GSE
gse1009 <- getGEO(‘GSE1009’, destdir=“.”) ##根据GSE号下载数据,下载_series_matrix.txt.gz
处理函数有:geneNames/sampleNames/pData/exprs(这个是重点,对expression set 对象的操作函数)
## 下载cel原始文件
tmp=getGEOSuppFiles(GSE1009)
if (is.null(tmp)) {
warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
}