GEO

GEO数据库学习

Posted by CHY on January 11, 2020

GEO基本概念

  • GEO Platform (GPL) 芯片平台
  • GEO Sample (GSM) 样本的ID号
  • GEO Series (GSE) study的ID号
  • GEO Dataset (GDS) 数据集的ID号 一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS。而每个数据集都有着自己对应的芯片平台,就是GPL。

GEOquery下载数据

主要学习三个相关函数:getGEO/getGEOfile/getGEOSuppFiles

# 下载安装加载包
BiocManager::install("GEOquery")
library(GEOquery)

# getGEO函数
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件,返回的对象较为复杂
Table(gds858)  # 获得表达矩阵
Meta(gds858)   # 获得描述信息
eset <- GDS2eSet(gds858,do.log2 = TRUE) # 转变为expression set对象

# 下载GPL
gpl96 <- getGEO(‘GPL96’, destdir=“.”)  ##根据GPL号下载的是芯片设计的信息!
names(Meta(gpl96))
Table(gpl96)[1:10,1:4]
##下面这个就是芯片ID的基因注释信息
Table(gpl96)[1:10,c("ID","GB_LIST","Gene.Title","Gene.Symbol","Entrez.Gene")]

# 下载GSE
gse1009 <- getGEO(‘GSE1009’, destdir=“.”) ##根据GSE号下载数据,下载_series_matrix.txt.gz
处理函数有:geneNames/sampleNames/pData/exprs(这个是重点,对expression set 对象的操作函数)

## 下载cel原始文件
tmp=getGEOSuppFiles(GSE1009)
if (is.null(tmp)) {
  warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
}

参考链接

生信技能树