用GEOquery从GEO数据信息库免费下载数据信息

2021-02-04 09:23 admin

Gene Expression Omnibus database (GEO)是由NCBI承担维护保养的一数量据库,设计方案初心是以便搜集梳理各种各样表述集成ic数据信息,可是之后也添加了甲基化集成ic,乃至高通量测序测序数据信息!


GEO数据信息库基本专业知识

GEO Platform (GPL) 集成ic服务平台

GEO Sample (GSM) 样版ID号

GEO Series (GSE) study的ID号

GEO Dataset (GDS) 数据信息集的ID号 ## 使用方法


getGEO/getGEOfile/getGEOSuppFiles

这三个涵数依据上边的四种ID号免费下载数据信息情况下,回到的目标还不一样!

最先是免费下载和载入包:
 source( biocLite.R )
 biocLite( GEOquery )
 library(GEOquery)

gds858 - getGEO(‘GDS858’, destdir=“.”) ##依据GDS号来免费下载数据信息,免费下载soft文档

gpl96 - getGEO(‘GPL96’, destdir=“.”) ##依据GPL号免费下载的是集成ic设计方案的信息内容!

gse1009 - getGEO(‘GSE1009’, destdir=“.”)##依据GSE号免费下载数据信息,免费下载_series_matrix.txt.gz

免费下载的文档都是储存在当地,destdir主要参数特定免费下载详细地址。

也有许多其他主要参数能够调节,学一个涵数只必须看一下它的协助就可以。

较为关键的三个主要参数是:GSEMatrix=TRUE,AnnotGPL=FALSE,getGPL=TRUE

回到的目标不一样!对于回到目标的方式都不一样!

免费下载GDS回到的目标

gds858回到的目标很繁杂

用Table(gds858)能够获得表述引流矩阵!

用Meta(gds858)能够获得叙述信息内容

options(warn=-1)
suppressMessages(library(GEOquery))
gds858 - getGEO('GDS858', destdir= . )
names(Meta(gds858))
Table(gds858)[1:5,1:5]

随后还能够用 GDS2eSet涵数把它变化为expression set 目标

eset - GDS2eSet(gds858, do.log2=TRUE)


也便是立即依据GSE号回到的目标:gse1009

大家的解决涵数有:geneNames/sampleNames/pData/exprs(这一是关键,对expression set 目标的实际操作涵数)


可是依据GPL号免费下载回到的目标跟GDS一样,也是用Table/Meta解决!

options(warn=-1)
suppressMessages(library(GEOquery))
gpl96 - getGEO('GPL96', destdir= . )
names(Meta(gpl96))
Table(gpl96)[1:10,1:4]
##下边这一便是集成icID的遗传基因注解信息内容
Table(gpl96)[1:10,c( ID , GB_LIST , Gene.Title , Gene.Symbol , Entrez.Gene )]

getGEO除开能够免费下载数据信息,还能够开启当地数据信息!

gds858 - getGEO(filename=‘GDS858.soft.gz’)


if (is.null(tmp)) { warning( Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n ) }