课题组每周研讨会
1.GEO:芯片数据的代表(动物)
2.回归最初的问题:为什么要进行数据分析?
3.几个核心概念:
3.1 表达矩阵
3.2差异分析
图中是利用PCA之后的聚类图。
Dim1~Dim2分别是指主成分1和主成分2,Dim1代表解释数据变化趋势最多的主成分,Dim2则是解释变化趋势第二多的主成分。 括号内的百分比则是代表了不同主成分所能解释数据变化趋势的比例。 中心位置的大点代表该组的位置。 一个点是一个sample,点距离代表相似性(差异)。
logFC&P.value log2(treat/control)=log2(treat)-log2(control)
通常所说的上、下调基因是指 基因表达量显著上、下调的基因:
上调基因:logFC>1, P.Value<0.01
下调基因:logFC<-1, P.Value<0.01
3.3 富集分析
通过将差异基因做GO富集分析,可以把基因按照不同的功能进行归类,达到对基因 注释和分类 的目的。
options("repos"="http://mirrors.ustc.edu.cn/CRAN/")
if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F)
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
cran_packages <- c('tidyr',
'tibble',
'dplyr',
'stringr',
'ggplot2',
'ggpubr',
'factoextra',
'FactoMineR',
'devtools')
Biocductor_packages <- c('GEOquery',
'hgu133plus2.db',
"KEGG.db",
"limma",
"impute",
"GSEABase",
"GSVA",
"clusterProfiler",
"org.Hs.eg.db",
"preprocessCore",
"hugene10sttranscriptcluster.db",
"enrichplot",
"ggplotify")
for (pkg in cran_packages){
if (! require(pkg,character.only=T) ) {
install.packages(pkg,ask = F,update = F)
require(pkg,character.only=T)
}
}
for (pkg in Biocductor_packages){
if (! require(pkg,character.only=T) ) {
BiocManager::install(pkg,ask = F,update = F)
require(pkg,character.only=T)
}
}
for (pkg in c(Biocductor_packages,cran_packages)){
require(pkg,character.only=T)
}
devtools::install_local("./AnnoProbe-master.zip",upgrade = F)
library(AnnoProbe)