高通量微阵列杂交技术和测序技术的快速发展,产生了大量的基因数据,生物信息迅速膨胀成为数据的海洋。为适应这种高通量基因表达数据的不断增长和人们共享数据的需要,各种数据库应用而生,其中,NCBI(national center for biotechno...高通量微阵列杂交技术和测序技术的快速发展,产生了大量的基因数据,生物信息迅速膨胀成为数据的海洋。为适应这种高通量基因表达数据的不断增长和人们共享数据的需要,各种数据库应用而生,其中,NCBI(national center for biotechnology information)的基因表达综合数据库(gene expression omnibus,GEO)是世界上最大的储存高通量分子丰度数据的公共数据库,用户可以提交、储存和检索多种形式的数据并免费使用。迄今为止,GEO已收录了300000个样本的数据,涉及16亿个基因表达丰度数据,涵盖500多种生物体,广泛覆盖各种生物学内容。GEO数据库操作简单,数据全面,免费共享的优势为后期数据挖掘和信息推广提供了良好的平台。文章概述了GEO数据库的结构、数据的提交、检索和其在分子生物学领域中的应用前景。登陆GEO数据库的网址为:http://www.ncbi.nlm.nih.gov/geo。展开更多
目的鉴定胆管癌(cholangiocarcinoma,CCA)甲基化与表达谱综合生物标志物,预测CCA患者预后。方法从癌症基因组图谱(The Cancer Genome Atlas,TCGA)下载33例CCA样本和8例正常样本基因组甲基化数据及临床信息表达谱数据,同时从基因表达综...目的鉴定胆管癌(cholangiocarcinoma,CCA)甲基化与表达谱综合生物标志物,预测CCA患者预后。方法从癌症基因组图谱(The Cancer Genome Atlas,TCGA)下载33例CCA样本和8例正常样本基因组甲基化数据及临床信息表达谱数据,同时从基因表达综合数据库(Gene Expression Omnibus,GEO)下载甲基化数据进行验证。鉴定差异甲基化基因(DMGs)与差异表达基因(DEGs)的交集基因,采用Cox比例风险回归模型鉴定甲基化生物标志物,并使用ROC曲线来评估该模型的性能。在验证组中对该模型进行验证,通过GO功能注释,探讨DNA甲基化标志物的生物学功能。结果通过对TCGA甲基化数据分析,共鉴定出600个差异甲基化基因和6876个差异表达基因,并从中筛选出与生存相关的2个甲基化基因(SOX9和FZD10),最终将SOX9和FZD10组合基因构建预后预测模型,作为CCA预后的生物标志物。ROC曲线下面积(AUC)为0.90。SOX9和FZD10组合生物标志物能够将CCA患者区分为高风险组和低风险组,低风险组患者总生存期明显高于高风险组(2.07年vs 0.92年)。多因素Cox回归分析表明,SOX9和FZD10组合生物标志物是CCA患者预后的独立预测因子。基因本体(GO)功能分析表明,SOX9和FZD10参与转录因子、转录调控、肿瘤蛋白多糖调节和干细胞的调控。结论本研究经过多组学分析,在TCGA数据中筛选出SOX9和FZD10基因组合的甲基化预后标志物,可以将CCA患者分为高风险组与低风险组,并且该组合基因是CCA独立的预后预测因子。展开更多
文摘高通量微阵列杂交技术和测序技术的快速发展,产生了大量的基因数据,生物信息迅速膨胀成为数据的海洋。为适应这种高通量基因表达数据的不断增长和人们共享数据的需要,各种数据库应用而生,其中,NCBI(national center for biotechnology information)的基因表达综合数据库(gene expression omnibus,GEO)是世界上最大的储存高通量分子丰度数据的公共数据库,用户可以提交、储存和检索多种形式的数据并免费使用。迄今为止,GEO已收录了300000个样本的数据,涉及16亿个基因表达丰度数据,涵盖500多种生物体,广泛覆盖各种生物学内容。GEO数据库操作简单,数据全面,免费共享的优势为后期数据挖掘和信息推广提供了良好的平台。文章概述了GEO数据库的结构、数据的提交、检索和其在分子生物学领域中的应用前景。登陆GEO数据库的网址为:http://www.ncbi.nlm.nih.gov/geo。