用来分析的公开的数据库_价格适中的开放数据集

随着大量研究工作用来分析的公开的数据库的完成,尤其是千人基因组计划、癌症基因组图谱计划等大规模、高通量测序工作的完成,每年有大量的测序数据产出,精准医疗是在大样本、海量数据的基础上进行研究和分析,最终实现精准预防、精准诊断和精准治疗的目标。因此,面对海量的生物医学数据,已经有一批优质的生物医学和精准医疗知识库被整合和构建。这些数据库可以帮助科研人员和医生全面获取各类生物医学文本信息和组学数据,为研究和临床决策提供充分的依据。

用来分析的公开的数据库

代谢组学分析流程

1.在线人类孟德尔遗传数据库

在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man,OMIM)是1987年建立的基于人类孟德尔遗传学(Mendelian Inheritance in Man),将现今所知的遗传病与相应的基因和临床信息联系起来的数据库。该数据库主要由约翰斯·霍普金斯大学维护更新。OMIM一直保持着稳定的更新速度,数据来源于目前发表或将要发表的生物、医学文献,相关的文章经过鉴定、讨论,编写在数据库内成为相关的条目。此数据库虽然只提供一些关于基因、临床的基本信息,但是其内嵌有相关基因组、DNA、蛋白质、临床、突变、动物模型、细胞系、通路等数据库的链接,可以让浏览者随时跳转获得更详细的数据。

2.基因型和表型数据库

基因型和表型数据库(Database of Genotypes and Phenotypes,dbGaP)是美国NIH 赞助的用于归档、精选和发布由调查基因型和表型间相互作用的研究所产生的信息的数据仓库。dbGaP中的信息是以层次结构组织的,包含登记的主体、表型(作为变量和数据集)、各种分子实验数据(SNP和表达阵列数据、序列和表观基因组标记)、分析和记录。有关提交研究的公开可访问的元数据、摘要水平数据和与研究相关的文档能够在dbGaP网站免费访问,来自全世界的科学家能够通过受控访问应用访问个体水平数据。

3.人类染色体不平衡和表型数据库

许多患有罕见病的患者基因组中存在基因变异,包括序列变异或者拷贝数变异(copy number variation,CNV)等,这些变异影响基因的表达而导致疾病,然而许多变异是全新的或者罕见的,这使得临床解释存在困难,并且基因型、表型关联存在不确定性。使用Ensembl资源的人类染色体不平衡和表型数据库(Database of Chromosomal Imbalance and Phenotype in Humans using Ensemble Resource,DECIPHER)是一个基于网络的交互式数据库,并整合了一系列的工具来帮助基因变异的解析。用户可以通过检索与患者变异相关的生物信息学资源信息加强临床诊断,并且在对应基因座同时展示正常变异和致病变异,以便于揭示报告。

4.癌症基因数据库

癌症基因数据库(Cancer Genome Anatomy Project,CGAP)是美国国家癌症研究所于1996 年发起并建立和主持的交叉学科的数据库,主要收集了正常组织、癌前组织及癌细胞的基因表达水平,用来提高癌症的检测、诊断水平及改善病患治疗情况。CGAP共分为5个部分用来分析的公开的数据库:人类肿瘤基因索引(Human Tumor Gene Index,hTGI),指明了在人类肿瘤发生过程中的基因表达;分子表达谱(Molecular Profile,MP),展示了从分子水平分析人类组织样品的概念;癌症染色体变异计划(CancerChromosome Aberration Project,CCAP),描述了肿瘤转移相关的染色体改变;遗传注解索引(Genetic Annotation Index,GAI),指明和描述了同种癌症相关的多态性;小鼠肿瘤基因索引(Mouse Tumor Gene Index,mTGI),确定了在小鼠肿瘤发生过程中的基因表达。

5.癌症体细胞突变目录

癌症体细胞突变目录(Catalogue of Somatic Mutation in Cancer,COSMIC)是Sanger 研究所建立的全球最大、最全面的关于肿瘤体细胞突变及其影响的数据库,截至2019年9月发布的v90 版本,该数据库共发布了超过140万个肿瘤样本中9 733 455个编码区突变、12 099 101个非编码区突变、19 396个基因融合事件、1 207 190个拷贝数变异等,涵盖了基因组绝大部分与肿瘤相关的变异信息。COSMIC收集的信息均是通过科学文献手工编审的,有着非常精确的疾病类型定义和患者细节信息,还对所有的体细胞突变在人类基因组和每个受影响的编码基因中都进行了注释,并且和疾病类型关联。

6.人类肿瘤驱动基因数据库

人类肿瘤驱动基因数据库(Database for Human Cancer Drive Gene Research,DriverDB)是由我国台北振兴医院小儿麻痹科于2013年牵头建立的,收集了超过6000例外显子测序数据及注释数据库和专用于驱动基因或突变识别的公开生物信息算法,该数据库主要从“肿瘤”(Cancer)和“基因”(Gene)两个角度,帮助研究人员设想癌症和驱动基因或突变之间的关系。“Cancer”部分为针对具体癌症类型总结的驱动基因的计算结果,“Gene”部分从多层面描述一个基因的突变信息。

7.人类基因突变数据库

人类基因突变数据库(Human Gene Mutation Database,HGMD)是从1996年开始,由英国卡迪夫大学医学遗传研究所维护的关于人类生殖系突变数据的数据库,这些突变数据构成了人类遗传病的基础或者与人类遗传病相关。目前HGMD 中所有的突变共分为以下几类:致病突变(disease-causing mutation)、可能的病理突变(probable/possible pathological mutation)、功能基因多态性(functional polymorphi *** s)、带功能证据的疾病相关多态性(disease-associated polymorphi *** s with supporting functional evidence)和移码或截断变异(frameshiftor truncating variant)。HGMD主要分为公开和专业两个版本,其中公开版本向研究机构和非营利性机构的注册用户免费开放,而专业版本向商业或营利性机构开放,需要付费订阅。

8.人类单核苷酸多态性数据库

人类单核苷酸多态性数据库(Single Nucleotide Polymorphi *** Database,dbSNP ) 是1998年由美国国家生物技术信息中心( National Center for Biotechnology Information,NCBI)和国家人类基因组研究所(National Human Genome Research Institute,NHGRI)联合建立的包含群体序列变异的数据库。该数据库将核苷酸序列的变异分为单碱基多态性、小的插入或缺失多态性、序列不变区域、微卫星重复、命名的变异和未知的杂合位点共6类,其中单碱基替换占据的比例最大,为99.77%。dbSNP 不只包含引起疾病的临床突变,也包含中性的多态性,并且dbSNP 并不仅有人类的SNP 数据,也包含其他物种,但是从2017年9月1日起,dbSNP不再接受非人类的变异数据。

9.序列变异与人类表型关系公共档案数据库

序列变异与人类表型关系公共档案(ClinVar)数据库是2012年美国NIH建立的将变异、临床表型、实证数据及功能注解与分析4个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库。它深度整合了多个数据库,包括在变异信息中整合了dbSNP 与染色体结构变异数据库(dbVar),在表型信息中由MedGen 获得表型描述等。ClinVar数据库中所收录的变异与表型之间的关系一般是通过临床试验或者研究文献编审的,包含全基因组关联分析(genome-wide association study,GWAS)中被确定的变异且已被编审,并且提供的临床意义解释也被收录其中,总之ClinVar数据库为疾病临床表型与基因型的研究提供了重要的研究基础。

用来分析的公开的数据库

摘自:信息化与精准医疗研究丛书

《面向精准医疗的多组学研究》

赵杰 杨梅佳 张旭 王琳琳 编著

《面向精准医疗的多组学研究》

¥58

加入购物车

用来分析的公开的数据库内容简介

精准医疗是医学发展的客观必然,基于多种组学数据,能够更透彻地理解疾病,更精准地指导疾病诊断与个性化治疗。本书不但对多组学的基础和研究技术进行了阐述,总结了现有临床和科研上的主要成果;也从数据处理的角度出发,详细阐述了各组学的数据处理过程及相关软件,分析总结了现有多组学数据整理利用的 *** 和成果。

本书适宜临床医学、生物学、检验医学等领域从业人员参考使用。

用来分析的公开的数据库

科学出版社赛医学(sci_med)

科学出版社医药卫生分社订阅号

发布于 2024-07-23 21:07:45
收藏
分享
海报
0 条评论
32
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~