一、增加ABI-377自动测序仪测序长度的改进措施(论文文献综述)
赵胜[1](2021)在《AIO-seq高通量测序技术开发及玉米NAM群体遗传特性和株型性状QTL定位研究》文中研究表明新一代测序技术(Next Generation Sequencing,NGS)的发展和测序成本的下降,使得其在全基因组基因型检测(Whole Genome Genotyping,WGG)中得到了广泛应用。然而,与测序数据产量的稳步提升相比,测序文库的制备流程仍然效率较低,导致在目前的WGG应用中,文库构建成本远远高于测序成本,尤其是其中耗时且费力的文库片段分选和定量步骤,已成为涉及大样本项目文库制备的瓶颈。针对这一技术难题,我们开展研究,获得的主要结果如下:(1)开发了All-In-One sequencing(AIO-seq)高通量测序技术:将传统文库制备中每个文库都需进行片段分选及定量的繁琐流程,替换为按照每个文库的靶区域浓度(Target Region Concentration,TRC)及预期的数据产出预先将所有文库混合在一起、而后只进行单次片段分选及定量的高效操作;(2)利用AIO-seq测序技术对少量样本混合后的文库进行小数据量测序,以及多样本混合后的文库进行包Lane测序,都可以获得预期的测序数据产出;(3)AIO-seq测序技术可以用于基因组和转录组文库测序,获得预期各样本间相等或不等的测序数据产出;(4)利用简化的AIO-seq测序技术对一个玉米BC1F4群体进行WGG,共鉴定到19个株型性状相关的QTLs,其中部分QTLs含已知的功能基因。AIO-seq测序技术提高了测序文库的制备效率,降低了文库制备成本,在群体遗传学以及植物育种等相关项目中有重要的应用前景。玉米(Zea mays)作为一种重要的生物能源和粮食作物,在世界范围内广泛种植。在构成玉米株型的主要因素中,叶夹角(Leaf Angle,LA)、株高(Plant Height,PH)和穗位(Ear Height,EH)的变化,会对玉米最终的产量产生重要影响。虽然前人已利用不同的分离群体,对控制这三个性状的遗传机制展开研究,但玉米株型调控的复杂机理仍未被完全解析。本研究利用一个新的玉米巢式关联作图群体(HNAU-NAM1)及其全基因组基因型数据(玉米9.4K芯片和百万来源于亲本的SNP标记),通过单个亚群的连锁分析(Separate Linkage Mapping,SLM)、整合的连锁定位(Joint Linkage Mapping,JLM)以及全基因组关联分析(Genome-Wide Association Study,GWAS)三种QTL定位方法,分别对LA、PH以及EH三个株型性状进行全面而深入的遗传解析,获得的主要结果如下:(1)对由13个亲本杂交而成、包含1,625个BC1F4或BC2F4株系的玉米HNAU-NAM1群体进行了进化树分析、表型变异分析、主成分分析(Principal Component Analysis,PCA)以及连锁不平衡(Linkage Disequilibrium,LD)分析,结果显示HNAU-NAM1群体的亲本和所有株系都表现出了明显的差异,且内部群体结构微弱、LD衰减距离小,表明HNAU-NAM1群体可以用于LA、PH和EH三个性状的遗传解析;(2)在全基因组范围内:借助SLM定位方法,共鉴定到41、31和26个分别控制LA、PH和EH的QTLs;基于JLM定位方法,共鉴定到84、78和88个分别控制LA、PH和EH的QTLs;通过GWAS定位方法,共鉴定到22、23和18个分别与LA、PH和EH显着关联的SNPs;此外,每个株型性状的三种定位结果间都存在部分重叠;(3)全基因组上共鉴定到10个可同时影响LA、PH和EH的QTL热点区域,且每个区域内控制某一个株型性状的QTLs可至少被两种定位方法检测到;(4)13个可同时被三种定位方法检测到的主效QTLs区间内,结合每种方法的定位区间及区间内基因功能注释,预测了潜在的候选基因:含4个已知功能的基因,和8个新基因。本研究对玉米HNAU-NAM1群体的群体结构及LD水平等遗传特性进行了深入评估,并全面解析了控制玉米株型性状的遗传基础,这不仅为玉米遗传学及功能基因组学研究提供了新的群体资源,而且加深了我们对株型复杂调控网络的认识,为后期玉米理想株型的培育及高产、耐密植新品种的分子选育奠定了理论基础。
周娟[2](2020)在《高通量测序捕获建库技术研发及其在复杂疾病分子遗传学研究中的应用》文中研究表明近年来,高通量测序技术迅猛发展,积累了大量复杂疾病相关的基因组、转录组测序数据,极大促进了疾病分子遗传学研究的发展。高通量测序技术在早期促进了孟德尔疾病新基因的发现,随后又发现大量神经发育障碍归因于基因编码区的新生突变,同时,随着乳腺癌、结直肠癌、急性髓细胞性白血病等癌症基因突变图谱的测定,揭示了癌症高度的遗传异质性和复杂的分子致病通路,并有效地定义了癌症的分子分类学。随着高通量测序技术通量的提高和成本的降低,其在科研和临床中的应用已非常广泛,特别是在复杂疾病候选基因的鉴定、胎儿染色体非整倍体的无创产前诊断、癌症的诊断、监测和精准医疗中都发挥着越来越重要的作用。但值得注意的是,高通量测序技术在实际应用中仍然存在一系列的问题,如:(1)样本的文库转化效率较低以致其灵敏度难以满足微量低丰度样本的检测需求;(2)样本处理过程复杂,构建上机文库需要耗费大量时间、人力和物力;(3)目前,高通量测序平台的测序错误率达到1%~5%,导致高异质性样本中,突变频率低于5%的变异与测序错误混杂在一起,难以特异性检出,这就需要开发操作更简单、通量、灵敏度和特异性都更高的测序方法。因此,本课题针对高通量测序目前面临的难点和痛点,对最常用的两种高通量靶向捕获建库测序技术,基于扩增子和基于液相杂交的靶向建库测序技术,进行深入的探索和优化:简化扩增子靶向测序的样本处理操作步骤,从而使其在大样本研究中的应用更为可行;提高液相杂交捕获分子标签文库构建的样本文库转化效率,从而提高检测的灵敏度和特异性;并将改进优化后的方案应用在具有代表性的复杂疾病——精神分裂症易感基因和胆道恶性肿瘤微量循环肿瘤DNA检测分析中。精神分裂症是一种代表性的复杂疾病,尽管其遗传度高达80%,且已取得大量基因组水平的遗传易感基因或区域结果,但依然鲜有通过高通量测序对功能致病变异实现高通量精细定位的报道,其主要的原因就在于全面开展全基因组测序的成本依然难以被接受,且测序文库构建流程较为复杂,难以一次性大批量处理样本。本课题的第二部分,作者自主创新了两步PCR多重扩增捕获建库技术,可以简单高效地对感兴趣的基因区域进行快速富集和建库,从而完成对精神分裂症候选基因功能位点的定位分析。该方法仅一次使用PCR酶,即可完成两次PCR扩增,中间和最终的磁珠纯化步骤被简化,节省成本的同时,操作更为简单,大大提高了建库通量,从而使其在大样本研究中的应用更为方便可行。随后作者运用自主创新的捕获建库方法对来自中国汉族的1806名精神分裂症患者和998名健康对照的EMB和BNIP3L基因外显子及UTR区域进行高通量测序。结果在病例组和对照组中,共鉴定到EMB基因的58个变异和BNIP3L基因的114个变异。其中包含EMB基因的七个及BNIP3L基因的三个罕见非同义突变,EMB:p.Ala52Thr、p.Glu66Gly、p.Ser93Cys、p.Ala118Val、p.Ile131Met、p.Gly163Arg和p.Arg238Tyr以及BNIP3L(NP_004322):p.Asn18Asp、p.Gly56Glu和p.Met105Leu。BNIP3L基因上发现的三个罕见非同义突变,均只在精神分裂症病例组中检出,且携带这些变异的精神分裂症患者人数与健康对照人数之间存在显着差异(P=0.035)。此外还发现,位于EMB基因3’-UTR的rs3933097(Pallele=3.82×10-6,Pgenotype=3.18×10-5),及BNIP3L基因的rs147389989位点(Pallele=0.007,Pgenotype=0.017)的等位基因和基因型频率均与精神分裂症显着相关。利用PGC2,CLOZUK和本研究的数据进行荟萃分析发现,BNIP3L基因的rs1042992和rs17310286位点,与精神分裂症显着相关,进一步验证了既往的全基因组关联研究结果。一方面,本研究为EMB和BNIP3L基因是精神分裂症的易感基因提供了更多证据,另一方面本课题首次通过高通量靶向捕获测序发现了这两个基因上潜在导致精神分裂症发生的功能突变,为后续进一步通过功能实验来揭示其在精神分裂症发病过程中的具体作用机制奠定了重要基础。除精神类疾病外,癌症是另一类重要的代表性复杂疾病。高通量测序技术的发展和成本的降低,为癌症的早期筛查、病程监控、精准医疗等开辟了新途径。特别是血浆中循环肿瘤DNA的无创检测,近年来越来越受到关注,目前已有相关试剂盒被批准应用于肺癌的临床检测。而胆道恶性肿瘤微量循环肿瘤DNA测序的工作比肺癌更困难,始终没有突破,这主要是源于此前高通量测序技术样本文库转化效率、灵敏度和特异性低的困境。为了解决这一难题,本课题第三部分,作者对基于液相杂交捕获的双端分子标签建库测序技术进行了改进,优化了分子标签接头的制备方案及高通量测序建库过程中的连接体系,将样本的文库转化率从不足50%提高至95%以上,加之分子标签的校正功能,从而大幅提高了高通量测序技术的灵敏度和特异性,对30 ng样本中,频率为0.5%的变异位点,检测灵敏度达到100%,假阳性率仅为0.001%。同时,作者收集了51例胆道恶性肿瘤患者的血细胞、肿瘤组织进行全外显子测序,对应患者的术前血浆、术后三天血浆中的游离DNA应用本研究改进优化的捕获建库方法,进行分子标签建库和胆道恶性肿瘤相关基因的液相杂交捕获测序。结果发现,超过60%的患者,术前血浆游离DNA的变异情况与肿瘤组织存在一致性,50%的肿瘤组织变异在术前血浆中可以被检出。不同个体肿瘤组织和血浆游离DNA检测结果的一致性受到肿瘤发生部位、肿瘤分期的影响,一般肝内胆管癌、胆囊癌及以晚期患者的一致性较高。术后三天的血浆游离DNA浓度应激性增高,多数肿瘤组织中的变异在术后血浆中检出频率明显下降或清零,且术后血浆中循环肿瘤DNA的检出(P=0.0395,HR=6.315)特别是TP53基因变异(P=0.0101,HR=25.79)的检出,与患者短期复发和预后不良相关。上述的科学发现均属首次,此前未见文献报道,这些发现使本研究的临床合作者有机会开展转化应用的研究工作。本课题在作者的博士工作期间已经取得了上述重要进展,而且已经进一步获得了大量测序实验数据,对这些数据进一步挖掘、收集检测更多具有完整临床资料的样本、进一步验证目前得到的结论等工作都将延续博士论文研究继续开展。本课题通过对高通量测序技术深入的探讨、优化和应用,验证了两种复杂疾病,精神分裂症和胆道恶性肿瘤的遗传致病基因,提出了胆道恶性肿瘤无创检测准确可行的新方法,并找到了其预后评估的新依据。
王水介[3](2020)在《基于学习的第三代测序一致性序列生成》文中指出继人类基因组计划开展以来,基因测序已经广泛影响了生命科学的研究方式,各模式物种基因组在全球实验室不断被测定分析。近年来随着基因组测序数据通量的提升和成本的下降,这已成为生物医学领域的常规手段。目前以太平洋生物科技公司以及牛津纳米孔技术公司长读长测序为代表的第三代测序技术可以产生足够长度的测序片段,极大推动了基因组组装、变异检测等分析领域的发展。然而第三代测序序列具有极高的错误率(~15%),影响了分析结果的精度,局限了其在医学研究和临床诊断中的应用。因此科学家致力于开发出更高效的分析方法,以打破这种限制。基因组组装是从大量随机测序获得的短片段重建出几M甚至上百M基因组长序列的过程,最终目标是生成完整、准确的一致性序列。第三代测序技术的应用极大提高了基因组一致性序列的完整性,但测序的高错误率却限制了其准确性。尤其是在组装重复序列以及单倍型时,获得高质量且准确的一致性序列仍存在挑战。生成一致性序列的关键在于获得准确的多序列比对结果,考虑到第三代测序序列长读长、高错误率及高通量的特点,需要资源密集型的序列纠错以及一致性序列生成的步骤来获得高质量的组装结果。本研究提出了包含深度学习和强化学习方法的多序列比对及一致性序列生成模型,不仅可以提升比对的结果,同时也能得到准确率更高的基因一致性序列,本论文主要进行了以下三项研究工作:(1)提出基于强化学习的方法对基因数据的比对进行调整,采用异步的优势演员评论家算法进行比对策略的学习。目前主流的多序列比对方法仍存在较大不足,因此希望通过有效的策略进行比对决策使其结果得到提升。(2)提出好奇心奖励,解决多序列比对问题中累计回报较少的问题,对结果进行进一步的调整,使其不仅在评价指标上有更好的结果,而且更加接近生物学实际意义、即更符合基因序列的结构特征。(3)引入深度学习的方法提取多序列比对结果的结构特征,结合不同通量序列数据的特点,生成准确率更高的一致性序列。针对低乘数的数据依然可以保持优秀的准确率,并且无需读取测序时的质量值,也不用一次读取超长序列,可以更加灵活地处理小的数据块。
张誉庆[4](2020)在《纳米孔测序数据分析方法研究》文中指出DNA是人类及所有生命的天然说明书。自DNA的遗传物质地位被确立后,人类便开展了一系列基因组测序工作。基因测序技术在众多领域都有其用武之地,例如有助于精准医疗的实现、改良农作物、身份鉴定、治愈肿瘤和癌症等。可见,基因测序的研究和发展具有十份重大的意义。从20世纪70年代第一代测序技术脱氧链终止法的问世,到更为精准的第二代高通量测序,再到以纳米孔测序为代表的第三代单分子测序。基因测序技术在岁月流逝中日渐成熟,日臻完善。最新的纳米孔测序技术通过电流信号识别碱基序列,具有低成本、速度快、易携带、实时性、读长长等众多优点。但由于采用了新的测序方式,纳米孔测序仍存在着准确率有待提高的问题。本文参考语音识别,在纳米孔测序数据分析中引入了一种无需电流信号分割的端到端的碱基识别方法。首先,将纳米孔测序仪Min ION针对λ噬菌体的测序数据进行一系列预处理工作,包括质量控制、长度筛选以及比对参考基因校正错误等,构建出模型训练所需数据集,并将数据集分成训练集、验证集以及测试集,用于模型训练,以及模型效果检验。识别模型方面,以卷积神经网络(CNN)与长短时间记忆网络(LSTM)相结合构成基本的前向传播网络结构,以连接时序分类器(CTC)作为损失和解码机制。模型训练过程中,本文对不同网络层数、神经元数目以及卷积核尺寸进行了调节和对比,以选取合适的超参数优化模型性能。在此基础上,本文还引入了批标准化及注意力机制实现模型的进一步优化,并对优化前后模型效果进行比对分析。最后,本文引入了集成模型思想,通过权重参数将基本模型和注意力模型进行融合,构建出集成模型,并验证了不同权重参数下的集成模型效果。经实验验证,本文所构建模型具有良好的纳米孔测序数据碱基识别性能。
戴钊钊[5](2019)在《基于PacBio的高通量Fosmid文库克隆长配对末端测序技术的开发》文中进行了进一步梳理DNA测序技术的发展有着短暂且丰富的历史,在短短的40多年中有着众多飞跃式的发展。从Sanger的电泳法测序技术,以高成本、低通量、长读长、高精度等特点打开生物测序的大门;到NGS大规模平行测序,以低成本、高通量、短读长、高精度等特点成为生物测序的中流砥柱;再到目前正引领新潮流的单分子实时合成测序如Pac Bio和Nanopore,以高通量、超长读长、低精度等特点开创生物测序的新时代。DNA测序技术正在快速的发展并被广泛的应用。基因组文库是将通过某个物种的基因组DNA通过生物、化学或物理打断等不同的方式破碎成特定的大小,然后以载体为媒介导入到宿主中形成的集合,是进行分子克隆和基因组结构与功能特点研究的重要工具和材料。其中大片度基因组文库以其较大的外源DNA片段长度容纳能力而被广泛运用。现如今将基因组文库与不同DNA测序技术结合产生的成对末端(paired-end)测序方法在生物测序领域也占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱能够有效解决复杂基因组的长重复序列和长散在序列的组装问题并且可以提供长跨度的连接信息。虽然Fosmid文库克隆插入片段比BAC文库克隆小,但是更容易获得克隆。因此,基于NGS测序方法的mate-pair技术结合Fosmid文库产生的双末端序列能有效探寻到各种具有调控能力的结构变异如插入、缺失和倒位等,这些结构变异通常大小不超过1 kb,因此难以被传统的(300-500 bp)mate-pair方法检测到。不仅如此,利用Fosmid和BAC文库等长片段文库得到的成对末端序列因为其末端之间较长的间距可以跨过许多重复序列,不仅可以评估全基因组的组装质量、纠正错误组装;使散在的、难以辨别的顺序关系的Contigs之间得以正确排列,提升基因组的完整度;还能够检测存在于染色体内和不同染色体之间的大范围的结构变异区域。但是,一代测序技术和二代测序技术的读长都不能超过1 kb,并且一代测序成本昂贵。因此基于这两种测序平台的paired-end技术得到的短的双末端在应用到复杂的基因组组装中会产生明显的缺陷,过短的双末端无法跨越重复序列导致错误的或不完整的拼装结果。因此,现在正需要长配对末端来填补这个缺陷。本研究通过发明了一个新的利用大片段文库产生长paired-end末端的技术方法以适应新一代的测序潮流,它能有效的提高基因组从头组装的质量并且鉴别一些大到几十kb,小到几十bp的结构变异位点或者组装错误。此方法基于一个新的Fosmid载体——p HZAUFOS3,此载体有以下这些特点:1、新增的稀有I-Sce I酶切位点不仅在检测插入片段方面具有单一条带的优越特性,还可以通过骨架上额外的两个I-Sce I酶切位点在构建paired-end测序文库上机样品时去除载体序列的影响,增加有效数据的含量;2、将多克隆位点移至氯霉素抗性基因与复制子之间,此法可以提高后续paired-end测序文库中双末端的比列。本研究使用物理随机打断来破碎Fosmid克隆混合池DNA,然后将电泳筛选后的片段与氨苄抗性基因片段连接,转化后通过氯霉素和氨苄青霉素双抗生素筛选得到阳性双末端克隆的方法来构建长paired-end文库。本研究通过酵母Fosmid文库和谷子Fosmid文库构建长末端paired-end文库以Pac Bio测序平台测序来验证此方法的可行性。最终得到平均单端长度大于2 kb的长跨度双末端。并将此数据应用于酵母和谷子的全基因组的组装,发现对组装结果有显着的提高。并且,通过将谷子的长paired-end数据与―豫谷一号‖谷子的参考基因组进行比对,发现了5个大到几十kb和5个小到几十bp的结构变异位点。
李子阳[6](2019)在《体细胞基因突变高通量测序检测生物信息学分析参考物质的研究》文中指出目前,癌症已成为我国居民死亡的主要原因之一,是严重危害我国居民健康的重大公共卫生问题。近年来,随着个体化医疗的不断发展,根据肿瘤患者的基因突变信息为患者制定个性化治疗方案的“精准医学”模式在临床肿瘤患者的治疗当中发挥着日益重要的作用。大量的肿瘤基因突变在癌症患者的诊断、治疗及预后判断中的临床应用价值已被证实。由于越来越多的肿瘤基因突变位点不断被发现,传统的单个位点的基因检测方法已不能满足临床需求。高通量测序技术的出现,使得多个基因的多个位点同时检测成为可能。高通量测序较传统的分子检测方法要复杂得多,既包括核酸提取、序列靶向富集、文库制备和测序等含多个实验步骤的“湿实验”过程,还有包含测序后的数据质量分析、参考序列比对、变异识别、注释和结果报告解读等步骤的生物信息学分析流程(即“干实验”过程),生物信息学分析流程对于高通量测序检测结果的准确性与“湿实验”一样具有决定性意义。对于临床高通量测序检测的生物信息学分析,要想获得准确可靠的生物信息学分析结果,就需要选择合适的参考物质(Reference material,RM),也称为参考数据(Reference dataset)对生物信息学分析流程进行优化、性能确认、室内质量控制(Internal Quality Control,IQC)以及定期开展室间质量评价(External Quality Assessment,EQA)。通过使用临床样本或肿瘤细胞系DNA等制备的参考数据虽然可以用于生物信息学分析流程的优化、性能确认、室内质量控制及室间质量评价,但其制备较为繁琐,成本较高,且无法包含所有的突变类型。基于测序数据编辑的计算机模拟方法制备的生物信息分析参考数据,具有制备简单、快速、成本低且不受突变类型的限制等优点。但目前已有的基于测序数据编辑的生物信息学分析参考数据模拟软件BAMSurgeon仅能对单核苷酸变异及短片段插入/缺失变异有较好的模拟效果,而不能模拟拷贝数变异、多核苷酸变异等复杂变异,并且不能对靶向测序数据的大片段结构变异进行模拟。此外,BAMSurgeon也不能对Ion Torrent测序平台的数据进行模拟。因此,缺少合适的生物信息学分析参考数据对不同临床实验室的生物信息学分析流程进行全面的性能评估。本研究中,我们开发了一款基于测序数据编辑的生物信息学分析参考数据模拟软件——VarBen。为验证VarBen软件制备的体细胞突变生物信息学分析参考数据是否可以模拟真实肿瘤样本中的体细胞突变,我们将含有真实体细胞突变的肿瘤样本测序数据与VarBen和BAMSurgeon软件制备的体细胞突变生物信息学分析参考数据进行了比较。结果表明,相比于BAMSurgeon,VarBen模拟体细胞突变的检出效果与肿瘤样本测序数据中真实体细胞突变(MB gold set)的检出效果更加相近,这一结果证明VarBen制备的生物信息学分析参考数据可模拟出接近真实肿瘤样本测序数据的体细胞突变。同时为验证VarBen软件的可靠性和稳定性,我们评估了原始测序数据基因组背景、比对软件的使用以及测序reads分割是否会对VarBen产生影响。结果证明原始测序数据的基因组背景、使用的比对软件以及原始测序reads分割不会对VarBen软件体细胞突变的模拟产生影响。综上,我们的验证实验证明了 VarBen软件的可靠性和稳定性,且其制备的模拟测序数据可用作临床体细胞突变检测生物信息学分析参考数据。为全面评估临床实验室肿瘤体细胞突变生物信息分析能力,我们使用VarBen制备的生物信息学分析参考数据开展了肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质量评价调研活动。我们共收到实验室提交的113个有效分析结果,实验室提交结果统计分析显示,相对于单核苷酸变异,目前临床实验室对短片段插入/缺失变异的生物信息学分析能力还有待提高,尤其是复杂插入-缺失变异和FLT基因内部串联重复(internal tandem duplication,ITD)。实验室在建立高通量测序基因突变检测生物信息学分析流程的过程中,需充分重视对生物信息学分析流程的性能确认,以保证分析结果的准确性。此外,本次室间质评也证明了 VarBen制备生物信息学分析参考数据的实用性。综上所述,本研究开发了一款基于测序数据编辑的生物信息学分析参考数据模拟软件—VarBen。与目前已有模拟软件相比,VarBen解决了目前无法对拷贝数变异、多核苷酸变异、复杂插入-缺失变异等复杂变异以及靶向测序数据的大片段结构变异进行模拟的难题,且同时适用于Illumina测序平台、华大BGI测序平台和Ion torrent测序平台。基于测序数据编辑的方法可保留高通量测序“湿实验”部分文库制备及上机测序过程中产生的背景错误分布模式,从而保证模拟数据更加的接近临床真实测序数据,同时可对任意类型的突变位点进行模拟,具有制备成本低、快速、可靠等优点。通过使用VarBen制备个性化的生物信息学分析参考数据可帮助临床实验室发现其生物信息学分析流程中存在的问题,从而帮助临床实验室提高基因突变检测的准确性。
王景[7](2018)在《16S rRNA基因二代测序中的测序深度与测序错误对微生物群落多样性分析的影响》文中提出16S rRNA全长约为1540nt,存在于所有细菌的核糖体中。因其结构与功能的高度保守性,在微生物生态学研究中,常通过高通量测序对其基因片段进行测定,根据测序序列相似度的高低来反映微生物亲缘关系的远近,根据序列的出现次数来反映对应的微生物在群落中的丰度,从而得到微生物群落的物种组成比例与多样性信息。因此,根据测序数据准确地获取微生物的分类特征信息,对比较微生物群落结构的差异,乃至对锁定关键功能菌种都是至关重要的。本论文首先探讨了测序深度对反映群落多样性特征的影响。在研究中通常基于可操作分类单元(operational taxonomy unit,OTU)的丰度分布情况,通过模拟采样的方式观察alpha多样性指标随测序深度变化的稀释曲线。根据稀释曲线是否达到平台期来判断测序深度是否足够。但我们的结果发现不同alpha多样性的稀释曲线具有显着差别;同时alpha多样性指标的变化并不能对应地反映测序深度对beta多样性、样本分组显着性和分组准确率等指标的影响。我们因此提出在论证测序深度是否足够时,应综合使用多项指标,并使用重采样模拟的方式对测序深度的影响进行评估。同时根据示例数据,我们认为使用Illumina测序平台对人体共生微生物群落多样性进行研究时,应保证每个样本中的高质量序列不低于5,000条。本论文的第二部分讨论了测序错误对微生物群落分类特征信息的准确性的影响并提出了解决方法。我们发现目前的主流分析流程虽然有严格的序列质控手段,但是质控后的高质量序列中仍然存在测序错误。而正是这些测序错误导致在数据分析过程中产生了很多虚假的分类特征信息。为此我们开发了一个流程来有效地减少这些测序错误带来的影响。该流程分为两步,第一步基于序列检测最低可信限原理,使用bootstrapping采样模拟,筛选掉高质量序列中丰度低于可靠检测阈值的序列(abundance filtering,AF);第二步使用剩余的丰度较高的高质量序列进行OTU划分,并将第一步筛选出的低丰度序列与划定的OTU进行比对,将能够比对上的序列纳入OTU 的丰度计算(AF-based OTU picking and remapping,AOR)。我们使用该流程对多种数据,包括我们自行构建并测序的人工群落数据、基于数据库参考序列的模拟数据以及已公开发表的四个真实数据,与现有的主流分析流程进行了比较分析。结果显示,我们提出的流程能够最大程度地减少错误序列对于群落多样性研究的影响,从而能有效避免错误的生物学结论对后续分析和实验的误导。本论文第三部分通过一个实例介绍了基于16S rRNA基因高通量测序数据的分析方法在实际研究中的应用。在此实例中,我们研究了慢性乙型肝炎(CHB)患者中肠道菌群失调现象对肝病发生发展的作用。依据观察到的CHB患者肠道菌群结构和功能变化特点,我们提出了肠道菌群失调指数(gut dysbiosis index,GDI),该指数用肠道中“有害菌”对“有益菌”的丰度差异来指征肠道菌群的失调情况。通过肠道菌群与人体血液代谢物组的分析,我们发现肠道菌群可能参与了血液中芳香类氨基酸(aromatic amino acids,AAA)的异常积累。而AAA对促成肝纤维化、肝硬化和肝癌的病理发展具有关键性的作用。我们的这个发现提示肠道菌群可能通过干预宿主代谢的方式参与了慢性乙型肝炎向肝硬化的发展过程。综上,本文着眼于实际应用,对目前以16S rRNA基因高通量测序为检测手段的微生物群落结构与功能分析中存在的部分问题进行了探讨,并提出了切实可行的改进方案。最后用一个实际案例展示了我们改进的分析流程在微生物生态学中的应用价值。
梁骥[8](2016)在《利用目标捕获高通量测序筛查人类非梗阻性无精子症单核苷酸变异》文中指出目的利用目标区域捕获结合高通量测序技术筛查N OA患者相关S NV变异,通过Case-Control study进行关联研究,并初步探索致病机制,进一步揭示导致N OA的遗传学因素;构建N OA相关的S NV库,为下一阶段扩大样本量研究提供参考位点。本研究系列为最终建立能够应用于临床的N OA遗传诊断平台提供理论和实验基础,为可能涉及到进行性加重的不育患者或通过辅助生殖技术生育的不育子代提供生育力保存或遗传病因学诊断咨询依据。方法NOA组纳入自2013年9月至2014年12月因“男性不育”到吉林大学第一医院生殖中心就诊,并确诊为NOA的患者,对照组纳入自2013年9月至2014年12月到吉林省人类精子库捐精的志愿者,NOA组和对照组均需经G显带染色体核型分析和外周血Y染色体AZF微缺失检测确认无染色体异常和AZF微缺失,并进行民族等基本信息和精索静脉曲张等既往史和现病史的排查;本研究参考OMIM、GENCODE、Ref Seq、Vega Genome Browser和Pubmed等数据库,收集经动物模型研究、RNA/蛋白表达谱研究、全基因组关联研究(GWAS)和SNV统计分析研究报道的NOA相关基因,在此基础上制备针对NOA相关基因外显子区域的目标区域捕获结合高通量测序平台;本研究对NOA组患者和对照组志愿者经专业问卷调差的形式收集年龄等基本信息,采用手淫取精的方式收集精液样本用于精液常规分析和精浆生化分析,取前臂浅静脉血用于外周血血清生殖激素水平检测;本研究应用目标捕获结合高通量测序技术对NOA组患者和对照组志愿者的目标基因外显子区域进行测序,整体流程包括全基因组文库制备、目标区域捕获测序和生物信息学分析3个部分;本研究最后应用Case-Control study进行SNV与NOA关联研究并构建NOA相关SNV library为下一阶段扩大样本量验证提供参考位点,关联研究主要包括NOA组和对照组SNV筛选、NOA组和对照组次等位基因频率(MAF)对比、SNV与NOA相关性研究、SNV基因型分析、基因型与临床表型关联研究等步骤、SNV单体型分析等步骤,SNV library构建主要包括贝勒流程、对照组MAF为0条件筛选和library描述等步骤。结果1.NOA组共计纳入34例符合标准的患者,对照组共计纳入40例符合标准的受检者。2.经参考文献和公共数据库,共计纳入467个NOA相关基因,并制备了针对NOA相关基因外显子区域的目标区域捕获结合高通量测序平台。3.对NOA组患者和对照组受试者基本信息的收集和临床指标检测表明NOA组和对照组在平均年龄、身体质量指数(BMI)、精子密度、血清卵泡刺激素(FSH)水平、血清黄体生成素(LH)、血清泌乳素(PRL)水平、血清睾酮(T)水平、血清抑制素B水平、精浆果糖水平、α糖苷酶水平和精浆锌水平存在统计学差异(p<0.05),在精索静脉曲张率、精液量和血清雌二醇(E2)水平等方面无统计学差异(p>0.05)。4.目标区域捕获结合高通量测序产出大量高质量数据,Align rate≥95%(推荐参考值)的样本比例为100%、所有样本读深≥20×覆盖率介于99.9%-92%之间、所有样本Duplication rate≤20%(推荐临界值)的样本比例达到100%。5.对74例样本经测序所得共计178966例变异,65%分布在内含子区域,24%分布在外显子区域,10%分布在开放阅读框(ORF)上下游调控区域,其余1%分布于属于非调控区的基因间隔内;对74例样本经测序所得178966例变异的变异方式进行统计对比结果表明检出变异主要分为SNV和插入缺失标记(Indel)两种,检出的SNV类型包括非同义突变(nonsynonymous)、同义突变(synonymous)、无义突变(stopgain)、终止密码子丢失(stoploss)和剪接突变(splicing),检出的Indel突变类型包括移码突变(frameshift)、非移码突变(non-frameshift)和终止密码子丢失,此外检出的SNV和Indel都包含大量效果未知的变异(unknown),NOA组和对照组比较各种已知效果变异方式的检出频率差异无统计学意义(p>0.05),未知效果变异检出频率差异有统计学意义(p<0.001)。6.Case-Control study针对分布于外显子的SNV类型的变异进行研究,对74例样本经测序检出的总计178966例变异进行筛选,结果分布于外显子区域测序深度≥20×的SNV变异总计41452例,全部变异分布于2391个(种)SNV位点。7.本研究对74例样本测序检出结果中筛选出的2391个候选SNV位点在NOA组与对照组间进行等位基因频率统计对比,并同时计算各个候选SNV在NOA组和对照组中的哈迪温伯格平衡(Hardy-Weinberg equilibrium,HWE),结果显示包括BRDT c.1949C>T(rs10747493)等65个候选SNV等位基因频率在NOA组与对照组间存在统计学差异(p<0.05),其中BRDT c.1949C>T(rs10747493)等38个SNV的基因型在NOA组和对照组中的分布均符合哈迪温伯格平衡(p>0.05)。8.本研究对经NOA组和对照组间等位基因频率统计对比有统计学差异,且基因型分布符合哈迪温伯格平衡的38个SNV进行与NOA发病的关联分析,并同时以“年龄”因素为协变量进行相关性校正,结果表明KIF2C c.531A>T(rs3795713)等18个SNV经校正后与NOA相关性仍有统计学意义(p<0.05),其中MTRR c.537T>C(rs161870,OR:3.686)等5个SNV与NOA发病呈正相关,KIF2C c.531A>T(rs3795713,OR:0.291)等13个SNV与NOA发病呈负相关,所有18个SNV在HGMD数据库中均无NOA致病性报道。9.本研究对经过关联性分析得出的18个与NOA呈显着相关性的SNV的显性模型与隐性模型进行分析,并同时以“年龄”因素为协变量进行校正,结果显示17个SNV显性或隐性基因型与NOA相关。其中MTRR c.537T>C(rs161870)等10个SNV在校正后显性模型分析仍有统计学意义(p<0.05),其中MTRR c.537T>C(rs161870,OR:4.024)等3个SNV在显性模式下与NOA发病呈正相关,KIF2C c.531A>T(rs3795713,OR:0.293)等7个SNV在显性模式下与NOA发病呈负相关,TAF4B c.1815T>C(rs1677016)等7个SNV在校正后隐性模型分析有统计学意义,其中TAF4B c.1815T>C(rs1677016,OR:5.457)等2个SNV在隐性模式下与NOA发病呈正相关,HLA-DPB1 c.292A>G(rs1042140,OR:0.059)等5个SNV在隐性模式下与NOA发病呈负相关。10.本研究对SNV基因型与NOA相关临床表型进行关联研究,结果显示MTRR c.537T>C(rs161870)等8个SNV的基因型频率在不同NOA相关临床表型正常值组和异常值组间存在显着性差异。其中MTRR c.537T>C(rs161870,OR:3.231),MTRR c.1049A>G(rs162036,OR:3.231)和PIWIL1 c.1580G>A(rs1106042,OR:3.592)显性基因型与FSH高值存在正相关;ACE c.81C>T(rs4316,OR:2.858),ACE c.471A>G(rs4331,OR:2.858),ACE c.606G>A(rs4343,OR:2.858)和ACE c.1665T>C(rs4362,OR:3.771)隐性基因型与PRL高值存在正相关;PIWIL1 c.1580G>A(rs1106042)显性基因型与T低值存在正相关,与抑制素B异常存在正相关;TAF4B c.1815T>C(rs1677016,OR:3.871)隐性基因型与精浆α糖苷酶异常存在正相关。11.本研究对NOA相关SNV单体型分析结果表明,KIF2C c.531A>T(rs3795713)等5个SNV在1号染色体上形成2个单倍体block,KIF2C c.531A>T(rs3795713)等3个SNV形成block1,有2种单体型,分别为AAG和TCA,AAG在NOA组的频率显着高于对照组(83.8%vs.68.8%,p=0.033),TCA在NOA组的频率显着低于对照组(16.2%vs.31.2%,p=0.033),MAEL c.12T>C(rs2296837)等2个SNV形成block2,有3种单体型,分别为TT、CG和CT,TT在NOA组的频率显着高于对照组(86.8%vs.68.8%,p=0.009),CG在NOA组的频率显着低于对照组(13.2%vs.28.7%,p=0.022),CT在NOA组的频率和对照组相比无统计学差异(p>0.05);MTRR c.537T>C(rs161870)等2个SNV在5号染色体上形成1个单倍体block,block中有2种单体型,分别为TA和CG,TA在NOA组的频率显着低于对照组(80.9%vs.92.5%,p=0.035),CG在NOA组的频率显着高于对照组(19.1%vs.7.5%,p=0.035);HLA-DPB1 c.313A>G(rs1042151)等2个SNV在6号染色体上形成1个单倍体block,block中有3种单体型,分别为AG、GA和AA,AG在NOA组的频率显着高于对照组(94.1%vs.77.5%,p=0.005),GA在NOA组的频率显着低于对照组(4.4%vs.15%,p=0.033),AA在NOA组的频率和对照组相比无统计学差异;ACE c.81C>T(rs4316)等4个SNV在17号染色体上形成1个单倍体block,block中有3种单体型,分别为TGAC、CAGT和TGAT,TGAC在NOA组的频率显着低于对照组(51.5%vs.76.2%,p=0.002),CAGT在NOA组的频率显着高于对照组(41.2%vs.21.2%,p=0.009),TGAT在NOA组的频率和对照组相比无统计学差异(p>0.05)。12.本研究应用贝勒流程对N OA组内M AF无组间统计学差异的S NV行进一步筛选,结果表明经N OA组与对照组间等位基因频率对比差异无统计学意义的NOA组S NV变异共计62376例,最终筛选出可能致病单核苷酸突变(SNM)变异共计73例。13.本研究对贝勒流程筛选出的SNM进一步筛选对照组内等位基因频率为0的SNV,结果表明经贝勒流程筛选得到的73例候选SNM经筛选对照组内等位基因频率为0的SNM变异共计42例,分布于39个SNM位点上,位于34个基因内。14.经NOA组与对照组组间等位基因频率对比及NOA相关性研究所得52个NOA非负相关SNV位点和经贝勒流程筛选及对照组等位基因频率为0筛选所得39个SNM位点共同构成SNV library。对SNV library成分构成进行统计分析,结果表明NOA发病呈正相关SNV位点占SNV library的(5/91)5%,经NOA组与对照组等位基因频率对比有统计学差异且符合哈迪温伯格平衡,但经关联性分析与NOA发病并无显着相关性,占SNV library的(20/91)22%,经NOA组与对照组等位基因频率对比有统计学差异但不符合哈迪温伯格平衡,占SNV library的(27/91)30%,经贝勒流程筛选及对照组等位基因频率为0筛选所得SNM位点,占SNV library(39/91)43%;对SNV library位点在公共数据库的分布进行统计分析,结果显示仅能在HGMD数据库中检索到NOA相关致病性记录,在db SNP数据库中无相应SNP记录,占SNV library的(1/91)1%,仅能在db SNP数据库中检索到多态性信息,在HGMD数据库中无相应NOA相关致病性记录,占SNV library的(80/91)88%,在HGMD数据库中检索到NOA相关致病性记录,并在db SNP数据库中检索到多态性信息,占SNV library的(6/91)7%,不能在HGMD数据库中检索到NOA相关致病性记录,也不能在db SNP数据库中检索到多态性信息,占SNV library的(4/91)4%;对SNV library位点变异效果进行统计分析,结果表明突变效果为非同义突变,占SNV library的(57/91)63%,突变效果为同义突变,占SNV library的(34/91)37%。结论(1)本研究经筛查发现18个SNV与NOA存在相关性,此前均无NOA致病性报道,其中MTRR c.537T>C(rs161870)、MTRR c.1049A>G(rs162036)、PIWIL1c.1580G>A(rs1106042)、TAF4B c.1815T>C(rs1677016)和SOX10 c.927T>C(rs139884)5个SNV增加NOA致病风险;KIF2C c.531A>T(rs3795713)、KIF2C c.1345A>C(rs4342887)、KIF2C c.1500G>A(rs1140279)、MAEL c.12T>C(rs2296837)、MAEL c.121T>G(rs11578336)、HLA-DRB1 c.227T>A(rs17884945)、HLA-DPB1 c.292A>G(rs1042140)、HLA-DPB1 c.313A>G(rs1042151)、HLA-DPB1 c.315G>A(rs1042153)、ACE c.81C>T(rs4316)、ACE c.471A>G(rs4331)、ACE c.606G>A(rs4343)和ACE c.1665T>C(rs4362)13个SNV降低NOA致病风险,具有保护效应。(2)研究结果表明17个SNV显性/隐性基因型与NOA相关,其中MTRR c.537T>C(rs161870)、MTRR c.1049A>G(rs162036)和PIWIL1 c.1580G>A(rs1106042)3个SNV在显性模式下与增加NOA致病风险;KIF2C c.531A>T(rs3795713)、KIF2C c.1345A>C(rs4342887)、KIF2C c.1500G>A(rs1140279)、MAEL c.12T>C(rs2296837)、MAEL c.121T>G(rs11578336)、HLA-DPB1 c.313A>G(rs1042151)和HLA-DPB1 c.315G>A(rs1042153)7个SNV在显性模式下降低NOA致病风险,具有保护效应;TAF4B c.1815T>C(rs1677016)和SOX10 c.927T>C(rs139884)2个SNV在隐性模式下增加NOA致病风险;HLA-DPB1 c.292A>G(rs1042140)、ACE c.81C>T(rs4316)、ACE c.471A>G(rs4331)、ACE c.606G>A(rs4343)和ACE c.1665T>C(rs4362)5个SNV在隐性模式下降低NOA致病风险,具有保护效应。(3)研究结果表明8个SNV显性/隐性基因型可导致生殖激素或/和精浆生化水平改变。MTRR c.537T>C(rs161870),MTRR c.1049A>G(rs162036)和PIWIL1c.1580G>A(rs1106042)显性基因型可能通过导致FSH水平异常增高增加NOA致病风险;ACE c.81C>T(rs4316),ACE c.471A>G(rs4331),ACE c.606G>A(rs4343)和ACE c.1665T>C(rs4362)隐性基因型可能通过导致PRL水平异常增高降低NOA致病风险;PIWIL1 c.1580G>A(rs1106042)显性基因型可能通过导致T水平异常降低和抑制素B水平异常降低增加NOA致病风险;TAF4B c.1815T>C(rs1677016)隐性基因型可能通过导致精浆α糖苷酶水平异常降低增加NOA致病风险。(4)研究结果表明10个单体型与NOA相关,其中KIF2C c.531A>T(rs3795713)、KIF2C c.1345A>C(rs4342887)和KIF2C c.1500G>A(rs1140279)在1号染色体上形成NOA相关单倍体block1,MAEL c.12T>C(rs2296837)和MAEL c.121T>G(rs11578336)在1号染色体上形成NOA相关单倍体block2,block1的单倍体AAG和block2的单倍体TT是NOA发病易感因素,block1的单倍体TCA和block2的单倍体CG具有保护效应;MTRR c.537T>C(rs161870)和MTRR c.1049A>G(rs162036)在5号染色体上形成NOA相关单倍体block,其中单倍体CG是NOA发病易感因素,单倍体TA具有保护效应;HLA-DPB1 c.313A>G(rs1042151)和HLA-DPB1 c.315G>A(rs1042153)2个SNV在6号染色体上形成NOA相关单倍体block,其中单倍体AG是NOA发病易感因素,单倍体GA具有保护效应;ACE c.81C>T(rs4316)、ACE c.471A>G(rs4331)、ACE c.606G>A(rs4343)和ACE c.1665T>C(rs4362)在17号染色体上形成NOA相关单倍体block,其中单倍体CAGT是NOA发病易感因素,单倍体TGAC具有保护效应。(5)SNV library由52个NOA非负相关SNV位点和39个SNM位点共计91个SNV位点构成。
杨春[9](2011)在《猪不同组织和不同品种肌肉组织基因组DNA甲基化分析》文中进行了进一步梳理DNA甲基化在真核生物中是一种重要的表观遗传学修饰方法,也是基因表达调控重要影响因素之一。大量研究结果表明,胞嘧啶DNA甲基化在功能基因表达、细胞分化、X染色体失活、胚胎分化、疾病和癌症发生中都起到非常重要的作用。很多研究表明,不同的甲基化水平可能与组织特异性转录有关,并且对正常的分化和发育至关重要。本研究以猪为研究对象,利用F-MSAP的方法对莱芜猪肌肉、心脏、肝脏、脾脏、肺脏、肾脏和胃七个组织进行全基因组DNA甲基化分析,以及对具有不同肉质性状一肌间脂肪含量的我国地方品种莱芜猪和东北民猪,育成品种鲁莱猪、松辽黑猪和军牧一号以及外来品种大白猪的肌肉组织进行全基因组DNA甲基化分析。结果显示,莱芜猪肌肉、心脏、肝脏、脾脏、肺脏、肾脏和胃七个组织全基因组DNA甲基化程度分别为53.9%,51.2%,50.1%,53.3%,51.9%,51.1%和53.3%;大白猪、莱芜猪、鲁莱猪、军牧一号、松辽黑猪、东北民猪六个品种肌肉组织的甲基化程度分别为47.97%,51.75%,53.21%,50.46%,54.88%,56.98%;采用卡方检验分析不同品种肌肉组织的甲基化程度,结果表明各个品种间的甲基化程度差异显着(P<0.05)。通过数据分析,发现各品种肌肉组织DNA甲基化程度与各品种肌间脂肪含量间不具有相关性。本研究希望通过对猪不同组织和不同品种肌肉组织DNA甲基化的分析,了解猪不同组织和不同品种肌肉的全基因组DNA甲基化水平和组织间DNA甲基化模式差异。为今后猪DNA甲基化的研究积累数据,希望发现和了解甲基化在组织分化过程中的作用,以及通过对具有差异性不同肌间脂肪含量的不同品种肌肉组织全基因组DNA甲基化的测定,揭示是否不同品种肌肉组织全基因组DNA甲基化和肌肉肌间脂肪含量具有相关性,期望发现与肉质性状相关的功能基因,为更好的研究畜禽提供新的思路并奠定基础。
何琳,王群[10](2010)在《基于PCR的SSR标记分离方法综述》文中研究表明SSR分子标记是目前应用最广泛的第二代共显性分子遗传标记。SSR标记具有物种特异性,要应用该方法需要提前开发相应物种的特异SSR标记,而获得微卫星标记的经典方法是通过构建基因组片段文库和特殊标记SSR探针杂交法获取,这些方法经济成本相对较高且耗时耗力。近年来,该领域的研究中积累了很多研究成果和技术改进,发展起来几种基于PCR简便易操作且节约成本的SSR标记分离方法,例如基于RAPD的微卫星分离方法、基于ISSR抑制PCR扩增法、序列标签微卫星分析法、选择性扩增微卫星分析法以及荧光ISSR-PCR分离微卫星和微卫星扩增文库法等。本文主要对这些方法逐一进行综述,旨在为各个物种SSR标记的开发提供参考。
二、增加ABI-377自动测序仪测序长度的改进措施(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、增加ABI-377自动测序仪测序长度的改进措施(论文提纲范文)
(1)AIO-seq高通量测序技术开发及玉米NAM群体遗传特性和株型性状QTL定位研究(论文提纲范文)
摘要 |
abstract |
主要符号对照表 |
第一章 AIO-seq高通量测序技术开发及应用 |
1.1 引言 |
1.1.1 测序技术发展概述 |
1.1.2 DNA超声波机械打断和生物酶切法在测序文库制备中的应用 |
1.1.3 Tn5 转座酶在测序文库制备中的应用 |
1.1.4 测序文库的分选和质控 |
1.1.5 本研究的目的与意义 |
1.2 材料与方法 |
1.2.1 实验材料及表型测定分析 |
1.2.2 AIO-seq测序文库制备 |
1.2.3 测序数据的分析流程 |
1.2.4 Bin map图谱构建及玉米株型性状QTL定位 |
1.3 结果与分析 |
1.3.1 AIO-seq测序技术构思 |
1.3.2 利用少量样本验证AIO-seq测序技术的可行性 |
1.3.3 利用多样本包Lane测序探索AIO-seq技术的可靠性及稳定性 |
1.3.4 运用AIO-seq测序技术获得样本间预期不等的数据产出 |
1.3.5 AIO-seq技术在RNA-seq测序文库制备中的运用 |
1.3.6 简化的AIO-seq测序技术在玉米BC_1F_4群体株型QTL定位研究中的运用 |
1.4 讨论 |
1.4.1 Tn5 转座酶在组学技术研究中的广泛应用 |
1.4.2 AIO-seq测序文库制备流程的改进 |
1.4.3 简化的AIO-seq测序技术在群体遗传学研究中的应用 |
1.4.4 后续工作展望 |
第二章 玉米NAM群体遗传特性和株型性状QTL定位研究 |
2.1 引言 |
2.1.1 玉米生产和研究概况 |
2.1.2 常用分离群体类型及特点 |
2.1.3 连锁分析及关联分析定位 |
2.1.4 玉米株型相关性状QTL定位及基因克隆 |
2.1.5 本研究的目的与意义 |
2.2 材料与方法 |
2.2.1 亲本选取及HNAU-NAM1 群体构建 |
2.2.2 玉米HNAU-NAM1 群体株型性状考察及分析 |
2.2.3 HNAU-NAM1 群体基因型数据分析 |
2.2.4 HNAU-NAM1 群体遗传多样性及连锁不平衡分析 |
2.2.5 利用SLM分析方法进行株型性状QTL定位 |
2.2.6 利用JLM分析方法进行株型性状QTL定位 |
2.2.7 利用GWAS关联分析方法进行株型性状QTL定位 |
2.2.8 株型性状QTL热点区域分析 |
2.2.9 株型性状主效QTL定位区间内候选基因推断 |
2.3 结果与分析 |
2.3.1 HNAU-NAM1 群体特征分析 |
2.3.2 群体表型性状统计分析 |
2.3.3 亚群遗传连锁图谱构建 |
2.3.4 叶夹角性状遗传解析 |
2.3.5 株高性状遗传解析 |
2.3.6 穗位性状遗传解析 |
2.3.7 株型性状QTL定位热点区域分析 |
2.3.8 主效QTL区间内候选基因推断 |
2.4 讨论 |
2.4.1 HNAU-NAM1 群体特点 |
2.4.2 株型性状QTL定位方法及结果特征 |
2.4.3 株型性状候选基因 |
2.4.4 基因组de novo组装对基因克隆的影响 |
2.4.5 后续工作展望 |
第三章 全文总结 |
3.1 AIO-seq高通量测序技术开发和应用 |
3.2 玉米HNAU-NAM1 群体遗传特性和株型性状QTL定位研究 |
参考文献 |
附录 A |
致谢 |
作者简历 |
(2)高通量测序捕获建库技术研发及其在复杂疾病分子遗传学研究中的应用(论文提纲范文)
摘要 |
ABSTRACT |
文中常用缩写中英文对照表 |
第一章 绪论 |
1.1 高通量测序技术发展及现状 |
1.1.1 测序技术的发展 |
1.1.2 高通量测序技术原理 |
1.1.3 高通量捕获建库技术 |
1.1.4 高通量测序技术的应用 |
1.1.5 高通量测序技术的优势和挑战 |
1.2 复杂疾病分子遗传学研究 |
1.2.1 基于大样本的复杂疾病群体遗传学研究 |
1.2.1.1 病例-对照研究的关联分析 |
1.2.1.2 全基因组关联分析 |
1.2.1.3 高通量测序技术的应用和局限 |
1.2.2 基于微量样本的复杂疾病精准检测分析 |
1.2.2.1 循环肿瘤DNA的发现和特性 |
1.2.2.2 循环肿瘤DNA在癌症诊疗中的应用 |
1.2.2.3 高通量测序技术在循环肿瘤DNA检测中的应用及局限 |
1.2.3 两种代表性复杂疾病 |
1.2.3.1 精神分裂症 |
1.2.3.2 胆道恶性肿瘤 |
1.3 本章小结 |
第二章 扩增子靶向测序技术的研发及在精神分裂症分子遗传学研究中的应用 |
2.1 前言 |
2.1.1 扩增子靶向测序技术 |
2.1.2 EMB基因与精神分裂症 |
2.1.3 BNIP3L基因与精神分裂症 |
2.1.4 研究目的 |
2.2 研究材料 |
2.2.1 捕获引物设计 |
2.2.2 研究对象 |
2.2.3 实验试剂与仪器 |
2.3 研究方法 |
2.3.1 扩增子靶向测序技术的优化 |
2.3.2 样本DNA提取和质控 |
2.3.3 靶基因扩增捕获建库和测序 |
2.3.4 Sanger测序验证 |
2.3.5 数据分析方法 |
2.4 结果与讨论 |
2.4.1 EMB基因分析结果与讨论 |
2.4.1.1 变异识别 |
2.4.1.2 关联分析结果 |
2.4.1.3 阳性SNP位点功能预测结果 |
2.4.1.4 错义突变验证及功能预测结果 |
2.4.1.5 讨论 |
2.4.2 BNIP3L基因分析结果与讨论 |
2.4.2.1 变异识别 |
2.4.2.2 外显子罕见变异分析 |
2.4.2.3 关联分析结果 |
2.4.2.4 荟萃分析结果 |
2.4.2.5 讨论 |
2.5 本章小结 |
第三章 分子标签测序技术的研发及在胆道恶性肿瘤ctDNA分析中的应用 |
3.1 前言 |
3.1.1 分子标签与高通量测序技术 |
3.1.2 胆道恶性肿瘤ctDNA研究进展 |
3.1.3 研究目的 |
3.2 研究材料 |
3.2.1 实验样本 |
3.2.2 试剂与仪器 |
3.2.3 捕获panel设计 |
3.3 分子标签高通量测序建库技术研发 |
3.3.1 技术研发方案及测试方法 |
3.3.1.1 分子标签接头的制备 |
3.3.1.2 分子标签接头测试 |
3.3.1.3 ctDNA标准品测试 |
3.3.1.4 测序数据的分子标签校正 |
3.3.2 研发方案测试结果 |
3.3.2.1 分子标签接头质控结果 |
3.3.2.2 单一片段DNA连接效率测试结果 |
3.3.2.3 随机打断DNA样本测试结果 |
3.3.2.4 ctDNA标准品测试结果 |
3.3.3 研发方案结果讨论 |
3.4 优化方案在胆道恶性肿瘤ctDNA分析中的应用 |
3.4.1 研究方法 |
3.4.1.1 胆道恶性肿瘤样本DNA提取 |
3.4.1.2 全外显子测序文库构建 |
3.4.1.3 游离DNA测序文库构建 |
3.4.1.4 Illumina平台上机测序 |
3.4.1.5 二代测序数据分析方法 |
3.4.1.6 统计作图 |
3.4.2 胆道恶性肿瘤ctDNA分析结果 |
3.4.2.1 游离DNA样本及文库质控结果 |
3.4.2.2 测序数据质控结果 |
3.4.2.3 肿瘤组织与血浆的变异检测结果及对比 |
3.4.2.4 ctDNA术前术后动态变化及临床资料分析 |
3.4.3 胆道恶性肿瘤ctDNA分析结果讨论 |
3.5 本章小结 |
第四章 总结与展望 |
参考文献 |
致谢 |
攻读学位期间发表或成文的学术论文 |
(3)基于学习的第三代测序一致性序列生成(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文主要研究内容 |
1.4 本文结构安排 |
第2章 基于强化学习的多序列比对调整模型 |
2.1 引言 |
2.2 实验数据集及数据预处理 |
2.2.1 数据集介绍 |
2.2.2 数据预处理 |
2.3 基于强化学习的多序列比对模型 |
2.3.1 问题描述 |
2.3.2 模型环境设置 |
2.3.3 最优策略学习 |
2.4 实验结果与分析 |
2.4.1 统计分析Wtdbg比对结果及Wtcns生成一致性序列结果 |
2.4.2 强化学习模型结果分析 |
2.5 本章小结 |
第3章 好奇心奖励与滑窗启发式机制 |
3.1 引言 |
3.2 实验数据集构建 |
3.3 好奇心奖励机制 |
3.3.1 应用好奇心奖励的场景 |
3.3.2 机制的设计与实现 |
3.4 滑窗启发式机制 |
3.5 实验设置与结果分析 |
3.5.1 实验设置 |
3.5.2 结果分析 |
3.6 本章小结 |
第4章 基于深度学习的一致性序列生成模型 |
4.1 引言 |
4.2 基本网络结构介绍 |
4.2.1 卷积神经网络 |
4.2.2 循环神经网络 |
4.2.3 多任务学习 |
4.3 基于多任务学习神经网络的一致性序列生成模型 |
4.3.1 网络结构 |
4.3.2 卷积模块 |
4.3.3 注意力机制 |
4.3.4 循环神经网络及多任务模块 |
4.4 算法流程图 |
4.5 实验设置与结果分析 |
4.5.1 评价指标 |
4.5.2 实验设置与结果分析 |
4.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(4)纳米孔测序数据分析方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题研究背景和意义 |
1.1.1 课题研究背景 |
1.1.2 课题研究意义 |
1.2 国内外研究现状 |
1.3 主要内容及内容安排 |
第2章 纳米孔测序仪测序流程及数据集准备 |
2.1 引言 |
2.2 纳米孔测序仪测序流程 |
2.2.1 测序序列样本制备和纳米孔类型 |
2.2.2 测序序列通过纳米孔流程 |
2.2.3 测序生成FSAT5文件介绍 |
2.3 数据集来源及预处理 |
2.3.1 测序数据来源 |
2.3.2 测序数据筛选 |
2.3.3 测序数据集标签生成 |
2.4 小结 |
第3章 基于LSTM和 CNN的碱基识别模型构建 |
3.1 引言 |
3.2 循环神经网络与LSTM |
3.2.1 循环神经网络结构特点 |
3.2.2 循环神经网络的前向传播 |
3.2.3 循环神经网络的后向传播 |
3.2.4 长短时间记忆网络 |
3.3 卷积神经网络与残差块 |
3.3.1 卷积神经网络结构特点 |
3.3.2 残差网络结构及原理 |
3.4 连接时序分类器损失与解码 |
3.4.1 连接时序分类器的前向传播 |
3.4.2 连接时序分类器的后向传播 |
3.4.3 连接时序分类器的损失函数 |
3.4.4 连接时序分类器的梯度下降 |
3.4.5 连接时序分类器的解码 |
3.5 碱基识别模型网络搭建及训练 |
3.5.1 碱基识别模型前向网络搭建 |
3.5.2 碱基识别模型训练 |
3.6 基于编辑距离的序列相似度度量 |
3.7 基础模型超参数选取与效果评测 |
3.8 小结 |
第4章 基于ATTENTION和 BN的碱基识别模型优化 |
4.1 引言 |
4.2 基于注意力机制的模型优化 |
4.3 批标准化原理及模型优化 |
4.4 小结 |
第5章 纳米孔碱基识别集成建模 |
5.1 引言 |
5.2 集成模型方法分析 |
5.2.1 基于bagging的模型集成思想 |
5.2.2 基于boosting的模型集成思想 |
5.2.3 基于stacking的模型集成思想 |
5.3 纳米孔测序碱基识别集成建模 |
5.3.1 纳米孔测序碱基识别集成模型结构 |
5.3.2 集成模型结果分析 |
5.4 完整DNA链预测及结果分析 |
5.5 小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(5)基于PacBio的高通量Fosmid文库克隆长配对末端测序技术的开发(论文提纲范文)
摘要 |
Abstract |
缩略语表 |
1 前言 |
1.1 DNA测序技术 |
1.1.1 DNA测序技术的发展 |
1.1.2 DNA测序技术的应用 |
1.2 DNA文库 |
1.2.1 DNA文库的发展 |
1.2.2 DNA文库的应用 |
1.3 谷子的研究背景 |
1.4 酵母的研究背景 |
1.5 本研究的目的和意义 |
2 材料与方法 |
2.1 材料 |
2.2 实验仪器与试剂 |
2.3 实验方法 |
2.3.1 p HZAUFOS3 载体改造流程 |
2.3.2 p HZAUFOS3 载体的大量制备 |
2.3.2.1 p HZAUFOS3 质粒提取 |
2.3.2.2 p HZAUFOS3 载体制备 |
2.3.3 高质量高分子基因组DNA提取 |
2.3.3.1 包埋法提取酵母基因组DNA |
2.3.3.2 包埋法提取谷子基因组 DNA |
2.3.4 基因组DNA的预打断 |
2.3.5 基因组DNA的大量打断 |
2.3.6 DNA的末端修复 |
2.3.7 目的DNA片段的胶回收 |
2.3.8 目的DNA连接载体 |
2.3.9 重组质粒的体外包装及感受态细胞的制备 |
2.3.10 噬菌体的侵染和滴度测定 |
2.3.11 Fosmid文库的单克隆获取、复制、保存 |
2.3.12 Fosmid文库的质量检测 |
2.3.13 Paired-end末端测序文库构建 |
2.4 Paired-end末端测序数据分析 |
2.4.1 原始数据 |
2.4.2 原始数据经CCS校正 |
2.4.3 CCS数据提取FESs(Fosmid end sequences) |
2.4.4 FESs比对到参考基因组 |
2.4.5 sam文件分析 |
2.4.6 FESs正确率统计 |
2.5 Paired-end末端序列辅助基因组组装 |
2.5.1 模拟Pac Bio全基因组测序数据并组装contigs |
2.5.2 Scaffolds组装 |
2.6 Paired-end末端序列鉴别结构变异位点 |
2.6.1 单末端结构变异位点识别 |
2.6.2 双末端结构变异位点识别 |
2.7 Paired-end末端序评估Yugu18 基因组组装质量 |
2.7.1 Yugu18与Yugu1 全基因组比对 |
2.7.2 利用FESs对 Yugu18 基因组做正确率统计评估 |
3 结果与分析 |
3.1 p HZAUFOS3 载体的改造 |
3.2 p HZAUFOS3 载体的大量制备质量检测 |
3.3 酵母Y2 Fosmid文库构建及质量检测 |
3.4 谷子S2 Fosmid文库构建及质量检测 |
3.5 Fosmid克隆混合池Paired-end末端测序文库构建及质量检测 |
3.5.1 Fosmid文库克隆混合池质粒DNA的打断 |
3.5.2 Fosmid文库克隆混合池质粒DNA的回收 |
3.5.3 Fosmid克隆混合池Paired-end末端测序文库质量检测 |
3.6 Fosmid克隆混合池Paired-end末端测序文库测序样品制备 |
3.7 Fosmid克隆混合池Paired-end末端测序文库测序数据统计 |
3.7.1 ZMW孔内分子数据统计 |
3.7.2 测序数据质量统计 |
3.7.3 测序数据聚合酶序列长度分布 |
3.7.4 测序数据Subread统计 |
3.8 酵母Fosmid克隆混合池paired-end末端测序文库Y1 测序原始数据与酵母基因组比对情况 |
3.9 酵母Fosmid克隆混合池paired-end末端测序文库Y1 测序原始数据处理 |
3.9.1 三代数据预处理 |
3.9.2 二代数据预处理 |
3.9.3 双端序列提取 |
3.9.4 双端序列预处理 |
3.9.5 单端序列提取与校正 |
3.9.6 双端序列校正以及合并重复序列 |
3.9.7 单末端序列组装以及二代序列组装 |
3.10 Fosmid克隆混合池paired-end末端测序文库测序原始数据分析 |
3.10.1 三代数据预处理 |
3.10.2 Fosmid end squence(FES)提取 |
3.10.3 Fosmid end squence(FES)数据比对分析 |
3.11 Fosmid克隆混合池paired-end末端序列辅助全基因组de novo组装 |
3.11.1 模拟酵母Pac Bio全基因组装 |
3.11.2 模拟谷子Pac Bio全基因组装 |
3.11.2.1 模拟Yugu1三代测序 |
3.11.2.2 组装得到Yugu1 Contigs |
3.11.2.3 Yugu1真实双端数据处理 |
3.11.2.4 优化FES提取流程 |
3.11.2.5 组装得到Yugu1 Scaffolds |
3.11.2.6 Scaffolds与参考基因组全基因组比对 |
3.12 Fosmid克隆混合池paired-end末端序列鉴别结构变异位点 |
3.13 Fosmid克隆混合池paired-end末端序列评估基因组组装质量 |
4 讨论 |
4.1 p HZAUFOS3 载体的优化改造及制备 |
4.2 文库构建中高质量基因组DNA的提取 |
4.3 文库构建中大片段基因组DNA的回收 |
4.4 长读长paired-end文库构建技术要点 |
4.5 长读长paired-end文库测序数据分析 |
4.6 长读长paired-end文库测序数据校正及优化 |
4.7 长读长paired-end技术的应用 |
参考文献 |
附录 |
作者简介 |
论文发表情况 |
参加过的会议及摘要 |
致谢 |
(6)体细胞基因突变高通量测序检测生物信息学分析参考物质的研究(论文提纲范文)
英文缩略词 |
中文摘要 |
Abstract |
前言 |
1. 材料和方法 |
1.1 实验材料和试剂配制 |
1.1.1 仪器 |
1.1.2 细胞系 |
1.1.3 主要实验耗材 |
1.1.4 主要实验试剂 |
1.1.5 溶液的配制 |
1.1.6 主要的生物信息分析软件 |
1.2 方法 |
1.2.1 人全血基因组DNA和GM12878细胞系DNA提取 |
1.2.1.1 全血基因组DNA提取 |
1.2.1.2 GM12878细胞系DNA提取 |
1.2.2 高通量测序 |
1.2.2.1 Illumina平台靶向测序 |
1.2.2.2 Ion Torrent平台靶向测序 |
1.2.2.3 BGISeq500平台靶向测序 |
1.2.2.4 全基因组测序 |
1.2.3 生物信息学分析参考数据模拟软件开发 |
1.2.3.1 VarBen软件设计方案 |
1.2.3.2 VarBen软件SNV和Indel突变编辑原理 |
1.2.3.3 VarBen软件SV和CNV编辑原理 |
1.2.3.4 Ion Torrent测序平台测序数据编辑原理 |
1.2.4 体细胞突变生物信息学分析参考数据的制备及验证 |
1.2.4.1 生物信息学分析参考数据的制备 |
1.2.4.2 生物信息学分析参考数据的验证 |
1.2.5 体细胞突变检测的生物信息学分析流程 |
1.2.5.1 Illumina和BGISeq 500平台靶向测序数据分析流程 |
1.2.5.2 Ion Torrent平台靶向测序数据分析流程 |
1.2.5.3 Illumina平台全基因组测序数据分析流程 |
1.2.5.4 生物信息学分析流程体细胞突变检测能力的评价 |
1.2.6 肿瘤体细胞突变高通量测序检测生物信息分析室间质量评价 |
1.2.6.1 生物信息学分析室间质量评价样本的制备及验证 |
1.2.6.2 生物信息学分析室间质量评价方案 |
1.2.6.3 生物信息学分析室间质量评价样本的发放 |
1.2.6.4 临床实验室回报结果评价规则 |
2. 结果 |
2.1 高通量测序结果 |
2.1.1 Illumina平台靶向测序 |
2.1.2 Ion Torrent平台靶向测序 |
2.1.3 BGISeq500平台靶向测序 |
2.1.4 全基因组测序 |
2.2 VarBen生物信息分析参考数据模拟软件 |
2.3 VarBen软件使用方法 |
2.3.1 muteditor.py的使用方法 |
2.3.2 sveditor.py的使用方法 |
2.4 VarBen制备生物信息学分析参考数据的验证 |
2.4.1 VarBen模拟测序数据与真实样本测序数据的比较结果 |
2.4.2 测序数据基因组背景、reads分割及比对软件对VarBen的影响 |
2.4.3 VarBen可用于不同测序平台、不同捕获方法靶向测序数据的编辑 |
2.5 肿瘤体细胞突变高通量测序检测生物信息分析室间质量评价 |
2.5.1 生物信息学分析室间质量评价样本的制备及验证 |
2.5.1.1 室间质量评价样本突变位点 |
2.5.1.2 室间质量评价样本的制备 |
2.5.1.3 室间质量评价样本的验证 |
2.5.2 生物信息学分析室间质量评价结果 |
2.5.3 临床实验室体细胞突变生物信息学分析检测能力分析 |
3. 讨论 |
参考文献 |
论文综述 The cornerstone of integrating circulating tumor DNA into cancermanagement |
参考文献 |
附录1 关于开展全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质量评价预研报名的通知 |
附录2 全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质量评价调查回执 |
附录3 2017年全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质评活动安排及注意事项(第一轮) |
附录4 2017年全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质评活动安排及注意事项(第二轮) |
附录5 2017年全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质量评价活动结果回报表 |
致谢 |
个人简介 |
(7)16S rRNA基因二代测序中的测序深度与测序错误对微生物群落多样性分析的影响(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 以16S rRNA为代表的分子生物学研究方法在现代微生物学中的作用 |
1.1.1 16S rRNA的结构与功能 |
1.1.2 以16S rRNA为代表的分子生物学技术推动了现代微生物学的发展 |
1.1.3 现代微生物学中的物种定义 |
1.1.4 微生物物种鉴定的分子生物学方法 |
1.2 16S rRNA基因研究中的高通量测序技术 |
1.2.1 16S rRNA基因高变区扩增子片段的选择和获取 |
1.2.2 使用Illumina MiSeq进行16S rRNA基因扩增子测序 |
1.2.3 测序数据的质量控制 |
1.3 16S rRNA基因测序数据分析方法 |
1.3.1 基于16S rRNA基因划分可操作分类单元(operational taxonomic unit,OTU) |
1.3.2 不依赖于OTU划分的分析方法 |
1.3.3 16S rRNA数据分析软件包 |
1.3.4 16S rRNA数据库 |
1.4 16S rRNA高通量测序分析中尚待解决的问题 |
1.4.1 选择测序深度的问题 |
1.4.2 如何准确进行数据分析的问题 |
第2章 测序深度对微生物群落多样性指标的影响 |
2.1 材料与方法 |
2.1.1 数据集 |
2.1.2 数据模拟 |
2.1.3 序列处理和数据分析 |
2.1.4 统计分析 |
2.2 结果 |
2.2.1 测序深度对于alpha多样性的影响 |
2.2.2 测序深度对于重构beta多样性距离矩阵的影响 |
2.2.3 测序深度对于识别组间差异的影响 |
2.2.4 测序深度对于菌群样本分组聚类准确率的影响 |
2.3 讨论 |
2.4 本章小结 |
第3章 减少16S rRNA基因扩增子测序数据中的虚假分类特征 |
3.1 材料与方法 |
3.1.1 人工群落(Mock)的构建 |
3.1.2 人工群落的Illumina Miseq平台测序 |
3.1.3 获取模拟数据集 |
3.1.4 获取真实数据集 |
3.1.5 原始测序数据质量控制 |
3.1.6 三套软件的默认OTU划分流程 |
3.1.7 统一后的测序数据质量控制流程 |
3.1.8 对统一质控后的测序数据进行OTU划分 |
3.1.9 基于丰度的序列筛选(AF) |
3.1.10 基于AF的OTU划分和重比对(AOR) |
3.1.11 OTU划分质量的评估 |
3.1.12 本研究使用的软件 |
3.2 结果 |
3.2.1 基于人工群落样本对测序质量进行评估 |
3.2.2 在人工群落数据中使用UPARSE、QIME和mothur的默认流程划分OTU的结果 |
3.2.3 在人工群落数据中改善OTU划分的准确性 |
3.2.4 设定统一的质控流程 |
3.2.5 用于OTU划分的高质量序列中仍然存在低丰度的错误序列 |
3.2.6 高质量序列中潜藏的错误序列是虚假OTU的主要肇因 |
3.2.7 基于丰度的序列筛选(AF)能够显着降低虚假OTU的数目 |
3.2.8 AF同样能够提高不划分OTU的分析方法的准确性 |
3.2.9 在更加复杂的模拟数据中对AF和AOR的效果进行验证 |
3.2.10 在真实数据中对AOR的效果进行验证 |
3.3 讨论 |
3.4 本章小结 |
第4章 慢性乙型肝炎患者肠道菌群的结构与功能紊乱参与了肝病的发展 |
4.1 材料与方法 |
4.1.1 入组信息 |
4.1.2 临床试验信息 |
4.1.3 生理指标检测 |
4.1.4 粪便样品的收集和微生物DNA的提取 |
4.1.5 微生物16S rRNA基因V3-V4区片段扩增与测序 |
4.1.6 测序数据划分可操作分类单元(OTU) |
4.1.7 计算肠道菌群失调指数(GDI) |
4.1.8 根据16S rRNA基因测序信息对肠道菌群的功能进行预测 |
4.1.9 用于代谢物检测的血液样本制备 |
4.1.10 血液代谢组测定 |
4.1.11 统计分析 |
4.2 结果 |
4.2.1 生理指标概览 |
4.2.2 慢性乙型肝炎患者肠道菌群的整体变化 |
4.2.3 肠道菌群失调指数(GDI)及其临床诊断价值 |
4.2.4 肠道菌群功能预测 |
4.2.5 与临床指标相关的OTU |
4.2.6 与宿主血液代谢组相关的OTU |
4.3 讨论 |
4.4 本章小结 |
第5章 全文总结 |
5.1 本研究的主要结论 |
5.1.1 基于alpha多样性指数的稀释曲线不足以反映测序深度对微生物群落多样性研究的影响 |
5.1.2 低丰度的错误序列是产生虚假微生物分类特征信息的主要原因 |
5.1.3 肠道菌群可能通过调节宿主代谢的方式参与了肝病的发展 |
5.2 本研究的主要创新点 |
5.3 本研究的展望 |
参考文献 |
附录 缩写及全称 |
致谢 |
攻读博士学位期间研究成果 |
(8)利用目标捕获高通量测序筛查人类非梗阻性无精子症单核苷酸变异(论文提纲范文)
前言 |
中文摘要 |
Abstract |
第1章 绪论 |
1.1 高通量测序技术的发展、原理及展望 |
1.1.1 高通量测序技术的发展应用 |
1.1.2 高通量测序技术的工作原理及技术特点 |
1.1.3 高通量测序技术未来展望:三代测序 |
1.2 目标捕获测序技术 |
1.2.1 目标捕获测序技术检测范围及商品化panel |
1.2.2 目标捕获原理 |
1.2.3 目标捕获方法技术特点及选择策略 |
1.3 非梗阻性无精子症相关基因SNP关联分析现状 |
1.3.1 SNV检测方法 |
1.3.2 NOA相关SNP关联研究文献回顾 |
第2章 材料和方法 |
2.1 主要实验仪器 |
2.2 主要实验试剂(盒) |
2.2.1 主要订购实验试剂(盒) |
2.2.2 主要配制实验试剂 |
2.3 研究对象纳入和候选基因筛选 |
2.3.1 NOA组受试患者纳入 |
2.3.2 对照组受试者纳入 |
2.3.3 筛选目标区域捕获测序NOA相关基因 |
2.4 实验方法 |
2.4.1 相关基本信息收集和临床指标检测 |
2.4.2 目标区域捕获测 |
2.4.3 Case-Control study及统计分析方法 |
第3章 结果 |
3.1 研究对象基本信息和NOA相关临床指标 |
3.2 目标区域捕获测序检测结果 |
3.2.1 目标区域捕获测序产出数据质量检测 |
3.2.2 目标区域捕获测序检测结果 |
3.3 目标区域捕获测序检出SNV变异与NOA关联研究 |
3.3.1 待研究候选SNV筛选 |
3.3.2 NOA组与对照组SNV等位基因频率对比 |
3.3.3 SNV等位基因与NOA关联研究 |
3.3.4 NOA相关SNV基因型分析 |
3.4 NOA相关SNV基因型与NOA相关临床表型关联研究 |
3.4.1 NOA相关SNV基因型频率对比 |
3.4.2 NOA相关SNV基因型与临床表型相关性分析 |
3.5 NOA相关SNV单体型分析 |
3.5.1 1号染色体相关SNV单体型分析 |
3.5.2 5号染色体相关SNV单体型分析 |
3.5.3 6号染色体相关SNV单体型分析 |
3.5.4 17号染色体相关SNV单体型分析 |
3.6 NOA相关SNV library构建 |
3.6.1 贝勒流程筛选候选SNM |
3.6.2 筛选对照组内等位基因频率为0的SNM |
3.6.3 SNV library构成、数据库分布及变异效果统计比较 |
第4章 讨论 |
4.1 年龄对精子发生的影响 |
4.2 目标区域捕获结合高通量测序检测结果分析 |
4.2.1 关于目标NOA相关基因的讨论 |
4.2.2 关于目标区域捕获结合高通量测序产出数据质量的讨论 |
4.2.3 关于目标区域捕获结合高通量测序结果的讨论 |
4.3 NOA相关SNV关联研究结果分析 |
4.3.1 关于哈迪温伯格平衡的讨论 |
4.3.2 关于Bonferroni校正的讨论 |
4.3.3 关于NOA相关SNV及所在基因的讨论 |
4.4 关于贝勒流程的讨论 |
第5章 结论 |
创新点及实际应用价值 |
参考文献 |
附录1-目标区域捕获测序NOA相关基因列表 |
附录2-患者基本信息问询表 |
附录3-医生查体记录表 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(9)猪不同组织和不同品种肌肉组织基因组DNA甲基化分析(论文提纲范文)
提要 |
中文摘要 |
Abstract |
第一章 文献综述 |
1.1 DNA甲基化的研究进展 |
1.2 DNA甲基化检测方法 |
第二章 F-MSAP和MSAP检测方法比较 |
2.1 材料与方法 |
2.2 结果与分析 |
2.3 讨论 |
2.4 小结 |
第三章 猪不同组织基因组DNA甲基化分析 |
3.1 材料与方法 |
3.2 结果与分析 |
3.3 讨论 |
3.4 小结 |
第四章 不同品种猪肌肉组织基因组DNA甲基化分析 |
4.1 材料与方法 |
4.2 结果与分析 |
4.3 讨论 |
4.4 小结 |
第五章 结论 |
5.1 F-MSAP与MSAP方法的比较 |
5.2 猪各个组织基因组DNA甲基化分析 |
5.3 不同品种猪肌肉组织基因组DNA甲基化分析 |
参考文献 |
导师简介 |
作者简介及科研成果 |
致谢 |
(10)基于PCR的SSR标记分离方法综述(论文提纲范文)
1 基于RAPD的微卫星分离方法 |
2 基于ISSR抑制PCR扩增法 |
3 序列标签微卫星分析 |
4 选择性扩增微卫星分析 |
5 荧光ISSR-PCR方法获得微卫星位点 |
6 微卫星扩增文库法 |
7 展望 |
四、增加ABI-377自动测序仪测序长度的改进措施(论文参考文献)
- [1]AIO-seq高通量测序技术开发及玉米NAM群体遗传特性和株型性状QTL定位研究[D]. 赵胜. 中国农业科学院, 2021
- [2]高通量测序捕获建库技术研发及其在复杂疾病分子遗传学研究中的应用[D]. 周娟. 上海交通大学, 2020(01)
- [3]基于学习的第三代测序一致性序列生成[D]. 王水介. 哈尔滨工业大学, 2020(02)
- [4]纳米孔测序数据分析方法研究[D]. 张誉庆. 哈尔滨工程大学, 2020(05)
- [5]基于PacBio的高通量Fosmid文库克隆长配对末端测序技术的开发[D]. 戴钊钊. 华中农业大学, 2019(01)
- [6]体细胞基因突变高通量测序检测生物信息学分析参考物质的研究[D]. 李子阳. 北京协和医学院, 2019(02)
- [7]16S rRNA基因二代测序中的测序深度与测序错误对微生物群落多样性分析的影响[D]. 王景. 上海交通大学, 2018(01)
- [8]利用目标捕获高通量测序筛查人类非梗阻性无精子症单核苷酸变异[D]. 梁骥. 吉林大学, 2016(08)
- [9]猪不同组织和不同品种肌肉组织基因组DNA甲基化分析[D]. 杨春. 吉林大学, 2011(09)
- [10]基于PCR的SSR标记分离方法综述[J]. 何琳,王群. 基因组学与应用生物学, 2010(04)