《生物信息学》自学指导书 一、课程编码及适用专业 课程编码: 总学时:60 面授学时:20 自学学时:40 适用专业 :生物类函授本科各专业 二、课程性质 《生物信息学》 (Bioinformatics) 是八十年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,它综合运用数理科学和信息科学的理论、观点和方法去研究生命现象,组织和分析呈指数增长的海量生物学数据。近年来,生物信息学发展迅速,并已开始应用于各相关领域。 三、本课程的地位和作用 《生物信息学》 (Bioinformatics)是一门新兴的交叉学科,是生物学的重大理论前沿。生物信息学课程是适合于生物类各专业的选修课。生物信息学课程的学习对于提高学生的理论水平和拓宽学生的科研视野具有重要的作用。 四、学习目的与要求 通过本课程的学习,应对生物信息学这一新兴的交叉学科有一定的了解。对于有兴趣进入这一研究领域的学生,本课程可以起到引导入门的作用。课程要求主要有以下几点: (一)了解生物信息学的产生背景和主要研究内容,。 (二)熟悉生物数据的类型和格式,对于核酸和蛋白质的一级、二级数据库有一定的了解。 (三)掌握常用的生物数据分析方法和软件。 (四)学习要理论联系实际,重视生物实验、上机操作和实际应用。 五、本课程的学习方法 为了学好本课程,首先要具有正确的学习目的和态度,应为提高我国国民素质和科研水平而学习。在学习中要刻苦钻研、虚心求教、持之以恒。在学习时要抓住基本概念、基本原理、和常用的分析方法;要理解问题的提出背景和解决思路;要注意各部分内容之间的联系。要把理论学习与上机操作结合起来。除学习规定教材外,应参阅相关的参考书。如有条件,可通过参与生物实验,认识数据的收集方法和问题的提出背景,以便巩固所学理论,培养严谨的科学作风。 通过各个学习环节,培养分析和解决问题的能力和创新精神。 六、自学内容与指导 第一章
绪论
(一)自学内容
生物信息学的产生背景和发展阶段;生物信息学的基本方法和技术;生物信息学的应用;生物信息学的教学。 (二)本章重点
1、生物信息学的产生背景和发展阶段。
2、生物信息学的主要研究内容。 (三)本章难点 生物信息学的相关生物实验和计算机技术。 (四)本章考点 1、生物信息学的概念。 2、主要研究内容概述。 (五)学习指导 了解生物信息学产生的历史背景和相关的实验技术,以及以基因组时代为标志的发展阶段的划分。 理解狭义和广义的生物信息学概念的含义;了解生物信息学在整个学科体系中的地位,比如与计算生物学和分子计算的关系等。加强对生物信息学相关学科的知识的学习和了解。特别是要加强对作为生物信息学基础的生物学、数学和计算机科学的学习。 熟悉生物信息学研究的主要问题,主要数据类型、特点,主要研究方法等,以及生物信息学研究所面临的主要挑战等。了解生物信息学的实际应用和发展前景。了解生物信息学教学中的问题。了解经典参考文献和重要学术刊物。 第二章
生物信息学的计算机基础
(一)自学内容
计算机系统的基本知识;计算机程序设计基础;数据管理与数据库技术;计算机网络技术。 (二)本章重点 1、数据管理与数据库技术。 2、计算机网络技术。 (三)本章难点 计算机程序设计。 (四)本章考点 1、数据库相关概念。 2、计算机网络的相关概念。 (五)学习指导 了解计算机的体系结构,包括计算机的硬件组成和软件组成。熟练掌握计算机的基本操作技能。 了解计算机程序设计语言和方法的发展历史。了解常用计算机程序设计语言的特点和适用领域。计算机程序的组成要素和程序设计的基本思路。算法和算法分析的概念。 了解数据管理的发展历史,注意3种数据管理形式各自的优缺点。理解数据库基本概念,以及数据库体系结构的3个抽象级别和两个独立性。关系型数据库的概念和特点。数据库的维护和使用。 了解计算机网络的相关概念,包括局域网和广域网,网络的组件,网络的接入方式,网络协议等。理解客户机/服务器的体系结构。熟悉常用的网络服务形式。熟练运用浏览器在Internet上查找资源。掌握WWW服务器的网络开发技术,特别是LAMP体系的特点和开发技术。了解各大开源的生物软件工程。 第三章
生物信息学资源与数据挖掘工具
(一)自学内容
生物数据的形式、来源和特点,一级数据库包括核酸序列数据库(GenBank)和蛋白质序列数据库(SwissProt) 的特点和数据文件的格式,蛋白质三维结构数据库(PDB)的特点和文件格式。二级知识数据库站点。国际和国内重要的生物信息中心。序列比对软件及网上服务。整合生物信息和数据挖掘软件包。 (二)本章重点 生物数据的类型和文件格式。一级和二级数据库。常用的数据挖掘软件包。 (三)本章难点 数据库文件的格式和相似性数据库搜索工具的使用。 (四)本章考点 1、生物数据的类型。 2、重要的核酸序列和蛋白质序列及大分子结构数据库。 3、常用的数据挖掘软件包。 (五)学习指导 分子生物数据的两种形式是:一维序列数据和三维结构数据。分子生物数据的两种主要类型是核酸数据和蛋白质数据。 二级数据库是在一级数据库基础上构建的知识库,通常是按结构功能或进化关系划分的分类数据库,如蛋白质家族数据库Pfam,二级结构数据库DSSP,蛋白质结构分类数据库SCOP和CATH,直系同源簇COG等。 对于重要的生物信息中心和数据及软件服务网站,要通过互联网登陆查看,熟悉其提供的服务内容和数据格式。了解常用的数据挖掘软件的应用领域和使用方法。特别是序列相似性查询软件BLAST系列的功能和用法,序列获取系统SRS以及模式识别工具PROSITE的功能和用法。了解自由软件套装EMBOSS和商业软件包GCG的功能。 第四章
DNA序列分析
(一)自学内容
DNA序列分析的意义和所能获得的信息。原核与真核生物基因的结构。EST分析的内容方法和意义。序列比对(sequence alignment)的概念,常用的打分矩阵,两序列比对的最基本和最直观的方法dotplot方法。两序列全局比对的概念和算法,局部比对的概念和算法,常用的启发式序列比对算法。多序列比对的常用方法和软件。序列比对的主要用途。 (二)本章重点 1、原核和真核生物的基因结构。 2、序列比对的概念、算法和意义。 (三)本章难点 序列比对的算法。 (四)本章考点 原核与真核生物的基因结构。序列比对的主要用途。 (五)学习指导 DNA序列分析是解析基因组信息和发现新基因的基础。理解原核基因和真核基因的特点和差别。原核基因的结构相对简单,通常没有内含子。真核基因包括内含子、外显子和非翻译区(UTR)。理解概念性翻译(conceptual translation)和开放阅读框(ORF)的概念。理解密码子用法(Codon Usage)的概念。 表达序列标签分析的内容包括cDNA文库的概念,EST数据库的建立,EST分析和电子克隆的概念及其意义。 双序列比对分为全局比对和局部比对,其相应的算法分别为Needleman-Wunsch算法和Smith-Waterman算法。常用的两个打分矩阵系列:PAM系列和BLOSUM系列。 常用的启发式双序列比对算法是BLAST和FASTA算法。序列比对的主要用途以及常用的多序列比对软件。 第五章
分子系统发育分析
(一)自学内容
分子进化的基本概念,包括同源性及其分类和含义。类群的概念。系统发育树的基本概念,包括有根树和无根树,标度树枝和非标度树枝,基因树与物种树等的含义。 分子进化模型与序列分歧度的计算。分子系统树的常用构建方法和检验方法。分子系统发育分析的常用软件包。 (二)本章重点 1、
分子进化模型。 2、
分子系统树的构建方法。 (三)本章难点 1、
分子进化模型。 1、
分子系统树的构建方法。 (四)本章考点 分子系统发育树的构建方法及其优缺点。 (五)学习指导 分子系统发育分析是生物信息学中的一种基本方法,用于研究生物体在分子水平的进化式样、方向、速率以及各种分子机制对基因和蛋白质的结构和功能的影响。分子进化中,同源性是基本概念,它一般是指两个核酸序列和氨基酸序列之间的相似程度及其形成的原因。同源性分为直系同源(orthology)、旁系同源(paralogy)和异系同源(xenology)等。 核酸序列进化的参数模型和分歧度的计算;氨基酸序列进化的置换模型和分歧度的计算;分子系统树的常用构建方法有:距离法、简约法和最大似然法等。理解这些算法的主要思想和各自的优缺点。分子系统发育树的一致性检验和稳定性检验。了解国际上最通用的系统树构建软件包PHYLIP和PAUP的运行环境和用法。 第六章
基因组分析
(一)自学内容
基因组和基因组学的概念;基因组分析的主要任务。结构基因组学的概念、基本原理和方法;功能基因组学的概念、基本原理和方法;比较基因组学(进化基因组学)的概念、基本原理和方法。 (二)本章重点 1、基因组和基因组学的概念。 2、结构基因组学、功能基因组学、比较基因组学的概念和原理。 (三)本章难点 功能基因组学和比较基因组学的基本原理和方法。 (四)本章考点 基因组和基因组学的概念;结构基因组学的三类图谱;基因组计划的背景知识。 (五)学习指导 基因组分析是现阶段生物信息学的主要任务之一。基因组是指一个生物体、细胞器或病毒的整套基因。基因组学是以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能的进化信息。基因组分析的主要任务是确定基因在染色体上的位置,提供遗传信息,并探讨基因之间以及基因与经典遗传学、医学等学科的诸多方面之间的联系。 结构基因组学的研究内容包括基因组的结构组成与稳定性;基因组作图主要涉及遗传连锁图、物理图和表达图等三类图谱。功能基因组学的概念,非确定阅读框和直系同源簇的概念。比较基因组学的概念,三种基本研究方法:系统发育概形法、Rosetta Stone法和基因邻居法。基因组分析系统实例ACeDB。 第七章
蛋白质组分析 (一)自学内容 蛋白质组和蛋白质组学的概念;蛋白质的分类;蛋白质组学的关键技术。 (二)本章重点 蛋白质的分类;蛋白质组学的概念和关键技术。 (三)本章难点 蛋白质组学的关键技术及其作用。 (四)本章考点 蛋白质组学的关键技术;蛋白质的分类。 (五)学习指导 蛋白质组是指一个基因组中的每个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物及其表达情况。 蛋白质组学的主要研究内容及其应用领域包括,蛋白质组作图,基因产物的功能、鉴定与识别,重要生命活动的分子机理,医药靶分子的寻找和疾病诊断。蛋白质分析的关键技术包括双向凝胶电泳技术,蛋白质的鉴定技术和高通量筛选技术。 生物信息学在蛋白质组研究中的应用包括蛋白质数据库的构建,包括一维序列数据库和三维结构数据库以及有关蛋白质分类的二级知识库;序列比对和结构比对算法;结构预测算法;常用的蛋白质组分析软件和网上服务等。 七、自学进度及各章节学时安排 自学周数10周,每周保证4学时,总计40学时。在自学过程中,除了保证时间外,一定要做练习,独立完成布置的作业分两次寄回学校。最好将各章后面的有关思考题做一下,并将所介绍参考资料招来看一看。只有通过练习才能达到对所学内容理解、消化的目的,进而掌握它。各章节学时安排如下。 自学进度表 | | | | | | | 绪论:生物信息学的概念、产生背景、主要研究内容、基本方法和应用领域等。 | 了解生物信息学的内容及研究方法;了解计算机系统的体系结构和程序设计的基础知识。 | 简述生物信息学的产生背景和主要研究内容。举例说明生物信息学的应用领域。简述计算机的体系结构和程序设计的基本概念。 | | 计算机基础(上):计算机系统的基本知识;计算机程序设计基础。 | | | 计算机基础(下):数据管理与数据库技术;计算机网络技术。 | 了解数据管理形式的发展过程和数据库的基本概念和体系结构。了解计算机网络的组件和客户机/服务器体系结构。 | 简述数据库的体系结构和计算机网络所提供的主要服务。上机作业,内容包括Linux系统的基本操作和常用软件,浏览网络的主要服务。 | | | | | 分子生物学基础:生命史;生物分类;模式生物;生物大分子; | 掌握生物大分子的结构特点和生理功能;掌握分子生物学中心法则的内容。 | 说明蛋白质分子的一级结构、二级结构、三级结构、四级结构的概念。 简述分子生物学中心法则的内容。 | | | | | 生物信息学资源与工具:重要的生物信息中心;生物信息数据库及其文件格式; | 掌握重要生物信息数据库的文件格式和检索工具;了解生物信息学的常用软件。 | 上机作业:访问重要的生物信息中心,熟悉其数据文件的格式和数据库查询工具的用法。 | | | | | | 了解生物信息领域的常用算法;掌握隐马尔科夫模型和前向人工神经网络。 | | | | | | | | | |
八、参考资料 1、《简明生物信息学》 高等教育出版社,钟扬主编; 2、《生物信息学手册》 上海科学技术出版社,郝柏林等编著; 3、《生物信息学:序列与基因组分析》(影印版)科学出版社。 4、《生物信息学:基因和蛋白质分析的实用指南》 清华大学出版社,李衍达等译; 教师姓名:张红雨 教授 |