基因序列简介
mRNA (messenger RNA)信使RNA ,是由编码区(CDS )、上游的5’非编码区和下游3’非编码区组成,真核生物mRNA 的5’端带有7-甲基鸟苷-三磷酸帽子结构,3’端有多腺苷酸尾巴,但NCBI 中mRNA 序列实际上是cDNA 序列,即经过反转录得到的与RNA 序列互补的DNA 序列,一般不包括3’多腺苷酸尾巴。一个cDNA 序列被称为一个转录子,第一个碱基所在的位置为转录起始位点(TSS ),cDNA 都是由外显子组成,但编码蛋白质的外显子只有一个,即CDS (coding sequence),这段序列也就是一个ORF 区,也就是这个cDNA 的ORF 序列。参与特定基因转录及其调控的TSS 上游序列称为启动子(Promoter ),如原核生物在转录起始位点上游-10有一段TATAAT 的保守序列,有助于局部解链,在-35有一段TTGACA 序列提供RNA 聚合酶识别信号,真核生物上游-25到-30TATA 决定起始位点,-75位置CAAT 与RNA 聚合酶,这些都是启动子,启动子的范围非常大,可以包含转录起始位点上游2000bp ,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。
克隆可以简单理解为复制品,例如假设通过提取mRNA ,反转录后得到cDNA 序列,然后将这段序列转入载体,再通过划线不断的繁殖,就会得到许多装有这段cDNA 序列的克隆,实验室为了方便,在给得到的这些克隆起名时,一般会取cDNA 序列的名,但实际上在这个克隆里面不仅包括了这个cDNA ,还包括了载体的DNA 。
STS (sequence-tagged site)序列标记位点,是基因组上定位明确、作为界标并能通过PCR 扩增被唯一操作的短的、单拷贝DNA 序列,一般长度为200-500bp ,一个DNA 序列要成为STS ,首先序列必须已知,能用PCR 方法检测,第二STS 必须在基因组上具有唯一的定位点。通过STS 可以判断在不同条件下测序得到的DNA 序列的准确性。
EST (expressed sequence tag )表达序列标签,是从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 序列。全基因组测序发现基因即昂贵又费时,因为基因组中只有2%序列编码蛋白质,因此可以对真正编码蛋白质的mRNA 构建cDNA 文库,对cDNA 进行测序,得到EST 序列,从而发现新基因。
下面以大鼠CTGF 基因为例子,小写字母是转录子前后200bp 启动子相关序列,大写字母表示的是cDNA 序列,也就是转录子,其中蓝色标记的部分为CDS 序列,湖蓝色的为转录起始位点,即TSS ,加粗带下划线的为起始密码子
agtgtgccagctttttcagacggaggaatgtggagtgtcaaggggtcaggatcaatccggtgtgagttgatgaggcagg aaggtggggaggaatgcgaggaatgtccctgtttgtgtaggactccattcagttctttggcgagccggccgcccggagc gtataaaagccagcgccacccgcccagtctcacacagctctt C TCTCCAAGAAGACTCAGCCAGACCCACTCCAGCTCC GACCCTAGGAGACCGACCTCCTCCAGACGGCAGCAGCCCCAGCCCAGTGGACAACCCCAGGAGCCACCACCTGGAGCGT CCGGACACCAACCTCCGCCCCGAGACCGAGTCCAGGCTCCGGCCGCGCCCCTCGTCGCCTCTGCACCCCGCTGTGCGTC CTCCTGCCGCGCCCCGACC ATG CTCGCCTCCGTCGCGGGTCCCGTTAGCCTCGCCTTGGTGCTCCTCCTCTGCACCCGG CCTGCCACCGGCCAGGACTGCAGCGCGCAGTGTCAGTGCGCAGCTGAAGCGGCGCCGCGCTGCCCCGCCGGCGTGAGCC TGGTGCTGGACGGCTGCGGCTGCTGCCGCGTCTGCGCCAAGCAGCTGGGAGAACTGTGCACGGAGCGTGATCCCTGCGA CCCACACAAGGGTCTCTTCTGCGACTTCGGCTCCCCCGCCAACCGCAAGATTGGCGTGTGCACTGCCAAAGATGGTGCA CCCTGTGTCTTCGGTGGGTCCGTGTACCGCAGCGGCGAGTCCTTCCAAAGCAGTTGCAAATACCAGTGCACTTGCCTGG ATGGGGCCGTGGGCTGTGTGCCCCTGTGCAGCATGGACGTGCGCCTGCCCAGCCCTGACTGCCCCTTCCCGAGAAGGGT CAAGCTGCCCGGGAAATGCTGTGAGGAGTGGGTGTGTGATGAGCCCAAGGACCGCACAGTGGTTGGCCCTGCCCTAGCT GCCTACCGACTGGAAGACACATTTGGCCCTGACCCAACTATGATGCGAGCCAACTGCCTGGTCCAGACCACAGAGTGGA GCGCCTGTTCTAAGACCTGTGGGATGGGCATCTCCACCCGGGTTACCAATGACAATACCTTCTGCAGGCTGGAGAAGCA GAGTCGTCTCTGCATGGTCAGGCCCTGTGAAGCTGACCTAGAGGAAAACATTAAGGTAAATAAATACTCTGCCCCCAGA CACTCATTTTCACAGAATGACAGGAAAGAGAACCAGAGCTGGCTGTCTCGCCGCCCTTCTTATTATAGGCCTGTTGTCT CCAGAAATATCTAACCATGGAGCTGTCTGGCTAGAATGAGAGATGCTGTAACAGCAGCTGCCAGTTTTCCACTACAAAA
TTCCCCGGGGTGTTAGTTAATACGAGACACTCCAAACGAAGCCATGGCTATTTTTGGAAAACTGGCGAATGAAACTCCC AGTCTCTCTCCCCTCAGAATATAAACACAAGTCAGATGACATAGGGCTAGTCTACAGAGGGTTGAGGAAGGCCACTCCC GTTGTAGTAATTGCGGTGTCTCTTCTCGTCTTCCCTTAGAAGGGCAAAAAGTGCATCCGGACGCCTAAAATTGCCAAGC CTGTCAAGTTTGAGCTTTCTGGCTGCACCAGTGTGAAGACCTACCGGGCTAAGTTCTGTGGGGTGTGCACGGACGGCCG CTGCTGCACACCGCACAGAACCACCACACTGCCGGTGGAGTTCAAGTGCCCCGATGGCGAGATCATGAAAAAGAACATG ATGTTCATCAAGACCTGTGCCTGCCATTACAACTGTCCCGGGGACAATGACATCTTTGAGTCCTTGTACTACAGGAAGA TGTATGGAGACATGGCGTAA AGCCAGGGAGTAAGGGACACGAACTCATTTAGACTATAACTTGAACTGAGTTACATCTC ATTTTCTTCTGTAAAAAAACAAAAAGGATTACAGTAGCACATTAATTTAAATCTGGGTTCCTAACTGCTGTGGGAGAAA ACACCCCACCGAAGTGAGAACCGTGTGTCATTGTCATGCAAATAGCCTGTCAATCTCAGACACTGGTTTCGAGACAGTT TAGACTTGACAGTTGTTCACTAGCGCACAGTGACAGAACGCACACTAAGGTGAGCCTCCTGGAAGAGTGGAGATGCCAG GAGAAAGACAGGTACTAGCTGAGGTCATTTTAAAAGCAGCGATATGCCTACTTTTTGGAGTGTGACAGGGGAGGGACAT TATAGCTTGCTTGCAGACAGACCTGCTCTAGCAAGAGCTGGGTGTGTGTCCTCCACTCGGTGAGGCTGAAGCCAGCTAT TCTTTCAGTAAGAACAGCAGTTTCAGCGCTGACATTCTGATTCCAGTGACACTGGTCGGGAGTCAGAACCTTGTCTATT AGACTGGACAGCTTGTGGCAAGTGAATTTGCCGGTAACAAGCCAGATTTTTATGGATCTTGTAAATATTGTGGATAAAT ATATATATTTGTACAGTTATCTAAGTTAATTTAAAGACGTTTGTGCCTATTGTTCTTGTTTTAAGTGCTTTTGGAATTT TTAAACTGATAGCCTCAAACTCCAAACACCATCGATAGGACATAAAGCTTGTCTGTGATTCAAAACAAAGGAGATACTG CAGTGGAAACTGTAACCTGAGTGACTGTCTGTCAGAACATATGGTACGTAGACGGTAAAGCAATGGATCAGAAGTCAGA TTTCTAGTAGGAAATGTAAAATCACTGTTGGCGAACAAATGGCCTTTATTAAGAAATGGCTTGCTCAGGGTAACTGGTC AGATTTCCACGAGGAAGTGTTTGCTGCTTCTTTGACTATGACTGGTTTGGGAGGCAGTTTATTTGTTGAGAGTGTGACC AAAAGTTACATGTTTGCACCTTTCTAGTTGAAAATAAAGTATATATATTTTTTATATGaaaggcttggctgctcattct tgtaaactttccttgggtttccctgggtgtaagcaggaagtttatatttatcttaaggtaattcactaagatgtttaca aacaactttgatgtgcatgagtcacatgaaatcaatagaattttgcataagcatcccttacaccggaccaagtagacat gagcatcaattatctacatgg
首先, 的先简单介绍一下,DNA 到protein 这个过程. 对于一个gene, 它除了含有翻译成protein 的那短序列, 也就是CDS (coding sequence ), 还有一些 untranslated 的部分, 比如promoter 等, 就是 常说的3'UTR 和 5'UTR .
Google 了一个图片放在这里:
感觉这个图有点问题, 从wiki 上找了个图, 这个是mRNA 的结构图
这个是
RNA splicing的图
再来一张
exon 的图
很重要的一点
In many genes , each exon contains part of the open reading frame (ORF) that codes for a specific portion of the complete protein . However, the term exon is often misused to refer only to coding sequences for the final protein. This is incorrect, since many noncoding exons are known in human genes (Zhang 1998).
注意, 这里很重要的一句话, 人们往往认为exon 就是编码蛋白的那些序列, 但是人类中就有很多不编码的exon!
To the right is a diagram of an heterogeneous nuclear RNA (hnRNA), which is an unedited mRNA transcript, or pre-mRNAs . Exons can include both sequences that code for amino acids(red) and untranslated sequences (grey). Stretches of unused sequence called introns (blue) are removed, and the exons are joined together to form the final functional mRNA . The notation 5' and 3' refer to the direction of the DNA template in the chromosome and is used to distinguish between the two untranslated regions (grey).
Some of the exons will be wholly or part of the 5' untranslated region (5' UTR) or the 3' untranslated region (3' UTR) of each transcript. The untranslated regions are important for efficient translation of the transcript and for controlling the rate of translation and half life of the transcript. Furthermore, transcripts made from the same gene may not have the same exon structure since parts of the mRNA could be removed by the process of alternative splicing. Some mRNA transcripts have exons with no ORF's and thus are sometimes referred to as non-coding RNA. 有些exon 可能就是这个UTR 区域, 或者部分的UTR 区域. 这样看来exon 实际是相对splicing 而言的, 不是相对translate 而言的, 也就是说 在splicing 中保留的部分 才叫exon. 那我们平时 所理解的 exon 其实是 ORF.
总结一下, 现在对exon 有两种理解
1. exon就是ORF,exon 不含UTR
2. exon是ORF 和UTR 合起来的总称
这样看来, 前面那张图没有问题.
有些mRNA transcript 不翻译成protein, 但是有exon.
TSS 就是5'UTR 的起点了
那么