tBLASTn比对根肿菌基因
bBLAST:
TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索。反之,当你不是想找跟你手上这条蛋白质序列相似的蛋白质序列,而是想找跟编码这条蛋白质序列的核酸序列相似的核酸序列的时候,就要做tBLASTn。
tBLASTn
是用蛋白质序列搜核酸序列数据库,核酸数据库中的核酸序列要按6条链翻译成蛋白质序列后再被搜索。你可能要问了,核酸数据库里不是已经注释了某条核酸序列能够翻译成什么蛋白质序列吗?为什么还要把这些序列可能翻译出来的6条蛋白质序列都翻译出来搜索呢?我们说,你看到的是已经注释的,还有没注释的呢!就算是已经注释的,你看到的也只是已经研究出来的成果,还有没研究出来的呢!别忘了,基因可以重叠,注释上说某段DNA序列可以编码某个蛋白,但是可能某个未被发现的基因也用到了这段DNA序列。而你要搜索的这个蛋白质序列可能刚好就是这个未被发现的基因的翻译产物。这样就必须把核酸序列所有可能的翻译产物都翻译出来,才能搜索得到。
长度:370 bp
1 2 3 4 5 6
| >Pb-zf-CCCH MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRFQHGPAPSSSNPFNPSGGFGSAS SNPFQAKFGQSSGLATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLPVASCVL VRGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQGPFKKVEYVPKKKKCIAMIAGGTGIT PMLQVIEESLNHPNDTTKFLLIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP APAPDMSIFVCGPPPMMKAISGDKNPDKSQGPLTGILAQLGYTSDHVFKF
|
将北京根肿菌基因组文章数据中Pb001646
数据进行tblastn,结果只有一个根肿菌(Plasmodiophora
brassicae)的匹配
Plasmodiophora brassicae strain 3A chromosome 12
匹配到3块地方,序列范围已经确定
Sequence ID: CP145419.1 匹配到的序列ID
Length: 1206894 长度
Number of Matches: 3 得到的匹配数
Range 1: 79644 to 80402 (759 bp/3=253 个氨基酸)
Query: 162 to 370 209 个氨基酸
377 bits(969) |
9e-135 |
Compositional matrix adjust. |
209/253(83%) |
209/253(82%) |
44/253(17%) |
-2 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| Query 162 RGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQ------- 214 RGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQ Sbjct 80402 RGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQVVDLAGR 80223(这里的编号是核酸编号,但是转成了蛋白质,因此序号之差有3倍的关系)
Query 215 --------------GPFkkveyvpkkkkCIAMIAGGTGITPMLQVIEESLNHPNDTTKFL 260 GPFKKVEYVPKKKKCIAMIAGGTGITPMLQVIEESLNHPNDTTKFL Sbjct 80222 LHRLQV*AHFSFVQGPFKKVEYVPKKKKCIAMIAGGTGITPMLQVIEESLNHPNDTTKFL 80043
Query 261 LIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP 320 LIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP Sbjct 80042 LIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP 79863
Query 321 APAPDMSIFVC-----------------------GPPPMMKAISGDKNPDKSQGPLTGIL 357 APAPDMSIFVC GPPPMMKAISGDKNPDKSQGPLTGIL Sbjct 79862 APAPDMSIFVCGTNCISFPVFMGVFVAEFRGVLVGPPPMMKAISGDKNPDKSQGPLTGIL 79683
Query 358 AQLGYTSDHVFKF 370 AQLGYTSDHVFKF Sbjct 79682 AQLGYTSDHVFKF 79644
|
Range 2: 80461 to 80664
137 bits(344) |
9e-135 |
Compositional matrix adjust. |
68/68(100%) |
68/68(100%) |
0/68(0%) |
-1 |
1 2 3 4 5 6 7
| Query 95 ATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLP 154 ATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLP Sbjct 80664 ATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLP 80485
Query 155 VASCVLVR 162 VASCVLVR Sbjct 80484 VASCVLVR 80461
|
Range 3: 81568 to 81927
138 bits(348) |
7e-31 |
Compositional matrix adjust. |
96/120(80%) |
96/120(80%) |
20/120(16%) |
-1 |
1 2 3 4 5 6 7
| Query 1 MNAFHKRVVsgssssPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRF-- 58 MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRF Sbjct 81927 MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRFQV 81748
Query 59 ------------------QHgpapsssnpfnpsggfgsASSNPFQAKFGQSSGLATAVAQ 100 QHGPAPSSSNPFNPSGGFGSASSNPFQAKFGQSSGL AQ Sbjct 81747 TDRAVLVLLCVP*CAVCVQHGPAPSSSNPFNPSGGFGSASSNPFQAKFGQSSGLGAFGAQ 81568
|
知道定位到基因组序列上一段范围后,对基因组进行注释,确定这一范围的基因,及OCF
自昨天通过基因组文章的蛋白注释信息找到在芸薹根肿菌中含有其结构域的蛋白,其信息如下:
长度:370 bp
基因编号: PLBR_LOCUS6622
1 2 3 4 5 6
| >Pb-zf-CCCH MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRFQHGPAPSSSNPFNPSGGFGSAS SNPFQAKFGQSSGLATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLPVASCVL VRGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQGPFKKVEYVPKKKKCIAMIAGGTGIT PMLQVIEESLNHPNDTTKFLLIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP APAPDMSIFVCGPPPMMKAISGDKNPDKSQGPLTGILAQLGYTSDHVFKF
|
通过基因编号 PLBR_LOCUS6622 找到基因组
https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_900303365.2/
下载基因组,并截取PLBR_LOCUS6622
基因,进行blast,结果还是对到了昨天的染色体12上