tBLASTn比对根肿菌基因

tBLASTn比对根肿菌基因

bBLAST:

TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索。反之,当你不是想找跟你手上这条蛋白质序列相似的蛋白质序列,而是想找跟编码这条蛋白质序列的核酸序列相似的核酸序列的时候,就要做tBLASTn

tBLASTn 是用蛋白质序列搜核酸序列数据库,核酸数据库中的核酸序列要按6条链翻译成蛋白质序列后再被搜索。你可能要问了,核酸数据库里不是已经注释了某条核酸序列能够翻译成什么蛋白质序列吗?为什么还要把这些序列可能翻译出来的6条蛋白质序列都翻译出来搜索呢?我们说,你看到的是已经注释的,还有没注释的呢!就算是已经注释的,你看到的也只是已经研究出来的成果,还有没研究出来的呢!别忘了,基因可以重叠,注释上说某段DNA序列可以编码某个蛋白,但是可能某个未被发现的基因也用到了这段DNA序列。而你要搜索的这个蛋白质序列可能刚好就是这个未被发现的基因的翻译产物。这样就必须把核酸序列所有可能的翻译产物都翻译出来,才能搜索得到。

长度:370 bp

1
2
3
4
5
6
>Pb-zf-CCCH
MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRFQHGPAPSSSNPFNPSGGFGSAS
SNPFQAKFGQSSGLATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLPVASCVL
VRGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQGPFKKVEYVPKKKKCIAMIAGGTGIT
PMLQVIEESLNHPNDTTKFLLIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP
APAPDMSIFVCGPPPMMKAISGDKNPDKSQGPLTGILAQLGYTSDHVFKF

将北京根肿菌基因组文章数据中Pb001646 数据进行tblastn,结果只有一个根肿菌(Plasmodiophora brassicae)的匹配

Plasmodiophora brassicae strain 3A chromosome 12

匹配到3块地方,序列范围已经确定

Sequence ID: CP145419.1 匹配到的序列ID

Length: 1206894 长度

Number of Matches: 3 得到的匹配数

Range 1: 79644 to 80402 (759 bp/3=253 个氨基酸)

Query: 162 to 370 209 个氨基酸

Score Expect(E值) Method Identities一致性 Positives Gaps插入缺少 Frame
377 bits(969) 9e-135 Compositional matrix adjust. 209/253(83%) 209/253(82%) 44/253(17%) -2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Query  162    RGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQ-------  214
RGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQ
Sbjct 80402 RGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQVVDLAGR 80223(这里的编号是核酸编号,但是转成了蛋白质,因此序号之差有3倍的关系)

Query 215 --------------GPFkkveyvpkkkkCIAMIAGGTGITPMLQVIEESLNHPNDTTKFL 260
GPFKKVEYVPKKKKCIAMIAGGTGITPMLQVIEESLNHPNDTTKFL
Sbjct 80222 LHRLQV*AHFSFVQGPFKKVEYVPKKKKCIAMIAGGTGITPMLQVIEESLNHPNDTTKFL 80043

Query 261 LIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP 320
LIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP
Sbjct 80042 LIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP 79863

Query 321 APAPDMSIFVC-----------------------GPPPMMKAISGDKNPDKSQGPLTGIL 357
APAPDMSIFVC GPPPMMKAISGDKNPDKSQGPLTGIL
Sbjct 79862 APAPDMSIFVCGTNCISFPVFMGVFVAEFRGVLVGPPPMMKAISGDKNPDKSQGPLTGIL 79683

Query 358 AQLGYTSDHVFKF 370
AQLGYTSDHVFKF
Sbjct 79682 AQLGYTSDHVFKF 79644

Range 2: 80461 to 80664

Score Expect Method Identities Positives Gaps Frame
137 bits(344) 9e-135 Compositional matrix adjust. 68/68(100%) 68/68(100%) 0/68(0%) -1
1
2
3
4
5
6
7
Query  95     ATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLP  154
ATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLP
Sbjct 80664 ATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLP 80485

Query 155 VASCVLVR 162
VASCVLVR
Sbjct 80484 VASCVLVR 80461

Range 3: 81568 to 81927

Score Expect Method Identities Positives Gaps Frame
138 bits(348) 7e-31 Compositional matrix adjust. 96/120(80%) 96/120(80%) 20/120(16%) -1
1
2
3
4
5
6
7
Query  1      MNAFHKRVVsgssssPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRF--  58
MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRF
Sbjct 81927 MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRFQV 81748

Query 59 ------------------QHgpapsssnpfnpsggfgsASSNPFQAKFGQSSGLATAVAQ 100
QHGPAPSSSNPFNPSGGFGSASSNPFQAKFGQSSGL AQ
Sbjct 81747 TDRAVLVLLCVP*CAVCVQHGPAPSSSNPFNPSGGFGSASSNPFQAKFGQSSGLGAFGAQ 81568

知道定位到基因组序列上一段范围后,对基因组进行注释,确定这一范围的基因,及OCF

自昨天通过基因组文章的蛋白注释信息找到在芸薹根肿菌中含有其结构域的蛋白,其信息如下:

长度:370 bp

基因编号: PLBR_LOCUS6622

1
2
3
4
5
6
>Pb-zf-CCCH
MNAFHKRVVSGSSSSPPRCKFVNTPGGCRKADCQFSHEAQPCKFYQQGNCRNGASCRFQHGPAPSSSNPFNPSGGFGSAS
SNPFQAKFGQSSGLATAVAQGVRRRLVHIISASMTSVLTPSEFTPFSLAEIVPVNHNTKIYRFKLPDQVSLGLPVASCVL
VRGKIGDELVTRPYTPITSNRVKGHFDLMIKSYPAGKLSAHFATLKPGQTLEFQGPFKKVEYVPKKKKCIAMIAGGTGIT
PMLQVIEESLNHPNDTTKFLLIFANVTEGDILLRERLEGFARSAPGRLEIRYVLEKTEGLSKVKASKGYVTADLLKSLLP
APAPDMSIFVCGPPPMMKAISGDKNPDKSQGPLTGILAQLGYTSDHVFKF

通过基因编号 PLBR_LOCUS6622 找到基因组

https://www.ncbi.nlm.nih.gov/datasets/genome/GCA_900303365.2/

下载基因组,并截取PLBR_LOCUS6622 基因,进行blast,结果还是对到了昨天的染色体12上

image-20240508210811922

tBLASTn比对根肿菌基因
http://example.com/2024/05/20/tBLASTn比对根肿菌基因/
作者
Brianyjh
发布于
2024年5月20日
许可协议