蜜蜂vha16基因推测编码蛋白质的功能预测
摘 要:本文采用生物信息学的方法对蜜蜂(Apis mellifera)vha16基因的cDNA序列推测编码蛋白(GenBank登记号为AAQ21381)进行性质分析和功能预测。分析表明该基因有一个ORF,起始密码子在第59位,终止密码子在第527位,推测编码156个氨基酸,预测其理论相对分子量为15.97kDa,理论等电点pI=6.71。TMHMM-2.0软件分析发现,该基因的推测编码蛋白质序列的第15~34位、第55~77位、第92~114位和第127~149位分别有一个跨膜区。保守结构功能域分析发现该推测编码蛋白序列与目前已知的蛋白质结构功能域数据库中许多物种的ATP合成酶具有相似的结构功能域,在其第13~78位和第91~156位分别为ATP合成酶C亚基保守结构功能域。据此可推测该基因编码蛋白即为蜜蜂ATP合成酶16kDa蛋白脂质C亚基。
关键词:蜜蜂(Apis mellifera);vha16基因;生物信息学;功能预测
生物信息学是当前生物科学的研究热点之一,蛋白质结构功能预测是其中一项重要的内容。由于蛋白质的生物学功能在很大程度上依赖其空间结构,因而进行蛋白质的结构预测对于理解蛋白质结构与功能的关系具有重要的意义[1]。目前国际上正在研究通过完整基因组的数据采集来确定蛋白质的功能。艾森伯格工作组(洛杉矶加利福尼亚大学)根据某些物种间存在同源性蛋白质,且这些同源性蛋白质可以相互作用这一原理发展了一种预测蛋白质功能的方法[2]。最近,又发展了几种计算机识别蛋白质功能的新方法,这些方法的原理是根据相同特征的蛋白质之间具有功能上的关联或直接作用[3]。一般来说,对于蛋白质功能预测分析而言,最为重要的莫过于分析目的蛋白质是否和具有功能信息的已知蛋白质相似。其中主要有两个策略:同源序列分析和功能区相关的保守序列特点分析。
到目前为止,已经从多种动物的质膜上都发现了运输质子的液泡型ATP合成酶(vacuolar-type ATPase,V-ATPase)[4-7]。陈大福也利用EST数据库电子克隆了蜜蜂(Apis mellifera)vha16基因的cDNA序列(另文发表)。本文将采用生物信息学的方法分析蜜蜂vha16基因的cDNA序列(GenBank登记号为AY343324)推测编码蛋白质的基本性质,并与其他物种的同源蛋白比较,进行同源序列和功能区相关的保守序列特点分析,初步推测其功能。
1方法
1.1基本性质分析
本研究是使用Amersham公司的RESearch-version 1.0软件分析蜜蜂vha16 cDNA序列推测编码蛋白质的氨基酸组成、理论分子量;联网到http://au.expasy.org/tools/pi_tool.html用其Compute pI/MW工具分析其等电点(pI)[8]。
1.2跨膜区分析
蛋白质的跨膜螺旋特征是可通过序列分析直接得到预测,并能获得较为理想的结果。联网至“http://genome.cbs.dtu.dk/services/TMHMM-2.0”或者“http://www.ch.embnet.org/software / TMPRED _form.html”可进行蛋白质序列的跨膜区分析。
1.3蛋白质的结构功能域分析
简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)是目前较为理想的蛋白质结构功能域分析工具[9]。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据,可用于蛋白质结构功能域的分析。1.4不同物种间蛋白质同源性比较
从NCBI的蛋白质库中下载美洲烟夜蛾(Heliothis virescens,AAC37176)、烟草天蛾(Manduca sexta,CAA46187)、红火蚁(Solenopsis invicta,AAG17394)、 2种果蝇(Drosophila melanogaster,NP_724476;Drosophila yakuba,AAR10032)、按蚊(Anopheles gambiae,XP_311406)、伊蚊(Aedes aegypti,AAB71660)等昆虫的ATP合成酶16kDa蛋白脂质C亚基蛋白序列,将蜜蜂vha16基因的推测蛋白序列(AAQ21381)与之进行多重对齐。Clustal W/X软件(http://www.ddbj.nig.ac.jp/E-mail/clustalw-e.html或http://www.ebi.ac.uk/clustalw/)是十分重要的序列多重对齐分析软件。
2 结果与分析
2.1基本性质
经RESearch-version 1.0软件分析蜜蜂vha16 cDNA序列,发现仅有一个ORF,起始密码子在第59位,终止密码子在第527位,推测编码蛋白含有156个氨基酸,预测其理论相对分子量为15.97 kDa,理论等电点pI=6.71。
2.2跨膜区
将蜜蜂vha16基因推测蛋白输入http://genome.cbs.dtu.dk/services/TMHMM-2.0/分析发现,该蛋白质序列的第15~34位、第55~77位、第92~114位和第127~149位分别含有一个跨膜区(图1)。
图 1 蜜蜂vha16推测编码蛋白质的跨膜区分析结果 跨膜:transmembrane; 膜内:inside; 膜外:outside
2.3蛋白质的结构功能域分析
输入http://www.ncbi.nlm.nih.gov/BLAST/进行保守结构功能域分析,结果发现该推测编码蛋白序列与目前已知的蛋白质结构功能域数据库中许多物种的ATP合成酶具有相似的结构功能域,在其第13~78位和第91~156位分别为ATP合成酶C亚基保守结构功能域(图2)。
图 2 蜜蜂vha16 cDNA推测编码蛋白保守结构功能域的检索结果
ATP-synt_C:ATP合成酶C亚基;顶部数字表示推测蛋白的氨基酸序列位
2.4不同物种间蛋白质同源性比较
通过多重对齐分析发现,将蜜蜂vha16基因的推测蛋白质序列与美洲烟夜蛾、烟草天蛾、红火蚁、2种果蝇、按蚊、伊蚊等昆虫的ATP合成酶16kDa蛋白脂质C亚基蛋白序列,其保守区域的一致性在85%以上,同源性都在90%以上(图3)。
3 讨论
推测未知蛋白的功能较好的方法是利用同源对比发现蛋白质序列的保守区域。如果发现一个蛋白质序列和较多不同种属或者同一种属的蛋白质序列具有较高的同源性(大于30%),那么提示待分析的蛋白质序列可能是相应家族的成员[10]。所以,根据蛋白质同源性和保守结构功能域分析的结果,可以初步推测蜜蜂vha16基因的推测编码蛋白与其他物种的ATP合成酶在功能上应该存在着确实的相关性,属于同一个蛋白质家族,据此可推测该基因编码蛋白即为蜜蜂ATP合成酶16kDa蛋白脂质C亚基。
参考文献
[1]来鲁华. 蛋白质结构预测与分子设计. 北京: 北京大学出版社, 1993
[2]Spengler S J. Bioinformatics in the information age. Science, 2000, 287(5456): 1221-1223
[3]刘秀艳, 滕胜. 应用计算机识别蛋白质功能. 生命的化学, 2000, 20(3): 100-102
[4]Finbow M E, Goodwin S F, Meagher L, et al. Evidence that the 16 kDa proteolipid (subunit c) of the vacuolar H+-ATPase and ductin from gap junctions are the same polypeptide in Drosophila and Manduca: molecular cloning of the Vha16k gene from Drosophila. Journal of Cell Science, 1994, 107: 1817-1824
[5]Azuma M, Ohta Y. Changes in H+-translocating vacuolar-type ATPase in the anterior silk gland cell of Bombyx mori during metamorphosis. The Journal of Experimental Biology, 1998, 201: 479-486
[6]Wieczorek H, Gruber G, Harvey W R, et al. The plasma membrane H+-V-ATPase from tobacco hornworm midgut. Journal of Bioenergetics and Biomembranes, 1999, 31: 67-74
[7]Vitavska O, Wieczorek H, Merzendorfer H. A novel role for subunit C in mediating binding of the H+-V-ATPase to the actin cytoskeleton. The Journal of Biological Chemistry, 2003, 278: 18499-18505
[8]Bjellqvist B, Basse B, Olsen E, Celis J E. Reference points for comparisons of two-dimensional maps of proteins from different human cell types defined in a pH scale where isoelectric points correlate with polypeptide compositions. Electrophoresis, 1994, 15: 529-539
[9]Schultz J, Milpetz F, Bork P, Ponting C P. SMART, a simple modular architecture research tool: Identification of signalling domains. Proc Natl Acad Sci USA, 1998, 95: 5857-5864
[10]张成岗, 贺福初. 生物信息学方法与实践. 北京: 科学出版社, 2002, 93
熊翠玲 陈大福 福建农林大学蜂学学院
1126下一篇:蜜蜂基因组测序完成后的启示