0%

基因家族鉴定流程

基因家族鉴定流程

准备

1 找到待分析基因家族

①宜从已发表的文章进行查找,基因家族有相似的保守结构域和序列片段。在基因命名上一般有着相投的字母前缀,如RabA1a、RabA1b、RabA1c、RabA1d和RabA1e。

②宜根据自己的研究方向进行查找。如我们研究盐胁迫,可在web of science 或谷歌学术上搜索salt tolerance AND genome analysis。仔细阅读文章,在文章的中间或结尾处(ACCESSION NUMBER)会给出基因的登录号或名称都有利于我们的下一步操作。(如The Arabidopsis Genome Initiative locus identifiers for the genes referred to in this paper are At1g06400 (RABA1A), At1g16920 (RABA1B), At5g45750 (RABA1C), At4g18800 (RABA1D), At4g18430 (RABA1E), At5g60860 (RABA1F), At3g15060 (RABA1G), At2g33870 (RABA1H), and At1g28550 (RABA1I))

③宜找基因家族成员数量较多,150-200为宜,当然20-150也无不可,只是显得工作量少。

2 准备基因家族分析的最初的5个文件

①要研究的物种的基因(gene)序列(Fasta格式)、蛋白质序列(Fasta格式)、CDS(编码区)序列(Fasta格式)、注释文件(GFF格式),一般课题组内大师兄师姐会有,索要即可。另需要准备你的基因家族在拟南芥上所有成员的蛋白质序列(在拟南芥官网或NCBI上可以下载)。

②另如需要做不同物种的进化树分析,也应该将其他物种的蛋白序列从NCBI官网或Phytozome官网或该植物的基因组官网(如拟南芥:www.arabidopsis.org/)。

③如需要做转录组分析,应当准备好要研究物种的地上、地下部各处理、生物学重复、时间点的转录组数据,以及各器官的相关各处理、生物学重复、时间点的转录组数据,一般课题组内大师兄师姐会有,索要即可。

3 基因家族成员鉴定(进行蛋白质序列blastp比对)

①使用以下代码对蛋白质序列进行比对,以拟南芥基因家族成员的蛋白序列为库,通过比对,找到你所研究的物种的相应基因家族成员的蛋白质序列的ID号,筛选E值最小的为我们确定对应拟南芥的蛋白质序列。

②使用TBtools把ID号对应的蛋白质序列都提取出来。

③对蛋白质序列进行命名,两种命名方式(一是按照染色体位置,也就是登录号的升序排序,进行命名,如XXRab1,XXRab2,XXRab3。二是按照拟南芥命名方式命名,如XXRabA1a、XXRabA1b、XXRabA1c、XXRabA1d和XXRabA1e,XX为你研究的物种的拉丁学名属名与种名的首字母)

流程

1 blast-p

2 鉴定保守结构域

http://pfam.xfam.org/ ## 验证基因家族鉴定是否正确

https://meme-suite.org/meme/tools/meme ## 鉴定保守结构域

3 启动子顺式作用元件鉴定

http://bioinformatics.psb.ugent.be/webtools/plantcare/html/

https://www.jianshu.com/p/f5ac1c21c202

4 多序列比对

http://weblogo.threeplusone.com/create.cgi

5 基因结构图

http://gsds.gao-lab.org/

6 染色体定位

http://mg2c.iask.in/mg2c_v2.0/

7 亚细胞定位

http://cello.life.nctu.edu.tw/cgi/main.cgi

8 转录组数据

TBtools

9 蛋白质特性

https://web.expasy.org/protparam/

谢谢你们对我的支持!

欢迎关注我的其它发布渠道