linux转录组kegg注释,KEGG pathway 注释整理

linux转录组kegg注释,KEGG pathway 注释整理KEGGpathway注释整理获得KEGG注释通过eggnog-mapper和interproscan两个软件(或数据库),可以获得KEGGORTHOLOGY(KO)的注释,即基因或者转录本对应的Knumber,具体参见两个软件的wiki.获得KO与pathway的关系进入KEGG官网,然后点击KEGGBRITE进入该数据库,在这个数据库中可以下载KEGG数据库中手工创建的层次结构文件…

大家好,欢迎来到IT知识分享网。linux转录组kegg注释,KEGG pathway 注释整理

KEGG pathway 注释整理

获得KEGG注释

通过eggnog-mapper和interproscan两个软件(或数据库),可以获得KEGG ORTHOLOGY(KO)的注释,即基因或者转录本对应的K number, 具体参见两个软件的wiki.

获得KO与pathway的关系

进入KEGG官网,然后点击KEGG BRITE进入该数据库,在这个数据库中可以下载KEGG数据库中手工创建的层次结构文件(BRITE hierarchy files)。在这里,需要下载包含pathway和KO对应关系的文件,点击KEGG Orthology (KO)下载,这里下载json版本。

下面解析该文件,生成表格文件便于使用。

import json

import re

with open(“ko00001.json”) as f:

ko_map_data = json.load(f)

with open(“KEGG_pathway_ko.txt”, “w”) as oh:

line = “level1_pathway_id\tlevel1_pathway_name\tlevel2_pathway_id\tlevel2_pathway_name”

line += “\tlevel3_pathway_id\tlevel3_pathway_name\tko\tko_name\tko_des\tec\n”

oh.write(line)

for level1 in ko_map_data[“children”]:

m = re.match(r”(\S+)\s+([\S\w\s]+)”, level1[“name”])

level1_pathway_id = m.groups()[0].strip()

level1_pathway_name = m.groups()[1].strip()

for level2 in level1[“children”]:

m = re.match(r”(\S+)\s+([\S\w\s]+)”, level2[“name”])

level2_pathway_id = m.groups()[0].strip()

level2_pathway_name = m.groups()[1].strip()

for level3 in level2[“children”]:

m = re.match(r”(\S+)\s+([^\[]*)”, level3[“name”])

level3_pathway_id = m.groups()[0].strip()

level3_pathway_name = m.groups()[1].strip()

if “children” in level3:

for ko in level3[“children”]:

m = re.match(r”(\S+)\s+(\S+);\s+([^\[]+)\s*(\[EC:\S+(?:\s+[^\[\]]+)*\])*”, ko[“name”])

if m is not None:

ko_id = m.groups()[0].strip()

ko_name = m.groups()[1].strip()

ko_des = m.groups()[2].strip()

ec = m.groups()[3]

if ec==None:

ec = “-“

line = level1_pathway_id + “\t” + level1_pathway_name + “\t” + level2_pathway_id + “\t” + level2_pathway_name

line += “\t” + level3_pathway_id + “\t” + level3_pathway_name + “\t” + ko_id + “\t” + ko_name + “\t” + ko_des + “\t” + ec + “\n”

oh.write(line)

这会生成KEGG_pathway_ko.txt文件,随后对行去重。

import pandas as pd

data = pd.read_csv(“KEGG_pathway_ko.txt”, sep=”\t”,dtype=str)

data = data.drop_duplicates()

data.to_csv(“KEGG_pathway_ko_uniq.txt”, index=False, sep=”\t”)

最后得到KEGG_pathway_ko_uniq.txt文件,这个文件包含了KO和KEGG pathway的对应关系信息,也包含了pathway的级别分类(KEGG pathway分为3级),如下所示:

level1_pathway_id level1_pathway_name level2_pathway_id level2_pathway_name level3_pathway_id level3_pathway_name ko ko_name ko_des ec

9100 Metabolism 9101 Carbohydrate metabolism 10 Glycolysis / Gluconeogenesis K00844 HK hexokinase [EC:2.7.1.1]

9100 Metabolism 9101 Carbohydrate metabolism 10 Glycolysis / Gluconeogenesis K12407 GCK glucokinase [EC:2.7.1.2]

9100 Metabolism 9101 Carbohydrate metabolism 10 Glycolysis / Gluconeogenesis K00845 glk glucokinase [EC:2.7.1.2]

合并结果

现在是表格文件,和容易将上面多种对应关系合并起来,进行后续的分析,例如可以对KEGG的注释结果按照KEGG中通路类型或者不同的level进行分类汇总,又或者对特定的基因集进行KEGG pathway的富集分析等。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/14651.html

(0)
上一篇 2024-02-25 15:00
下一篇 2024-02-25 17:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信