大家好,欢迎来到IT知识分享网。
- KEGG数据下载
打开kegg官网:
http://www.genome.jp/kegg/catalog/org_list.html
然后点击相应物种前面三个字母缩写位置进入下载界面:
然后点击相应的格式进行下载,我们最常用的下载格式是htext
下载到.keg 格式的文件
我下载的是人的全部的KEGG文件,其文件名称为hsa00001.keg - 文件探索
2.1 初步看看各种通路信息
grep '^C' hsa00001.keg | tail
2.2 看看共有多少通路信息
grep '^C' hsa00001.keg | grep "hsa" | wc # 370 2205 19727
- 文件解析
3.1 第一种解析
awk '$1=="C" &&$NF~"PATH:" || $1=="D"' hsa00001.keg | grep -P "PATH|\tK" | sed 's#^C[[:space:]]*; s#^D[[:space:]]*; s# \[#\t\[#; s# #\t#' | awk 'BEGIN{FS=OFS="\t"}{if($NF~"PATH:") a=$3"\t"$2;else print $1,a}' | awk 'BEGIN{FS=OFS="\t"}{a[$1]=a[$1]$2",";b[$1]=b[$1]"|"$3; next}END{for (i in a) print i,a[i],b[i]}' | sed 's#,\t|#\t#; s#\[PATH:#path:#g; s#\]g' > KEGG_ath.txt
第一列是 entrez genes ID, 第二列是path KEGG ID,第三列是通路的具体解释
3.2 第二种解析
perl -alne '{if(/^C/){/PATH:hsa(\d+)/;$kegg=$1}else{print "$kegg\t$F[1]" if /^D/ and $kegg;}}' hsa00001.keg >kegg2gene.txt
- 解析文件探索
head kegg2gene.txt cut -f 1 kegg2gene.txt | sort -u | wc
参考文件:
http://www.bio-info-trainee.com/1188.html
http://shemy.site/2016/12/29/KEGG-2/
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/115647.html