SEQ 4. 转录本蛋白编码能力预测软件(CPAT)

10652c5f93fbfbbad32a6de6daa71310.png


简    介

深度转录组测序能够检测数千个新的转录本。这一发现大而“隐藏”的转录组重新激活了对能够快速区分编码和非编码 RNA 的方法的需求。在这里提出了一种新的无比对方法,编码潜在评估工具( CPAT) ,可以快速识别来自大量候选转录本的编码和非编码转录本。为此,CPAT  使用了一个 Logistic 回归模型,该模型包含四个序列特征:开放阅读框大小、开放阅读框覆盖率、Fickett TESTCODE 统计量和 Hexamer 使用偏差。CPAT 软件优于其他最先进的基于比对的软件,如 Coding-Potential Calculator (sensitivity: 0.99, specificity: 0.74)和Phylo Codon Substitution Frequencies (sensitivity: 0.90, specificity:0.63)。除了高准确性外,CPAT 比 CodingPotential Calculator和Phylo Codon Substitution Frequencies 快了大约四个数量级,使其用户能够在几秒钟内处理数千个转录本。该软件接受输入序列在 FASTA 或 bed 格式数据文件。CPAT 开发了一个 web 界面,允许用户提交序列并几乎立即接收预测结果。

d57d3fa6a910af8b167f9dbe712c5c55.png

文件准备

这个输入文件只有一个文件可以是核酸序列文件也可以是Bed文件,例如:

>hg19_ct_UserTrack_3545_NM_001014980 range=chr1:1177826-1182102 5'pad=0 3'pad=0 strand=- repeatMasking=none
CTCGCCGCGCTGAGCCGCCTCGGGACGGAGCCATGCGGCGCTGGGCCTGG
GCCGCGGTCGTGGTCCTCCTCGGGCCGCAGCTCGTGCTCCTCGGGGGCGT
CGGGGCCCGGCGGGAGGCACAGAGGACGCAGCAGCCTGGCCAGCGCGCAG
ATCCCCCCAACGCCACCGCCAGCGCGTCCTCCCGCGAGGGGCTGCCCGAG
GCCCCCAAGCCATCCCAGGCCTCAGGACCTGAGTTCTCCGACGCCCACAT
GACATGGCTGAACTTTGTCCGGCGGCCGGACGACGGCGCCTTAAGGAAGC
GGTGCGGAAGCAGGGACAAGAAGCCGCGGGATCTCTTCGGTCCCCCAGGA
CCTCCAGGTGCAGAAGTGACCGCGGAGACTCTGCTTCACGAGTTTCAGGA
GCTGCTGAAAGAGGCCACGGAGCGCCGGTTCTCAGGGCTTCTGGACCCGC
TGCTGCCCCAGGGGGCGGGCCTGCGGCTGGTGGGCGAGGCCTTTCACTGC
CGGCTGCAGGGTCCCCGCCGGGTGGAC

或者是Bed文件如下:

chr1	1370902	1378262	NM_199121	0	+	1371128	1372823	0	3	299,163,3802,	0,1799,3558,
chr1	1447522	1470067	NM_001170535	0	+	1447648	1469452	0	16	331,77,102,60,70,166,70,156,57,126,125,52,71,168,109,762,	0,3869,5168,5573,6778,7998,8405,10601,11368,11696,12130,13097,14318,15552,17080,21783,
chr1	1447522	1470067	NM_018188	0	+	1447648	1469452	0	16	331,77,246,60,70,166,70,156,57,126,125,52,71,168,109,762,	0,3869,5024,5573,6778,7998,8405,10601,11368,11696,12130,13097,14318,15552,17080,21783,

在线分析

在线网址CPAT,在线使用还是非常简单,序列少可以优先选择在线操作。

f3b0a90dfa6ab639c6eaa354b2d34646.png

本地分析

软件包安装

安装之前要保证一些依赖的软件及包都已经准备好,python3.5 or later version,numpy,pysam,R。默认是已经安装了Anconda/miniconda3,这个需要提取配置好的哦。然后 conda 保证有python >3.5的,然后操作即可安装成功。

pip3 install CPAT

实际操作

1. 参数说明
Usage: 
cpat  [options]Options:--version             show program's version number and exit-h, --help            show this help message and exit-g GENE_FILE, --gene=GENE_FILEGenomic sequnence(s) of RNA in FASTA(https://en.wikipedia.org/wiki/FASTA_format) orstandard 12-column  BED(https://genome.ucsc.edu/FAQ/FAQformat.html#format1)format. It is recommended to use *short* and *unique*sequence identifiers (such as Ensembl transcript id)in FASTA and BED file. If this is a BED file,reference genome ('-r/--ref') should be specified.The input FASTA or BED file could be a regular textfile or compressed file (*.gz, *.bz2) or accessibleURL (http://, https://, ftp://). URL file cannot be acompressed file.-o OUT_FILE, --outfile=OUT_FILEThe prefix of output files.-d LOGIT_MODEL, --logitModel=LOGIT_MODELLogistic regression model. The prebuilt modelsfor Human, Mouse, Fly, Zebrafish are availablel.Run 'make_logitModel.py' to build logisticregression model for your own training datset.-x HEXAMER_DAT, --hex=HEXAMER_DATThe hexamer frequency table.                       Theprebuilt tables for Human, Mouse, Fly, Zebrafishare availablel. Run 'make_hexamer_tab.py' to make thistable for your own training dataset.-r REF_GENOME, --ref=REF_GENOMEReference genome sequences in FASTA format.Reference genome file will be indexed automaticallyif the index file ( *.fai) does not exist. Will beignored if FASTA file was provided to '-g/--gene'.--antisense           Logical to determine whether to search for ORFsfrom the anti-sense strand. *Sense strand* (or codingstrand) is DNA strand that carries the translatablecode in the 5′ to 3′ direction. default=False (i.e.only search for ORFs from the sense strand)--start=START_CODONS  Start codon (use 'T' instead of 'U') used todefine the start of open reading frame (ORF).default=ATG--stop=STOP_CODONS    Stop codon (use 'T' instead of 'U') used todefine the end of open reading frame (ORF). Multiplestop codons are separated by ','. default=TAG, TAA,TGA--min-orf=MIN_ORF_LENMinimum ORF length in nucleotides.default=75--top-orf=N_TOP_ORF   Number of ORF candidates reported. RNAs mayhave dozens of putative ORFs, in most cases, the realORF is ranked (by size) in the top several. It is notnecessary to calculate "Fickett score","Hexamer score" and "coding probability" for everyORF. default=5--width=LINE_WIDTH    Line width of output ORFs in FASTA format.default=100--log-file=LOG_FILE   Name of log file. default="CPAT_run_info.log"--best-orf=MODE       Criteria to select the best ORF: "l"=length,selection according to the "ORF length";"p"=probability, selection according to the"coding probability". default="p"--verbose             Logical to determine if detailed runninginformation is printed to screen.
2. 构建基因组model

这个直接可以使用建好的model,在https://sourceforge.net/projects/rna-cpat/files/prebuilt_models/页面下载即可Human_Hexamer.tsv和Human_logitModel.RData

c0564e1ddf7783dd05d5d44f11b0b738.png

这里若是没有研究的物种,或者是基因组版本不同,那就需要自己构建model了,命令行如下:

make_hexamer_tab -c Human_coding_transcripts_CDS.fa.gz -n Human_noncoding_transcripts_RNA.fa.gz >Human_Hexamer.tsv

打开Human_Hexamer.tsv文件,看一下是三列的文件:

hexamer coding  noncoding
AAAAAA  0.0006471106736092786 0.001606589931772997
AAAAAC  0.00042092373222007566  0.0005113004850646316
AAAAAG  0.0008133623112408557 0.0006870944872085282
AAAAAT  0.0005917287586530271 0.0009504638599970318
AAAACA  0.0004934602747535982 0.0007256901384894673
AAAACC  0.0004003805362324795 0.0003686803641407804
AAAACG  9.064420497619743e-05 0.00010448394168197091
AAAACT  0.0004068399947646618 0.0004784022870680216
AAAAGA  0.0004286539039061299 0.000774026596998453
3. 实际操作命令如下:
cpat -x Human_Hexamer.tsv --antisense -d Human_logitModel.RData --top-orf=5 -g  test.fasta -o cpat_results.txt2024-07-30 03:42:59 [INFO]  Running CPAT version 3.0.5...
2024-07-30 03:43:00 [INFO]  Start codons used: [ATG]
2024-07-30 03:43:00 [INFO]  Stop codons used: [TAG,TAA,TGA]
2024-07-30 03:43:00 [INFO]  Reading Human_Hexamer.tsv
2024-07-30 03:43:00 [INFO]  Checking format of "test.fasta"
2024-07-30 03:43:00 [INFO]  Input gene file is in FASTA format
2024-07-30 03:43:00 [INFO]  Searching for ORFs ...2024-07-30 03:43:01 [WARNING]  No ORFs found for ENST000003705872024-07-30 03:43:01 [INFO]  Calculate coding probability ...
2024-07-30 03:43:01 [INFO]  Removing file cpat_results.txt.ORF_info.tsv
2024-07-30 03:43:01 [INFO]  Select ORF with the highest coding probability ...
2024-07-30 03:43:01 [INFO]  Done!

结果解读

运行完成发现有6个文件出现了

d44b84947bb85982316a8f0c3dfd8701.png

Output files:*cpat_results.txt.ORF_seqs.fa: The top 5 ORF sequences (at least 75 nucleotides long) in FASTA format.*cpat_results.txt.ORF_prob.tsv: ORF information (strand, frame, start, end, size, Fickett TESTCODE score, Hexamer score) and coding probability)*cpat_results.txt.ORF_prob.best.tsv: The information of the best ORF. This file is a subset of "cpat_results.txt.ORF_prob.tsv"*cpat_results.txt.no_ORF.txt: Sequence IDs or BED entried with no ORF found.*cpat_results.txt.r: Rscript file.

使用的时候就选择cpat_results.txt.ORF_prob.best.tsv文件看一下:

5622e5ddf2e64f81ffca3bd87892d910.png

最后一列给出了转录本的蛋白编码信息,yes 代表该转录本为 protein-coding 转录本,no 代表该转录本为 noncoding 转录本。

Reference

Wang, L., Park, H. J., Dasari, S., Wang, S., Kocher, J.-P., & Li, W. (2013). CPAT: Coding-Potential Assessment Tool using an alignment-free logistic regression model. Nucleic Acids Research, 41(6), e74.

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/

fab23027320204d420e7a20fbcf1d5bf.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3281613.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

公司里的IT是什么?

公司里的IT是什么? 文章目录 公司里的IT是什么?1、公司里的IT2、IT技术3、IT行业4、IT行业常见证书 如果对你有帮助,就点赞收藏把!(。・ω・。)ノ♡ 前段时间,在公…

【C语言】指针基础知识理解【续】

1. ⼆级指针 指针变量也是变量,是变量就有地址,那指针变量的地址存放在哪⾥?这就是 ⼆级指针 。 1.1 引入二级指针 由于一级指针已经很熟悉,这里就不再赘述,这里我们重点探讨二级指针 下面先简单使用一个二级指针看…

TPAMI 2024 | 全新框架!深度学习可解释度量学习!

TPAMI 2024 | 全新框架!深度学习可解释度量学习! DIML: Deep Interpretable Metric Learning via Structural Matching 题目:DIML: 通过结构匹配的深度可解释度量学习 作者:Wenliang Zhao, Yongming Rao, Jie Zhou , and Jiwen…

C++笔试强训10

文章目录 一、选择题1-5题6-10题 二、编程题题目一题目二 一、选择题 1-5题 前面做过很多次了,记住就好,不在赘述,选C。 内联函数经常使用的场景包括: 小型函数:当函数体非常小,只包含几条语句时&#xf…

【C++】模板的特化

文章目录 概念函数模板特化类模板特化全特化偏特化 概念 通常情况下,使用模板可以实现一些与类型无关的代码,但是有一些类型需要特殊处理,否则可能会得到一些错误的结果。 比如,在比较两个数的大小时,如果传入两个变量…

手动上电电路(电路收藏)

SW1按下 V1栅极对地 V1通 Vout给Mcu工作 GPIO2 高电平 V2通 SW1松开 V1栅极依然通过V2对地 维持V1通 Vout。再次按下SW1 GPIO1 对地 使Mcu收到中断 将GPIO2 输出低电平 V2关 松开SW1 V1栅极悬空 V1断开 Vout被截断

产品思维之什么是好的设计?

点击下方“JavaEdge”,选择“设为星标” 第一时间关注技术干货! 免责声明~ 任何文章不要过度深思! 万事万物都经不起审视,因为世上没有同样的成长环境,也没有同样的认知水平,更「没有适用于所有人的解决方案…

原生微信小程序wxml2canvas生成海报并包保存至本地

Wxml2Canvas是什么? Wxml2Canvas 是一个用于微信小程序开发的工具库,主要用途是将小程序页面的内容绘制成图片,以便生成海报或保存分享图片到相册等功能。具体用途包括: ①海报生成功能:允许开发者将当前页面的特定部…

【机器学习】决策边界的基本概念以及如何在逻辑回归中找到决策边界

引言 在机器学习中,决策边界是分类算法用来区分不同类别数据点的线、面或超平面。这些边界通常是模型的预测规则,用于将特征空间中的点分配到不同的类别。决策边界可以是线性的,也可以是非线性的,取决于数据的分布和所使用的分类算…

鸿蒙 HarmonyOS NEXT端云一体化开发-云数据库篇

一、概述 云数据库是一款基于对象模型的数据库,采用存储区、对象类型和对象三级结构。 数据模型 存储区 存储区是一个独立的数据存储区域,多个数据存储区之间相互独立,每个存储区拥有完全相同的对象类型定义 --类似于关系型数据库中的da…

ECMA6Script学习笔记(五)

【摘要】 本文是对自己学习ES6的学习笔记回顾,后面是概要: 本文介绍了ES6中的对象创建和拷贝方法。对象创建方面,ES6通过class关键字支持了面向对象的语法糖,包括属性设置、getter和setter方法、构造器、静态方法以及私有属性的定义。同时,展…

专业做护眼灯的有哪些品牌?五款市面主流护眼灯专业测评

专业做护眼灯的有哪些品牌?市面上出现的品牌毫不夸张的说,真的算得上是琳琅满目,而且每一个品牌都在说自己的产品才是最值得的,这种情况下来,很多人一时之间根本就不知道要选择哪一款比较好。而且还有一些还会买到低劣…

vue基础知识总结(2)--- axios的使用

一.下载Vue3: 选择自己想要下载的项目文件夹,cmd回车打开命令栏,执行 : cnpm init vuelatest 然后等待一会就可以创建一个项目,并更改项目名: √ 请输入项目名称: ... vue-project 之后按照…

华为仓颉语言测试申请

1. 申请网址 HarmonyOS NEXT仓颉语言开发者预览版 Beta招募- 华为开发者联盟 点击立即报名登录华为账号 勾选选项 , 点击同意 按要求填写信息即可 2. 申请通过后官方会通过邮件的方式发送相关下载途径 , 根据文档进行下载即可 package Cangmain(): Int64 {println("你…

AI技术修复奥运珍贵历史影像,《永不失色的她》再现百年奥运女性光彩

Greatness of HER ! AI致敬 , 了不起的「她」。 7月25日,在国际奥委会和各方力量的支持下,阿里云以AI技术修复奥运珍贵历史影像,让百年奥运女性的伟大光彩被看见,并在巴黎推出《永不失色的她》全球首映礼。 国际奥委会…

Graph Contrastive Learning via Interventional View Generation

发表于:WWW24 推荐指数: #paper/⭐⭐ 框架与动机: 整体框架 动机: 如上四个: b.HLCL 生成随机增强视图,并分别用高通过滤器和低通过滤器过滤 c.生成同配异配视图,都用低通过滤器 d.生成同配视图异配视图,同配视图用低通过滤器,异配视图用高通过滤器 通过图d,我们可以得出:d&g…

基于Material studio拉伸-断裂过程的Perl脚本

在材料科学的研究中,拉伸-断裂过程一直是科学家们探索的焦点。这一过程涉及复杂的力学行为和材料内部微观结构的变化,对于理解材料的性能至关重要。然而,传统的实验方法不仅耗时耗力,而且难以捕捉到微观尺度上的所有细节。 为了满…

网站如何实现HTTPS访问

要实现网站通过HTTPS协议访问,主要依赖于为网站部署SSL/TLS证书。 SSL(Secure Sockets Layer)是用于在互联网上加密数据传输的安全协议。部署了SSL证书之后,网站就可以通过HTTPS(超文本传输安全协议)来提供…

C# Unity 面向对象补全计划 之 初识继承方法与多态

本文仅作学习笔记与交流,不作任何商业用途,作者能力有限,如有不足还请斧正 本系列旨在通过补全学习之后,给出任意类图都能实现并做到逻辑上严丝合缝 1.继承方法 C# & Unity 面向对象补全计划 之 继承(字段与属性&…

Java真人版猫爪老鼠活动报名平台系统

🐾“真人版猫爪老鼠活动报名平台系统”——趣味追逐,等你来战!🐭 🐱【萌宠变主角,现实版趣味游戏】 厌倦了电子屏幕的虚拟游戏?来试试“真人版猫爪老鼠活动”吧!在这个平台上&…