微生物组的生物合成基因簇(BGCs)分析

Introduction

天然产物(natural product,NP)是指生物体内的组成成分或其代谢产物,具有广泛的应用价值。
其中,来源于微生物的次级代谢产物,在生物医学、工业和农业中扮演着重要角色[1]。

生物合成基因簇(biosynthetic gene cluster,BGC) 是一类非常重要的基因集合类型。
一个BGC通常包含数个到上百个功能基因,共同产生一个或者若干个小分子代谢物。

  • 从序列上来说,一个BGC所囊括的基因一般在染色体上成簇排列。例如,青霉素的合成由三个基因控制,分别是pcbAB、pcbC和penDE,这三个基因位于同一条染色体上。
  • 从功能上来说,一个BGC所囊括的基因通常共同产生一个或者若干个小分子化合物。次生代谢产物(secondary metabolites,SM)是BGC合成的主要产物,大部分具有生物活性,通常是低分子量的化合物,在生长和发育的特定阶段产生。例如,抗生素,翻译后修饰核糖体多肽(RiPP,核糖体合成,经由翻译后修饰得到的一大类天然产物)。

生物合成基因簇(BGCs)可以根据它们所编码产生的次级代谢物类型来分类[2]。以下是一些主要类型:

  1. 聚酮类合成酶基因簇(Polyketide Synthases, PKSs)
    • 这类基因簇负责产生大量的聚酮类化合物,这些化合物通常具有抗生素、抗癌或其他生物活性。
  2. 非核糖体肽合成酶基因簇(Nonribosomal Peptide Synthetases, NRPSs)
    • NRPS基因簇编码非核糖体肽合成酶,这些合成酶可以生产多肽类次级代谢物,如抗生素和免疫抑制剂。
  3. 核糖体合成肽基因簇(Ribosomal Synthesized and Post-translationally Modified Peptides, RiPPs)
    • 这类基因簇编码通过核糖体合成并在翻译后进行修饰的肽类化合物。
  4. 萜类合成基因簇(Terpene Synthases)
    • 萜类基因簇编码合成萜类化合物的酶,这些化合物广泛存在于植物中,具有多种生物学和药理作用。
  5. 碱性化合物基因簇(Alkaloid Synthases)
    • 碱性化合物基因簇负责生产碱性化合物,这些化合物通常具有药理活性,如镇痛和抗癌效果。
  6. 混合型基因簇
    • 混合型基因簇包含多种类型的合成酶,能够生产具有复杂生物活性的混合次级代谢物。

从大量环境微生物分离培养,挖掘生物合成基因簇(biosynthetic gene cluster,BGC)以检验并生产新型NP十分困难。
但随着高通量测序技术和生物大数据处理工具的快速发展,直接从宏基因组(metagenome)中探索BGC的策略已经越来越成熟:

Methods

重要的BGC通常通过干湿实验共同确定:

  • 生信方法:

从宏基因组数据中挖掘 BGC 包括两大类方法:BGC 的挖掘方法和 BGC 的优化方法。
BGC 的挖掘方法主要分为序列比对和特征比对。序列比对采用诸如 BLAST 等方法,而特征比对则包括传统的隐马尔科夫模型(HMM)比对以及基于数据模型的深度学习等方法。
而 BGC 的优化方法主要有数据库搜索和进化分析。
数据库搜索涉及 BGC 序列数据库和 BGC 相关小分子质谱数据库的搜索,进化分析的主要目标是分析 BGC 的演化和变异模式。

宏基因组
BGC挖掘
BGC优化
序列比对
BLAST等方法
特征比对
隐马尔科夫
模型HMM
基于数据模型
深度学习
进化分析
数据库搜索
小分子质谱数据库
BGC序列数据库
  • 湿实验:

分离培养,基因簇表达,产物富集与鉴定。

Databases

BGC的分析和比对,主要是建立在BGC数据库基础之上:

  • antiSMASH
    是有关次生代谢物 BGC 的综合资源,集成了各种分析工具。

  • MIBiG
    定义了生物合成基因簇的最低信息 (MIBiG):一种标准化数据格式,描述了唯一表征 BGC 所需的最低信息。
    同时构建了一个附带的 BGC 在线数据库,详细记录了来自于上千个微生物物种的上千个经实验验证的非冗余BGC。

  • Bactibase
    主要包括细菌及其产生的抗菌肽、细菌素等。

  • BiG-FAM
    将同源 BGCs 分组到生物合成基因簇家族 (GCF) ,这是生物合成基因簇 (BGC)“同源”组的在线存储库,这些生物合成基因簇 (BGC) 假定编码相似的专门代谢物的产生。通过将从当前可用的基因组和 MAG 中鉴定出的大规模全球 BGC 集合作为数据源,BiG-FAM 提供了可探索的微生物次生代谢多样性“图集”,以浏览和搜索跨类群的生物合成多样性。

  • IMG-ABC
    集成微生物基因组 - 生物合成基因簇图谱 (IMG-ABC) 是次级代谢物化合物 (SM) 生物合成基因簇 (BGC) 的综合数据集市,根据 IMG 中的所有分离基因组进行预测。此外,从宏基因组衍生的支架箱预测的 BGC 揭示了来自不同环境的稀有或未培养的类群中潜在的新型 SM。

Tools

  • antiSMASH

antiSMASH是一套常用的BGCs搜索工具集,其利用人工智能计算工具在数据库基础上进行操作。
其主要功能是基于代谢途径中生物合成酶的基因在染色体上通常成簇排列的原理,通过特定类型的模型来识别已知的次级代谢基因簇。
在antiSMASH中,次级代谢基因簇被分为多个类别,然后通过序列比对等方法进行同源比对和发现BGC。通过分析与目的基因相似的BGC结果,可以大致解读目的基因的功能。

此外,antiSMASH还提供了一些独立的工具,例如由质谱引导的肽挖掘工具Pep2Path、抗生素耐药性靶标搜寻器ARTS和sgRNA设计工具CRISPy-web等。

  • ClusterFinder

ClusterFinder利用隐马尔可夫模型(HMM)将BGC的核苷酸序列转换为一系列连续的Pfam结构域,因此能够更准确地识别新型BGC。相比之前的算法,ClusterFinder不仅能够识别少数BGC类别,而且基于732个手动汇总的BGC训练集,能够检测出多种特征明确的基因簇类别,为基因簇识别问题提供了更通用的解决方案。

  • MetaBGC

MetaBGC是一种基于“读段”的算法,能够从人类微生物组中发掘之前未被报道过的BGC。该算法不需要分离培养细菌或进行测序,可以直接在人类微生物组衍生的宏基因组测序数据中识别BGC。通过构建基于群落画像的隐马尔可夫模型,可以在单一的宏基因组读取水平上识别、定量和聚集微生物组衍生的BGC。

  • DeepBGC

DeepBGC采用深度学习技术来检测细菌和真菌基因组中的BGC。该方法利用双向长期短期记忆递归神经网络和类似word2vec的Pfam蛋白域嵌入,使用随机森林分类器预测产品类别和检测到的BGC的活性。

Examples

  1. 2019年,一项人类肠道微生物宏基因组挖掘工作发现了未培养的细菌基因组编码数百种新的生物合成基因簇,并具有独特功能[3]。通过从11850个人类肠道微生物群中重建92143个宏基因组组装基因组,识别了1952个未培养的候选细菌物种。这些未经培养的细菌物种及其基因组大大扩展了人类肠道微生物群的已知物种库,增加了系统发育多样性281%。这些候选物种编码数百个新的生物合成基因簇,并在铁-硫和离子结合等代谢方面具有独特功能,揭示了未培养肠道细菌的多样性,为肠道微生物群的分类和功能特征提供了前所未有的解决方案。
  1. 2018年,基于草原土壤的宏基因组数据[4],研究人员重建了上千个基因组,其中几百个近乎完整,并鉴定了未被研究过的微生物(一类酸杆菌),这些微生物编码多种聚酮化合物和非核糖体肽的基因组簇。研究者鉴定出了两个来自不同谱系类群的酸杆菌基因组,每个基因组都拥有一个异常庞大的生物合成基因库,并含有多达15个大型聚酮化合物和非核糖体肽生物合成基因位点。通过微观操作实验,收集了120个时间点的样品,使用转录组学的手段,发现基因簇对不同环境扰动的响应情况并不相同。通过对微生物的转录共表达网络分析,发现生物合成基因的表达与双组分系统、转录激活、假定抗微生物剂抗性和铁调节模块的基因相关,这一结果将代谢物生物合成与环境感知和生态竞争过程联系起来。
  1. 2022年,瑞士苏黎世联邦理工学院的研究团队利用基因组学技术和大数据挖掘方法,在全球215个采样点的不同深度层共1038个海水样本中发现了多种海洋细菌生物合成基因簇[5]。他们创建了海洋微生物组学数据库(OMD),发现了39055个生物合成基因簇,参与了约6873种化合物的生物合成过程。进一步的实验验证表明,部分基因簇在亚磷酸盐等化合物的生物合成中发挥关键作用。该研究通过基因组学方法发现了新型海洋细菌和生物合成基因簇,并对部分BGC进行了实验验证,对海洋生态、生物进化和天然产物等领域的研究具有重要意义。
  1. 2024年,研究人员分析了来自 9 个不同深海冷泉区域的 81 个宏基因组、33 个宏转录组和 7 个代谢组,以研究它们的次生代谢物[6]。冷泉微生物组编码多样且丰富的生物合成基因簇(BGC)。大多数 BGC 与未被充分研究的细菌和古细菌有关,包括甲烷和硫循环的关键介质。 BGC 编码多种可能影响群落动态的抗菌化合物和预计影响生物地球化学循环的各种代谢物。主要参与者的 BGC 分布广泛且表达量高,其丰度和表达水平随沉积物深度而变化。沉积物代谢组学揭示了独特的天然产物,突出了未知的化学潜力并证实了这些沉积物中的 BGC 活性。

尝试将BGC挖掘流程应用在自己的微生物组项目中,下次再分享具体的分析流程代码。

References

  1. LAI Qilong,YAO Shuai,ZHA Yuguo,BAI Hong,NING Kang. Microbiome-based biosynthetic gene cluster data mining techniques and application potentials[J]. Synthetic Biology Journal,2023,4(3):611-627
  2. Barbara R Terlouw, Kai Blin, Jorge C Navarro-Muñoz, Nicole E Avalon, et al., MIBiG 3.0: a community-driven effort to annotate experimentally validated biosynthetic gene clusters, Nucleic Acids Research, Volume 51, Issue D1, 6 January 2023, Pages D603–D610
  3. A. Almeida, A. L. Mitchell, M. Boland, S. C. Forster, G. B. Gloor, A. Tarkowska, T. D. Lawley, R. D. Finn, A new genomic blueprint of the human gut microbiota. Nature 568, 499–504 (2019).
  4. A. Crits-Christoph, S. Diamond, C. N. Butterfield, B. C. Thomas, J. F. Banfield, Novel soil bacteria possess diverse genes for secondary metabolite biosynthesis. Nature 558, 440–444 (2018).
  5. L. Paoli, H.-J. Ruscheweyh, C. C. Forneris, F. Hubrich, et al., Biosynthetic potential of the global ocean microbiome. Nature 607, 111–118 (2022).
  6. X. Dong, T. Zhang, W. Wu, Y. Peng, X. Liu, Y. Han, X. Chen, Z. Gao, J. Xia, Z. Shao, C. Greening, A vast repertoire of secondary metabolites potentially influences community dynamics and biogeochemical processes in cold seeps. Science Advances 10, eadl2281 (2024).

关注公众号,获取最新推送

关注公众号 ‘biollbug’,获取最新推送。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3016684.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

发电机组远程管理,提升管控力,降低运维成本

发电机组是指发电机发动机以及控制系统的总称,用来把发动机提供的动能转化为电能。它通常由动力系统、控制系统、消音系统、减震系统、排气系统组成。发电机组远程管理系统利用物联网技术与PLC远程控制模块集成解决方案,在提高发电机组的运行效率、降低运…

【算法】滑动窗口——最大连续1的个数

本篇文章讲的是“最大连续1的个数”这道题,从最开始的简单暴力到用滑动窗口算法实现解题的思路历程,有需要借鉴即可。 目录 1.题目2.暴力求解3.滑动窗口解法3.1优化一:end重返start优化,end指针不回退3.2优化二:某一st…

类加载器aa

一,关系图及各自管辖范围 (不赘述) 二,查看关系 package com.jiazai;public class Main {public static void main(String[] args) {ClassLoader appClassLoader ClassLoader.getSystemClassLoader();//默认System.out.println…

RAG 修炼手册|揭秘 RAG 时代的新向量数据库

随着对大型模型应用探索的深入,检索增强生成技术(Retrieval-Augmented Generation)受到了广泛关注,并被应用于各种场景,如知识库问答、法律顾问、学习助手、网站机器人等。 不过,有很多朋友对于向量数据库和…

【热门话题】实用Chrome命令:提升前端开发效率的利器

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 实用Chrome命令:提升前端开发效率的利器引言目录1. 快速打开Chrome …

246 基于matlab的交流电机动态方程

基于matlab的交流电机动态方程,用于交流电机动态分析。输入电机的额定功率(kW)、电机的额定转速(r/min)、转子外径(m)、铁心长(m)转子槽数、电机极对数 等参数,输出转速变化、力矩变化等结果。程序已调通,可直接运行。 246 交流电机动态 转速…

深度强化学习框架Acme【一】

Acme学习笔记(一) Chapter 2 RLOnline Reinforcement LearningOffline Reinforcement LearningImitation LearningLearning from Demonstrations Chapter 3 Acme3.1 Environments and environment loops3.2 Actors3.3 Experience replay and data storag…

Backblaze发布2024 Q1硬盘故障质量报告-2

截至2024年第一季度末,我们正在跟踪279,572块正在运行的硬盘。硬盘型号在2024年第一季度末必须拥有500块或更多的硬盘,并在整个使用寿命期间累积超过100,000个硬盘工作日,达到这个条件的所有型号盘的故障率趋势表现如下: 除了三种…

后仿中必须读懂的User-defined primitives(UDP)

一 UDP定义规则 UDP,全名:User-defined primitives。 用户自己定义的原语。 UDP可分为:combinational UDP(组合逻辑)和 sequential UDP(时序逻辑)。 1.1 组合逻辑UDP combinational UDP用于…

02-Fortran基础--Fortran操作符与控制结构

02-Fortran基础--Fortran操作符与控制结构 0 引言1 操作符1.1 数学运算符1.2 逻辑运算符1.3 关系运算符 2 控制流程2.1 条件结构2.2 循环结构2.3 分支结构 0 引言 运算符和控制流程对编程语言是必须的,Fortran的操作符和控制流程涉及到各种数学运算符、逻辑运算符以及控制结构。…

《十九》Qt Http协议及实战

前言 本篇文章来给大家讲解QT中的Http协议,Http协议主要用于网络中数据的请求和响应,那么这篇文章将给大家讲解一下这个协议。 一、HTTP概述 HTTP(超文本传输协议)是互联网上应用最为广泛的协议之一,它定义了客户端…

linux 调试-kdb 调试内核-1

目标:打印bcm2835_spi_transfer_one 是如何从用户空间开始调用的 1. kernel 配置 KDB配置选项 添加 spi 控制器驱动 和 spi 设备驱动 2. 调试流程 调试内核-系统启动之后 1. 开发板进入kdb,等待pc 连接 rootraspberrypi:~# echo "ttyS0,115200"…

《ESP8266通信指南》12-Lua 固件烧录

往期 《ESP8266通信指南》11-Lua开发环境配置-CSDN博客 《ESP8266通信指南》10-MQTT通信(Arduino开发)-CSDN博客 《ESP8266通信指南》9-TCP通信(Arudino开发)-CSDN博客 《ESP8266通信指南》8-连接WIFI(Arduino开发…

AIGC技术带给我们什么?基于AIGC原理及其技术更迭的思考

AIGC技术带给我们什么?基于AIGC原理以及技术更迭的思考 前言 AI,这个词在如今人们的视野中出现频率几乎超过了所有一切其他的事物,更有意思的是,出现频率仅次于这个词的,几乎都会加上一个修饰亦或是前缀——AI&#…

SpringBoot3项目打包和运行

六、SpringBoot3项目打包和运行 6.1 添加打包插件 在Spring Boot项目中添加spring-boot-maven-plugin插件是为了支持将项目打包成可执行的可运行jar包。如果不添加spring-boot-maven-plugin插件配置,使用常规的java -jar命令来运行打包后的Spring Boot项目是无法找…

asp.net成绩查询系统

说明文档 运行前附加数据库.mdf(或sql生成数据库) 主要技术: 基于asp.net架构和sql server数据库 功能模块: asp.net成绩查询系统 学生功能有查看成绩和修改账号密码等 后台管理员可以进行用户管理 管理员添加管理员查询注…

成为黑客第一步,应该从熟练掌握运维常见的工具开始

目录 1. 开发工具 2. 自动化构建和测试 3. 持续集成与交付(CI/CD) 4. 部署工具 5. 维护 6. 监控,警告&分析 1. 开发工具 代码编辑器和IDE(集成开发环境):如Visual Studio Code、IntelliJ IDEA和E…

看完这篇文章我奶奶都懂Opentracing了 (二)

二. 概念分析 1. Span和SpanContext 结合上述示例,我们从Span开始入手来进行概念分析,但是说在最前面,Span在不同的分布式链路实现中,其定义是不全一样的,尽管Opentracing已经进行了概念的统一,但是具体到…

QT--2

Qt界面设计 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent) {//窗口相关设置this->resize(680,520);this->setFixedSize(680,520);this->setWindowTitle("Tim");this->setWindowFla…

在拥有多个同名称密码的ap环境中,如何连接到指定信道或mac的ap路由器?

在给客户做ESP32-C3入墙开关项目时,客户问:在拥有多个同名称密码的ap环境中,如何连接到指定信道或mac的ap路由器?针对这个问题,启明云端工程师给出下面解决方法。 1、将wifi_sta_config_t配置中的channel配置为该信道…