========
人工智能
========


====
论文
====

=====
Python
====
=

=======
Tensoflow
====
===

=======
PyTorch
====
===

====
Julia
====

====
专题
====

====
链接
====

 

===========
小组成员进入
=======
====


序列分析专题:

jellyfish:快速计算kmer分布

Design powerful predictor for mRNA subcellular location prediction in Homo sapiens. Briefings in Bioinformatics, 00(00), 2020, 1–10

mRNALoc: a novel machine-learning based in-silico tool to predict mRNA subcellular localization. Nucleic Acids Research, 2020, 48, W239–W243

SubLocEP: a novel ensemble predictor of subcellular localization of eukaryotic mRNA based on machine learning. Briefings in Bioinformatics, 00(00), 2021, 1–11

DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism. Nucleic Acids Research, 2021 1

lncLocPred: Predicting LncRNA Subcellular Localization Using Multiple Sequence Feature Information. IEEE ACCESS   卷: ‏ 8   页: ‏ 124702-124711   出版年: ‏ 2020

LNCcation: lncRNA localization and function. JOURNAL OF CELL BIOLOGY   卷: ‏ 220   期: ‏ 2      e202009045   ‏ FEB 1 2021

LncSEA: a platform for long non-coding RNA related sets and enrichment analysis. NUCLEIC ACIDS RESEARCH  卷: ‏ 49   期: ‏ D1   页: ‏ D969-D980   出版年: ‏ JAN 8 2021

MirLocPredictor: A ConvNet-Based Multi-Label MicroRNA Subcellular Localization Predictor by Incorporating k-Mer Positional Information. GENES  卷: ‏ 11   期: ‏ 12     文献号: 1475   出版年: ‏ DEC 2020

ncRDeep: Non-coding RNA classification with convolutional neural network. COMPUTATIONAL BIOLOGY AND CHEMISTRY   ‏

iATP: A Sequence Based Method for Identifying Anti-tubercular Peptides. Medicinal Chemistry, 2020, 16, 620-625.  88   : 107364,  2020

iPseU-CNN: Identifying RNA Pseudouridine Sites Using Convolutional Neural Networks. MOLECULAR THERAPY-NUCLEIC ACIDS  卷: ‏ 16   页: ‏ 463-470   ‏ JUN 7 2019

Benchmarking of alignment-free sequence comparison methods.GENOME BIOLOGY 卷: ‏ 20 文献号: 144 出版年: ‏ JUL 25 2019

CHAOS GAME REPRESENTATION OF GENE STRUCTURE. NUCLEIC ACIDS RESEARCH 卷: ‏ 18 期: ‏ 8 页: ‏ 2163-2170 出版年: ‏ APR 25 1990
本文提出了一种新的DNA序列表示方法。它允许在序列中表示和研究模式,直观地揭示以前未知的结构。基于混沌动力学的技术,该方法产生了一个显示局部和全局模式的基因序列图像。这些图片有一个复杂的结构,根据序列的不同而变化。这种方法称为混沌对策表示(CGR)。CGR提出了一系列关于DNA序列结构的新问题,是研究基因结构的新工具。

DNA序列编码:

1. On 3-D graphical representation of DNA primary sequences and their numerical characterization‎. JOURNAL OF CHEMICAL INFORMATION AND COMPUTER SCIENCES 卷: ‏ 40 期: ‏ 5 页: ‏ 1235-1244 出版年: ‏ SEP-OCT 2000.
在这篇文章中,我们(1)概述了DNA一级序列的三维“图形”表示法的构造,以人类β-珠蛋白基因的一部分为例;(2)描述了一个特殊的方案,该方案将DNA的上述三维空间表示法转换为数字矩阵表示法;(3) 阐述了DNA序列矩阵不变式的构造;(4)提出了一种基于DNA矩阵不变式统计分析的数据约简方法。这四个贡献中的每一个都代表了一个新的发展,我希望这将促进DNA的比较研究,并为DNA一级序列的表达和表征开辟新的方向。

2. Novel 2-D graphical representation of DNA sequences and their numerical characterization‎. CHEMICAL PHYSICS LETTERS 卷: ‏ 368 期: ‏ 1-2 页: ‏ 1-6 文献号: PII S0009-2614(02)01784-0 出版年: ‏ JAN 14 2003
我们考虑了一种新的DNA序列的二维图形表示,它保留了碱基序列邻接的信息,并允许数值描述。这种表示避免了与代表DNA的曲线自身重叠和相交的替代二维表示相关的信息丢失。以人β-珠蛋白基因第一外显子的编码序列为例说明了该方法。

3. One novel representation of DNA sequence based on the global and local position information. SCIENTIFIC REPORTS 卷: ‏ 8 文献号: 7592 出版年: ‏ MAY 15 2018
提出了一种结合原始序列全局和局部位置信息的DNA序列表示方法来区分不同物种。首先,为了充分利用全局信息,根据费马螺旋曲线建立了DNA序列的图形表示。然后,考虑到DNA序列的局部特征,根据相邻四个核苷酸的关系,将费马螺旋曲线上的每一个点与相关质量相连。本文计算了由质量点组成的费马螺旋曲线的归一化转动惯量,作为β-全局基因第一外显子上相应DNA序列的数值描述。选择欧氏距离作为数值描述的度量,物种间的相似性表明了该方法的有效性。

4. Dynamic Representations of Biological Sequences.MATCH-COMMUNICATIONS IN MATHEMATICAL AND IN COMPUTER CHEMISTRY.卷: 82 期: 1 页: 205-218. 出版年: 2019
生物序列(DNA、RNA、蛋白质)中的生物信息学方法以2D、3D或20D空间中的材料点集表示,并以类似于动力学中使用的值(如惯性矩)来描述。提出了一种新的3D方法,即DNA/RNA序列的3D动态表示。结果表明,该方法可用于登革病毒全基因组序列的描述。

5. Novel Graphical Representation and Numerical Characterization of DNA Sequences. APPLIED SCIENCES-BASEL 卷: ‏ 6 期: ‏ 3 出版年: ‏ MAR 2016
现代测序技术提供了大量的DNA序列数据使序列的分析和比较成为一项非常重要但困难的任务。在本文中,通过将二核苷酸看作多组t8  a,8  G,8  C,8  Tu的2-组合,一种新的3-D 提出了DNA序列的图形表示法,并给出了DNA序列在平面(x,y)、(y,z)和(x,y)上的投影(x,z)也进行了讨论。另外,基于分段函数的思想,提出了一种基于单元的描述方法 通过构建载体对DNA序列进行数值表征。我们的方法的效用是以四个数据集的系统发育分析为例。

6. 4D Graphical representation research of DNA sequences INTERNATIONAL JOURNAL OF BIOMATHEMATICS 卷: ‏ 8 期: ‏ 1 文献号: 1550004 出版年: ‏ JAN 2015
DNA序列的图形表示是研究生物问题的重要组成部分。为了对DNA序列有新的认识,本文将单碱基、碱基对和三碱基编码的数字化方法与碱基出现次数相结合,提出了一种新的DNA序列4D图形表示方法。它是任意DNA序列与4D图形表示的一一对应,避免了4D图形表示的非唯一性和重叠线。该方法能更全面、有效地反映DNA序列的生物信息特征,且无任何损失。在四维图形表示的基础上,利用四维图形表示的几何中心作为DNA序列分析的特征值,保留了数据的原始特征,建立了11个种间β-球蛋白基因第一外显子的欧氏距离和载体终点夹角。最后,建立了11个种的系统层次聚类分析图,更容易观察种间的亲缘关系。实验结果表明,该方法符合生物分类学的要求,证明了该方法的合理性和有效性。

7. Analysis of genomic sequences by Chaos Game Representation‎.BIOINFORMATICS 卷: ‏ 17 期: ‏ 5 页: ‏ 429-437 出版年: ‏ MAY 2001
动机:混沌博弈表示(CGR)是一种迭代映射技术,它处理单元序列,例如DNA序列中的核苷酸或蛋白质中的氨基酸,以便找到它们在连续空间中位置的坐标。这种位置分布具有两个性质:它是唯一的,并且源序列可以从坐标中恢复,这样位置之间的距离就可以度量相应序列之间的相似性。在以往的研究中,使用后一种属性来识别序列模式的可能性被完全忽略了,这使得CGR可能从单纯的表示技术升级为序列建模工具。
结果:CGR平面上的位置分布是非整数阶马氏链概率表的推广。因此,马尔可夫模型是CGR模型的特例,而不是目前公认的反面。此外,CGR推广具有实用(计算效率)和基本(尺度无关)的优点。以大肠杆菌K-12为实验数据集,特别是苏氨酸操纵子的thrA、thrB和thrC基因,说明了这些结果。

8. Encoding and Decoding DNA Sequences by Integer Chaos Game Representation.JOURNAL OF COMPUTATIONAL BIOLOGY 卷: ‏ 26 期: ‏ 2 页: ‏ 143-151 出版年: ‏ FEB 2019
DNA序列是编码遗传信息的基础。遗传信息不仅可以从符号序列中理解,而且可以从序列中隐藏的信号中理解。信号处理技术需要将符号序列转换成数字序列,才能揭示隐藏的信号。目前所有的转换方法都将DNA序列编码成相同长度的数值。这些表示在基因组信号压缩、加密和隐写术的应用中有局限性。提出了一种新的DNA序列整数混沌对策表示(inter-CGR或iCGR)和基于iCGR的DNA序列无损编码方法。在iCGR方法中,DNA序列由核苷酸及其在序列中的位置的迭代函数表示。然后,DNA序列可以唯一编码和恢复使用三个整数从iCGR。一个整数表示序列长度,另外两个整数表示核苷酸在序列中的累积分布。整数编码方案可以将一个DNA序列每核苷酸压缩2位。DNA序列的整数表示为序列分析和操作提供了一种有前途的工具。

9. Applying MSSIM combined chaos game representation to genome sequences analysis. GENOMICS 卷: ‏ 110 期: ‏ 3 页: ‏ 180-190 出版年: ‏ MAY 2018
利用混沌博弈表示(CGR)将DNA序列转化为图像是一种有效的基因组序列预处理技术,为进一步分析不同基因间的差异提供了基础。本文分别构建了10种哺乳动物、48种戊型肝炎病毒(HEV)和10种细菌的遗传CGR图像,计算了每两幅CGR图像的平均结构相似系数(MSSIM)。分析表明,基因CGR图像的MSSIM系数能准确反映不同基因组间的相似程度。采用层次聚类分析法计算类别隶属度并构建树状图。大量实验表明,该方法与传统的Clustal-X系统发育树构建方法相比,聚类分析速度明显加快。同时,MSSIM与CGR相结合的方法也能有效地对传统的多重序列比对方法(如clustalx、clustalomega、clustalw等)无法分类的大序列进行聚类。


氨基酸序列编码:

1. A 2D Non-degeneracy Graphical Representation of Protein Sequence and Its Applications. CURRENT BIOINFORMATICS 卷: ‏ 15 期: ‏ 7 页: ‏ 758-766 出版年 ‏
背景:蛋白质序列比较是生物信息学的一个重要研究领域。许多无对准的方法已经被提出。
目的:为了挖掘蛋白质序列的更多信息,本研究基于氨基酸的理化性质,提出一种新的无比对方法。
方法:定义平均理化值(Apv)。对于给定的蛋白质序列,根据Apv和氨基酸的位置勾画出一条二维曲线,曲线上不存在环状和交叉。根据该曲线可以分析蛋白质序列的相似性/相异性。
结果与结论:以两组蛋白质序列为例说明了新方法的有效性,该方法能正确地对蛋白质序列进行分类,结果与ClustalW方法的结果具有很好的相关性。新方法简单有效。

2. DCGR: feature extractions from protein sequences based on CGR via remodeling multiple information. BMC BIOINFORMATICS 卷: ‏ 20 文献号: 351 出版年: ‏ JUN 20 2019
背景蛋白质特征提取在蛋白质序列的相似性分析以及蛋白质结构、功能和相互作用的预测等领域发挥着重要作用。基于图形表示的特征提取是最有效的方法之一。然而,大多数现有的方法都受到其方法的限制设计结果We介绍了一种基于混沌博弈表示的蛋白质序列特征提取方法DCGR,该方法是根据氨基酸的理化性质构造蛋白质序列的CGR曲线,然后进行转换利用CGR图像中点的分布,将CGR曲线转化为多维特征向量。在五个数据集上测试,DCGR显著优于最先进的特征提取方法:结论DCGR在从蛋白质序列中提取有效特征方面具有很强的实用性,因此在蛋白质序列的相似性分析中具有重要意义,蛋白质相互作用的研究和蛋白质功能的预测。免费提供https://sourceforge.net/projects/transcriptomeassembly/files/Feature%20Extraction。

3. A novel descriptor of protein sequences and its application. JOURNAL OF THEORETICAL BIOLOGY 卷: ‏ 347 页: ‏ 109-117 出版年: ‏ APR 21 2014
基于氨基酸的三种物理化学性质,提出了一种蛋白质序列的动态三维图形表示方法。图形坐标具有直接的生物学意义,可以反映蛋白质的固有结构。提取了主转动惯量和轴坐标范围信息作为一种新的混合描述符,并将其用于蛋白质一级序列的比较。同时,利用归一化描述向量的欧氏距离作为蛋白质相似性的定量度量,避免了蛋白质序列长度差异的影响。最后,以9个ND5(NADH脱氢酶亚基5)蛋白为例,说明了本文方法的有效性。

4. 20D-dynamic representation of protein sequences. GENOMICS 卷: ‏ 107 期: ‏ 1 页: ‏ 16-23 出版年: ‏ JAN 2016.
提出了一种比较蛋白质序列的新方法。氨基酸序列由一组点质量在20D空间中表示。应用在20D空间中行走的方法,得到空间中的点分布。将20D表示投影到2D或3D空间说明了特定氨基酸沿着序列的分布。提出了20D转动惯量作为蛋白质序列的新描述因子。

5. A novel numerical representation for proteins: Three-dimensional Chaos Game Representation and its Extended Natural Vector. COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL 卷: ‏ 18 页: ‏ 1904-1913 出版年: ‏ 2020
混沌对策表示(CGR)最早被提出作为DNA的一种图像表示方法,并被推广到其他生物大分子的情况。与DNA的CGR图像相比,现有的蛋白质CGR图像在几何上不太优美,点在CGR图像中的分布含义也不太明显。在这项研究中,我们通过将20个氨基酸自然地分布在一个正十二面体的顶点上,提出了一种新的基于CGR方法的蛋白质序列三维图像表示方法。我们还将每个CGR图像与高维欧几里德空间中的一个向量相关联,称为扩展自然向量(ENV),以便分析CGR图像中包含的信息。基于蛋白质分类和系统发育分析的结果,我们的方法可以作为发现蛋白质间生物关系的精确方法。

6. Deep learning on chaos game representation for proteins. BIOINFORMATICS 卷: ‏ 36 期: ‏ 1 页: ‏ 272-279 出版年: ‏ JAN 1 2020
蛋白质序列的动机分类是生物信息学的一项重要任务,有着广泛的应用。不同的机器学习方法存在并应用于这些问题,如支持向量机(SVM)、随机森林(RF)和神经网络(NN)。所有这些方法都有一个共同点,即蛋白质序列在第一步必须是机器可读的和可比较的,因为存在不同的编码。这些编码通常基于序列的物理或化学性质。然而,由于深度神经网络(DNN)在图像识别方面的突出性能,我们采用频率矩阵混沌对策表示(FCGR)将蛋白质序列编码到图像中。在这项研究中,我们比较了支持向量机,RFs和DNNs的性能,训练FCGR编码的蛋白质序列。原始的混沌博弈表示(CGR)主要用于基因组序列的编码和分类,我们对其进行了改进,使其也适用于蛋白质序列,得到了n片表示,一个具有多个图标的图像。

序列分析

基于人工智能(Artificial Intelligence),做DNA,蛋白质序列分析。

上海市浦东新区沪城环路999号