========
DNA序列
========
Design powerful predictor for mRNA subcellular location prediction in Homo sapiens. Briefings in Bioinformatics, 00(00), 2020, 1–10
mRNALoc: a novel machine-learning based in-silico tool to predict mRNA subcellular localization. Nucleic Acids Research, 2020, 48, W239–W243
SubLocEP: a novel ensemble predictor of subcellular localization of eukaryotic mRNA based on machine learning. Briefings in Bioinformatics, 00(00), 2021, 1–11
DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism. Nucleic Acids Research, 2021 1
lncLocPred: Predicting LncRNA Subcellular Localization Using Multiple Sequence Feature Information. IEEE ACCESS 卷: 8 页: 124702-124711 出版年: 2020
LNCcation: lncRNA localization and function. JOURNAL OF CELL BIOLOGY 卷: 220 期: 2 e202009045 FEB 1 2021
LncSEA: a platform for long non-coding RNA related sets and enrichment analysis. NUCLEIC ACIDS RESEARCH 卷: 49 期: D1 页: D969-D980 出版年: JAN 8 2021
MirLocPredictor: A ConvNet-Based Multi-Label MicroRNA Subcellular Localization Predictor by Incorporating k-Mer Positional Information. GENES 卷: 11 期: 12 文献号: 1475 出版年: DEC 2020
ncRDeep: Non-coding RNA classification with convolutional neural network. COMPUTATIONAL BIOLOGY AND CHEMISTRY
iATP: A Sequence Based Method for Identifying Anti-tubercular Peptides. Medicinal Chemistry, 2020, 16, 620-625. 88 : 107364, 2020
iPseU-CNN: Identifying RNA Pseudouridine Sites Using Convolutional Neural Networks. MOLECULAR THERAPY-NUCLEIC ACIDS 卷: 16 页: 463-470 JUN 7 2019
Benchmarking of alignment-free sequence comparison methods.GENOME BIOLOGY 卷: 20 文献号: 144 出版年: JUL 25 2019
CHAOS GAME REPRESENTATION OF GENE STRUCTURE. NUCLEIC ACIDS RESEARCH 卷: 18 期: 8 页: 2163-2170 出版年: APR 25 1990
本文提出了一种新的DNA序列表示方法。它允许在序列中表示和研究模式,直观地揭示以前未知的结构。基于混沌动力学的技术,该方法产生了一个显示局部和全局模式的基因序列图像。这些图片有一个复杂的结构,根据序列的不同而变化。这种方法称为混沌对策表示(CGR)。CGR提出了一系列关于DNA序列结构的新问题,是研究基因结构的新工具。
DNA序列编码:
1. On 3-D graphical representation of DNA primary sequences and their numerical characterization. JOURNAL OF CHEMICAL INFORMATION AND COMPUTER SCIENCES 卷: 40 期: 5 页: 1235-1244 出版年: SEP-OCT 2000.
在这篇文章中,我们(1)概述了DNA一级序列的三维“图形”表示法的构造,以人类β-珠蛋白基因的一部分为例;(2)描述了一个特殊的方案,该方案将DNA的上述三维空间表示法转换为数字矩阵表示法;(3) 阐述了DNA序列矩阵不变式的构造;(4)提出了一种基于DNA矩阵不变式统计分析的数据约简方法。这四个贡献中的每一个都代表了一个新的发展,我希望这将促进DNA的比较研究,并为DNA一级序列的表达和表征开辟新的方向。
2. Novel 2-D graphical representation of DNA sequences and their numerical characterization. CHEMICAL PHYSICS LETTERS 卷: 368 期: 1-2 页: 1-6 文献号: PII S0009-2614(02)01784-0 出版年: JAN 14 2003
我们考虑了一种新的DNA序列的二维图形表示,它保留了碱基序列邻接的信息,并允许数值描述。这种表示避免了与代表DNA的曲线自身重叠和相交的替代二维表示相关的信息丢失。以人β-珠蛋白基因第一外显子的编码序列为例说明了该方法。
3. One novel representation of DNA sequence based on the global and local position information. SCIENTIFIC REPORTS 卷: 8 文献号: 7592 出版年: MAY 15 2018
提出了一种结合原始序列全局和局部位置信息的DNA序列表示方法来区分不同物种。首先,为了充分利用全局信息,根据费马螺旋曲线建立了DNA序列的图形表示。然后,考虑到DNA序列的局部特征,根据相邻四个核苷酸的关系,将费马螺旋曲线上的每一个点与相关质量相连。本文计算了由质量点组成的费马螺旋曲线的归一化转动惯量,作为β-全局基因第一外显子上相应DNA序列的数值描述。选择欧氏距离作为数值描述的度量,物种间的相似性表明了该方法的有效性。
4. Dynamic Representations of Biological Sequences.MATCH-COMMUNICATIONS IN MATHEMATICAL AND IN COMPUTER CHEMISTRY.卷: 82 期: 1 页: 205-218. 出版年: 2019
生物序列(DNA、RNA、蛋白质)中的生物信息学方法以2D、3D或20D空间中的材料点集表示,并以类似于动力学中使用的值(如惯性矩)来描述。提出了一种新的3D方法,即DNA/RNA序列的3D动态表示。结果表明,该方法可用于登革病毒全基因组序列的描述。
5. Novel Graphical Representation and Numerical Characterization of DNA Sequences. APPLIED SCIENCES-BASEL 卷: 6 期: 3 出版年: MAR 2016
现代测序技术提供了大量的DNA序列数据使序列的分析和比较成为一项非常重要但困难的任务。在本文中,通过将二核苷酸看作多组t8 a,8 G,8 C,8 Tu的2-组合,一种新的3-D 提出了DNA序列的图形表示法,并给出了DNA序列在平面(x,y)、(y,z)和(x,y)上的投影(x,z)也进行了讨论。另外,基于分段函数的思想,提出了一种基于单元的描述方法 通过构建载体对DNA序列进行数值表征。我们的方法的效用是以四个数据集的系统发育分析为例。
6. 4D Graphical representation research of DNA sequences INTERNATIONAL JOURNAL OF BIOMATHEMATICS 卷: 8 期: 1 文献号: 1550004 出版年: JAN 2015
DNA序列的图形表示是研究生物问题的重要组成部分。为了对DNA序列有新的认识,本文将单碱基、碱基对和三碱基编码的数字化方法与碱基出现次数相结合,提出了一种新的DNA序列4D图形表示方法。它是任意DNA序列与4D图形表示的一一对应,避免了4D图形表示的非唯一性和重叠线。该方法能更全面、有效地反映DNA序列的生物信息特征,且无任何损失。在四维图形表示的基础上,利用四维图形表示的几何中心作为DNA序列分析的特征值,保留了数据的原始特征,建立了11个种间β-球蛋白基因第一外显子的欧氏距离和载体终点夹角。最后,建立了11个种的系统层次聚类分析图,更容易观察种间的亲缘关系。实验结果表明,该方法符合生物分类学的要求,证明了该方法的合理性和有效性。
7. Analysis of genomic sequences by Chaos Game Representation.BIOINFORMATICS 卷: 17 期: 5 页: 429-437 出版年: MAY 2001
动机:混沌博弈表示(CGR)是一种迭代映射技术,它处理单元序列,例如DNA序列中的核苷酸或蛋白质中的氨基酸,以便找到它们在连续空间中位置的坐标。这种位置分布具有两个性质:它是唯一的,并且源序列可以从坐标中恢复,这样位置之间的距离就可以度量相应序列之间的相似性。在以往的研究中,使用后一种属性来识别序列模式的可能性被完全忽略了,这使得CGR可能从单纯的表示技术升级为序列建模工具。
结果:CGR平面上的位置分布是非整数阶马氏链概率表的推广。因此,马尔可夫模型是CGR模型的特例,而不是目前公认的反面。此外,CGR推广具有实用(计算效率)和基本(尺度无关)的优点。以大肠杆菌K-12为实验数据集,特别是苏氨酸操纵子的thrA、thrB和thrC基因,说明了这些结果。
8. Encoding and Decoding DNA Sequences by Integer Chaos Game Representation.JOURNAL OF COMPUTATIONAL BIOLOGY 卷: 26 期: 2 页: 143-151 出版年: FEB 2019
DNA序列是编码遗传信息的基础。遗传信息不仅可以从符号序列中理解,而且可以从序列中隐藏的信号中理解。信号处理技术需要将符号序列转换成数字序列,才能揭示隐藏的信号。目前所有的转换方法都将DNA序列编码成相同长度的数值。这些表示在基因组信号压缩、加密和隐写术的应用中有局限性。提出了一种新的DNA序列整数混沌对策表示(inter-CGR或iCGR)和基于iCGR的DNA序列无损编码方法。在iCGR方法中,DNA序列由核苷酸及其在序列中的位置的迭代函数表示。然后,DNA序列可以唯一编码和恢复使用三个整数从iCGR。一个整数表示序列长度,另外两个整数表示核苷酸在序列中的累积分布。整数编码方案可以将一个DNA序列每核苷酸压缩2位。DNA序列的整数表示为序列分析和操作提供了一种有前途的工具。
9. Applying MSSIM combined chaos game representation to genome sequences analysis. GENOMICS 卷: 110 期: 3 页: 180-190 出版年: MAY 2018
利用混沌博弈表示(CGR)将DNA序列转化为图像是一种有效的基因组序列预处理技术,为进一步分析不同基因间的差异提供了基础。本文分别构建了10种哺乳动物、48种戊型肝炎病毒(HEV)和10种细菌的遗传CGR图像,计算了每两幅CGR图像的平均结构相似系数(MSSIM)。分析表明,基因CGR图像的MSSIM系数能准确反映不同基因组间的相似程度。采用层次聚类分析法计算类别隶属度并构建树状图。大量实验表明,该方法与传统的Clustal-X系统发育树构建方法相比,聚类分析速度明显加快。同时,MSSIM与CGR相结合的方法也能有效地对传统的多重序列比对方法(如clustalx、clustalomega、clustalw等)无法分类的大序列进行聚类。