指定位置范围,截取fasta格式中的DNA序列 代码
给定accession number,批量下载fasta格式的DNA序列,并附带国家和采样日期信息, 下载指定的基因序列 代码
给定accession number,批量下载fasta格式的DNA序列,并附带国家和采样日期信息,输入的csv文件每行第一个是accession number,第二个是起始下载位置,第三个是终点位置。 代码
去噪声Auotoencoder 代码
DNA序列采用kmer分词,然后采用Word2Vec做embedding,得到DNA序列embeding表示 代码
DNA序列采用Kmer+独热码,直接得到DNA序列的向量表示 代码
DNA序列采用滑动窗口分词方法,采用预训练DNABERT(zhihan1996/DNABERT-2-117M)做embedding 代码
病毒序列采用GenSLM做embedding(fasta格式文件) 代码
   
   

 


把clw格式转换成fasta格式 代码
根据accession number从NCBI下载DNA序列 代码
   
   
   
   
   
   
   
   

 


去除序列比对后的符号“-” 代码
批量合并fasta格式文件 代码
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   

 


把csv文件fasta成n段,并分别保存(第一步),结果是n个csv文件。 代码
从上一步的各段随机选取一段,得到第一到第n段序列 代码
   
   
   
多个样本fasta格式文件合并 代码
去除fasta文件中的比对符号 代码
多个序列比对后切成n个片段 代码
生成样本 代码
   



上海市浦东新区沪城环路999号