彭司实验室

指定位置范围，截取fasta格式中的DNA序列	代码
给定accession number，批量下载fasta格式的DNA序列，并附带国家和采样日期信息，下载指定的基因序列	代码
给定accession number，批量下载fasta格式的DNA序列，并附带国家和采样日期信息，输入的csv文件每行第一个是accession number，第二个是起始下载位置，第三个是终点位置。	代码
去噪声Auotoencoder	代码
DNA序列采用kmer分词，然后采用Word2Vec做embedding，得到DNA序列embeding表示	代码
DNA序列采用Kmer+独热码，直接得到DNA序列的向量表示	代码
DNA序列采用滑动窗口分词方法，采用预训练DNABERT（zhihan1996/DNABERT-2-117M）做embedding	代码
病毒序列采用GenSLM做embedding（fasta格式文件）	代码

把clw格式转换成fasta格式	代码
根据accession number从NCBI下载DNA序列	代码

去除序列比对后的符号“-”	代码
批量合并fasta格式文件	代码

把csv文件fasta成ｎ段，并分别保存(第一步),结果是n个csv文件。	代码
从上一步的各段随机选取一段，得到第一到第n段序列	代码



多个样本fasta格式文件合并	代码
去除fasta文件中的比对符号	代码
多个序列比对后切成n个片段	代码
生成样本	代码