| 指定位置范围,截取fasta格式中的DNA序列 | 代码 |
| 给定accession number,批量下载fasta格式的DNA序列,并附带国家和采样日期信息, 下载指定的基因序列 | 代码 |
| 给定accession number,批量下载fasta格式的DNA序列,并附带国家和采样日期信息,输入的csv文件每行第一个是accession number,第二个是起始下载位置,第三个是终点位置。 | 代码 |
| 去噪声Auotoencoder | 代码 |
| DNA序列采用kmer分词,然后采用Word2Vec做embedding,得到DNA序列embeding表示 | 代码 |
| DNA序列采用Kmer+独热码,直接得到DNA序列的向量表示 | 代码 |
| DNA序列采用滑动窗口分词方法,采用预训练DNABERT(zhihan1996/DNABERT-2-117M)做embedding | 代码 |
| 病毒序列采用GenSLM做embedding(fasta格式文件) | 代码 |
| 把clw格式转换成fasta格式 | 代码 |
| 根据accession number从NCBI下载DNA序列 | 代码 |
| 去除序列比对后的符号“-” | 代码 |
| 批量合并fasta格式文件 | 代码 |
| 把csv文件fasta成n段,并分别保存(第一步),结果是n个csv文件。 | 代码 |
| 从上一步的各段随机选取一段,得到第一到第n段序列 | 代码 |
| 多个样本fasta格式文件合并 | 代码 |
| 去除fasta文件中的比对符号 | 代码 |
| 多个序列比对后切成n个片段 | 代码 |
| 生成样本 | 代码 |