====
Paper
====

======
Python
=====
=

=========
Tensorflow
=========

=======
PyTorch
=======

=====
Keras
=====

=======
Topics
=======

====
Link
====

====
Video

====

==========
Drug Design

==========

==============
Material Science
==============

=========
Economics
=========
=


===========
自然语言处理
==========
=

BERT Biological Language Model nltk
HuggingFace Transformers DNABERT transformer-xl
bert GitHub word vector GPT
BigBird longformer (GitHub)  
google/bigbird-pegasus-large-bigpatent allenai/longformer-base-4096  

paper: https://arxiv.org/pdf/1910.03771.pdf document: https://huggingface.co/transfor
github: https://github.com/huggingface/  

【手把手带你实战HuggingFace Transformers-入门篇】

:基础知识与环境安装 基础组件之Model(下)BERT文本分类代码实例
基础组件之Pipeline 基础组件之Datasets
基础组件之Tokenizer 基础组件之Evaluate
基础组件之Model(上)基本使用 基础组件之Trainer
   

【手把手带你实战HuggingFace Transformers-高效微调篇】

参数高效微调与BitFit实战 LoRA 原理与实战
Prompt-Tuning原理与实战 IA3 原理与实战
P-Tuning 原理与实战 PEFT 进阶操作
Prefix-Tuning 原理与实战  
   

【手把手带你实战HuggingFace Transformers-实战篇】

基于Transformers的NLP解决方案 实战演练之文本相似度(下)
实战演练之命名实体识别 实战演练之检索机器人
实战演练之机器阅读理解(上) 实战演练之预训练模型
实战演练之机器阅读理解(下) 实战演练之文本摘要(T5)
实战演练之多项选择 实战演练之文本摘要(GLM)
实战演练之文本相似度(上) 实战演练之生成式对话机器人(Bloom)
   

1 Huggingface Transformers 介绍
2 Hugging Face快速入门
3 huggingface/transformers快速上手
4 BERT原理解读及HuggingFace Transformers微调入门
5 Transformers: State-of-the-Art Natural Language Processing (pdf)
6  
7  
8  
9  
10  

 


数据集

  • 简介
    • datasets 是一个用于处理和准备数据集的库,可以通过 Hugging Face Hub 获得。
  • 数据集官方网址
  • 文档
    • https://huggingface.co/docs/datasets/index
    • Datasets Operation Summary

      • Load a dataset (load_dataset)
      • Load a specific split of a dataset (load_dataset)
      • Load a dataset and specify a split (load_dataset)
      • Indexing and slicing (index and slice)
      • Split dataset (train_test_split)
      • Select and filter (select and filter)
      • Map function (map)
      • Save/Load dataset to/from disk (save_to_disk / load_from_disk)

Huggingface transformers

Huggingface Transformers 是基于一个开源基于 transformer 模型结构提供的预训练语言库,它支持 Pytorch,Tensorflow2.0,并且支持两个框架的相互转换。框架支持了最新的各种NLP预训练语言模型,使用者可以很快速的进行模型的调用,并且支持模型further pretraining 和 下游任务fine-tuning。 该库是使用 BERT 等预训练模型的最常用的库,甚至超过了google等开源的源代码。它的设计原则保证了它支持各种不同的预训练模型,并且有统一的合理的规范。使用者可以很方便的进行模型的下载,以及使用。同时,它支持用户自己上传自己的预训练模型到Model Hub中,提供其他用户使用。对于NLP从业者,可以使用这个库,很方便地进行自然语言理解(NLU) 和 自然语言生成(NLG)任务的SOTA模型使用。