Featured image of post Huggingface Utils

Huggingface Utils

Huggingface 在国内环境下的使用指南

众所周知,在国内特殊网络环境下使用 Huggingface 不是很方便。幸运的是 HF Mirror 这个镜像站的存在大大降低了使用难度(并且省了一大笔钱)。

基本使用

下载数据集

这是最常见的需求。参考这篇文章的解决方案,使用 hfd.sh 脚本即可快速下载数据集。

上传模型或者数据集

有时需要将本地的模型或数据集上传到 Huggingface 存储以方便共享或节省硬盘空间,而采用 git lfs 直接 clone 存储库后上传经常遇到处理速度慢和网络不通的问题,这时可以使用官方的 huggingface-cli 和 hf_transfer 并配合镜像站一起使用。

首先安装相关工具:

1
pip install -U "huggingface_hub[cli]" hf_transfer

启用 hf_transfer 需要设置环境变量 HF_HUB_ENABLE_HF_TRANSFER=1。

  • Linux
1
export HF_HUB_ENABLE_HF_TRANSFER=1
  • Windows
1
$env:HF_HUB_ENABLE_HF_TRANSFER = 1

上传使用方法:

1
huggingface-cli upload [--repo-type dataset] --token <hf_token> <username>/<repo_name> <local_path> <remote_path>

详细使用方法可以查看 huggingface-cli -h

参考

comments powered by Disqus
Built with Hugo
主题 StackJimmy 设计