一直感觉直接运行大模型没啥意思,结果都是靠效果;还是自己训练或者微调出一个模型才有点激情,于是乎玩耍了一下
虽然老早就了解训练一个模型不是一般的资源消耗,像正常RAG知识库外挂相当于挂了个补丁,对于模型本身是没有啥变化,但微调却是需要喂一些额外的数据集来重新生成一个模型,本来我以为相比全新训练一个模型,微调应该还可以进行,没想到还是太天真了,只能说GPU将大模型吃的死死的
几点总结
1 PyTorch使用MPS加速
PyTorch Start Locally:https://pytorch.org/get-started/locally/
Accelerated PyTorch training on Mac:https://developer.apple.com/metal/pytorch/
2 GLM-4-9B微调
🤗GLM-4模型:https://huggingface.co/collections/THUDM/glm-4-665fcf188c414b03c2f7e3b7
🤗GLM-4工程:https://github.com/THUDM/GLM-4
🤗微调文档:https://github.com/THUDM/GLM-4/blob/main/finetune_demo/README.md
3 MLX
🤗MLX介绍:https://ml-explore.github.io/mlx/build/html/index.html
🤗MLX量化模型库:https://huggingface.co/mlx-community
🤗MLX-Examples案例:https://github.com/ml-explore/mlx-examples
🤗MLX模型说明:https://github.com/ml-explore/mlx/discussions/1250