AI大模型:本地开源大模型推理测试

最近有点懒,没怎么码字

如今火翻天的AI大模型,ChatGPT已经成了生活中不可或缺的一部分了,但3.5以上版本模型并不开源,API调用都按Token进行收费,虽然个人用户免费版WEB端3.5版本已经足够,但如果是想研究点大模型相关的知识,还是得找些开源的模型玩耍一波

如今开源的模型越来越多了,参数量也比较大了,70b,110b都出来了,都可以直接huggingface进行下载,当然如果无法访问可以在国内源hf-mirror上下;也可以通过一些大模型框架,或者集成工具,比如ollama,lm-studio等等下载以及运行交互

当然上面说的开源模型是指别人已经训练好的模型,但像meta的llama也全都开源了,那针对风口理论上国内不应该全民大模型吗?偏偏这玩意依赖GPU和显存,一个普通的机器,玩玩7B就不错了,再大一点,跑都跑不起来,有源码了也干瞪眼,看上去每天免费ChatGPT用的很嗨,别人背后算力估计都是天文数字,我们贫民老百姓就不要想这些,所以英伟达的卡都成了当今热门的东西

没法训练出模型,玩玩别人现成的总归可以,不同的模型对于GPU和内存的要求也不一样,一般模型说明会有推荐;一开始下了140G的llama3:70b完整模型,想用llama.cpp折腾下,还是挺麻烦的,还涉及到格式转换,也不好管理,后面我就直接ollama进行模型下载和管理,纯粹是自嗨,安装部署运行没有任何技术含量,唯一的需求就是机器配置


1、本地运行了快20个基本1b-32b之间小模型,测试基本的交流能力


2、本地运行两个稍微大一点的70B模型,分别是阿里的qwen:72b和llama3:70b

有关内存消耗的差异,下面有位同学给出了解释


3、开源的大模型应用开发平台Dify,工作流的玩耍


4、开源的大模型应用开发平台,知识库的玩耍


5、模型的量化,GGUF格式转换,Ollama识别


6、ChatTTS:文本语音转换模型

发表评论