AI大模型：本地开源大模型推理测试

2024-05-12

20:30:24

Leave a comment on AI大模型：本地开源大模型推理测试

AI, LLM, 人工智能, 大模型

最近有点懒，没怎么码字

如今火翻天的AI大模型，ChatGPT已经成了生活中不可或缺的一部分了，但3.5以上版本模型并不开源，API调用都按Token进行收费，虽然个人用户免费版WEB端3.5版本已经足够，但如果是想研究点大模型相关的知识，还是得找些开源的模型玩耍一波

如今开源的模型越来越多了，参数量也比较大了，70b，110b都出来了，都可以直接huggingface进行下载，当然如果无法访问可以在国内源hf-mirror上下；也可以通过一些大模型框架，或者集成工具，比如ollama，lm-studio等等下载以及运行交互

当然上面说的开源模型是指别人已经训练好的模型，但像meta的llama也全都开源了，那针对风口理论上国内不应该全民大模型吗？偏偏这玩意依赖GPU和显存，一个普通的机器，玩玩7B就不错了，再大一点，跑都跑不起来，有源码了也干瞪眼，看上去每天免费ChatGPT用的很嗨，别人背后算力估计都是天文数字，我们贫民老百姓就不要想这些，所以英伟达的卡都成了当今热门的东西

没法训练出模型，玩玩别人现成的总归可以，不同的模型对于GPU和内存的要求也不一样，一般模型说明会有推荐；一开始下了140G的llama3:70b完整模型，想用llama.cpp折腾下，还是挺麻烦的，还涉及到格式转换，也不好管理，后面我就直接ollama进行模型下载和管理，纯粹是自嗨，安装部署运行没有任何技术含量，唯一的需求就是机器配置

1、本地运行了快20个基本1b-32b之间小模型，测试基本的交流能力<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>

2、本地运行两个稍微大一点的70B模型，分别是阿里的qwen:72b和llama3:70b
<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>
有关内存消耗的差异，下面有位同学给出了解释

3、开源的大模型应用开发平台Dify，工作流的玩耍
<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>

4、开源的大模型应用开发平台，知识库的玩耍
<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>

5、模型的量化，GGUF格式转换，Ollama识别
<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>

6、ChatTTS：文本语音转换模型
<span data-mce-type="bookmark" style="display: inline-block; width: 0px; overflow: hidden; line-height: 0;" class="mce_SELRES_start"></span>

发表回复取消回复

要发表评论，您必须先登录。

浙ICP备16024533号

浙公网安备 33010802007459号