长期支持版本

    社区创新版本

      llama.cpp 使用指南

      介绍

      llama.cpp 是基于 C/C++ 实现的 LLaMa 英文大模型接口,可以支持用户在CPU机器上完成开源大模型的部署和使用。

      llama.cpp 支持多个英文开源大模型的部署,如LLaMa,LLaMa2,Vicuna等。

      软件架构

      llama.cpp 核心架构分为两层:

      • 模型量化层:可以量化开源模型,减少模型大小;
      • 模型启动层:可以启动量化后的模型。

      特性:

      • 基于 ggml的C/C++ 实现
      • 通过 int4/int8 量化、优化的KV缓存和并行计算等多种方式加速 CPU 推理;
      • 互动界面是流媒体生成,具有打字机效果;
      • 无需 GPU,可只用 CPU 运行。

      安装教程

      软硬件要求

      处理器架构:支持 AArch64 和 X86_64 处理器架构;

      操作系统:openEuler 23.09;

      内存:根据不同开源模型的大小,不低于 4G 。

      安装组件

      使用llama.cpp部署大模型,需要安装 llama.cpp 软件包。安装前,请确保已经配置了 openEuler yum 源。

      1. 安装:
      yum install llama.cpp
      
      1. 查看是否安装成功:
      llama_cpp_main -h
      

      若成功显示 help 信息则安装成功。

      使用说明

      不使用容器

      1. 需要安装 llama.cpp 软件包:
      yum install llama.cpp
      
      1. 需要下载开源大模型,如LLaMa、LLaMa2等。并将下载的开源大模型通过 llama_convert.py 进行模型量化:
      python3 /usr/bin/llama_convert.py  model_path/
      

      其中model_path为开源大模型的存放路径。

      1. 启动模型,进行对话:
      llama_cpp_main -m model_path --color --ctx_size 2048 -n -1 -ins -b 256 --top_k 10000 --temp 0.2 --repeat_penalty 1.1 -t 8
      

      其中model_path为量化模型的存放路径。

      可通过以下命令查看命令行选项用法:

      llama_cpp_main -h
      

      使用容器

      1. 拉取容器镜像:
      docker pull hub.oepkgs.net/openeuler/llama_image
      
      1. 运行容器镜像,进行对话:
      docker run -it --security-opt seccomp=unconfined hub.oepkgs.net/openeuler/llama_image
      

      正常启动界面

      模型启动后的界面如图1所示:

      图1 模型启动界面

      模型启动界面

      规格说明

      本项目可支持在CPU级别的机器上进行大模型的部署和推理,但是模型推理速度对硬件仍有一定的要求,硬件配置过低可能会导致推理速度过慢,降低使用效率。

      表1可作为不同机器配置下推理速度的参考:

      表格中 Q4_0,Q4_1,Q5_0,Q5_1 代表模型的量化精度;ms/token 代表模型的推理速度,含义为每个token推理耗费的毫秒数,该值越小推理速度越快;

      表1 模型推理速度的测试数据

      LLaMa-7BQ4_0Q4_1Q5_0Q5_1
      ms/token (CPU @ Platinum 8260)55547683
      模型大小3.5G3.9G4.3G6.7G
      内存占用3.9G4.2G4.5G5.0G

      文档捉虫

      “有虫”文档片段

      问题描述

      提交类型 issue

      有点复杂...

      找人问问吧。

      PR

      小问题,全程线上修改...

      一键搞定!

      问题类型
      规范和低错类

      ● 错别字或拼写错误;标点符号使用错误;

      ● 链接错误、空单元格、格式错误;

      ● 英文中包含中文字符;

      ● 界面和描述不一致,但不影响操作;

      ● 表述不通顺,但不影响理解;

      ● 版本号不匹配:如软件包名称、界面版本号;

      易用性

      ● 关键步骤错误或缺失,无法指导用户完成任务;

      ● 缺少必要的前提条件、注意事项等;

      ● 图形、表格、文字等晦涩难懂;

      ● 逻辑不清晰,该分类、分项、分步骤的没有给出;

      正确性

      ● 技术原理、功能、规格等描述和软件不一致,存在错误;

      ● 原理图、架构图等存在错误;

      ● 命令、命令参数等错误;

      ● 代码片段错误;

      ● 命令无法完成对应功能;

      ● 界面错误,无法指导操作;

      风险提示

      ● 对重要数据或系统存在风险的操作,缺少安全提示;

      内容合规

      ● 违反法律法规,涉及政治、领土主权等敏感词;

      ● 内容侵权;

      您对文档的总体满意度

      非常不满意
      非常满意
      提交
      根据您的反馈,会自动生成issue模板。您只需点击按钮,创建issue即可。
      文档捉虫
      编组 3备份