Su的技术博客

  • 首页
  • 原创
  • 视频
  • Java
  • MySQL
  • DDD
  • 事故复盘
  • 架构方案
  • AI
  • Other
  • 工具
    • AI工具集
    • 工具清单
    • JSON在线格式化
    • JSON在线比较
    • SQL在线格式化
  • 打赏
  • 关于
路很长,又很短
  1. 首页
  2. AI
  3. 正文
                           

【转载】【2024.1】仍然活跃的开源LLM

2024-02-01 3362点热度 0人点赞 0条评论

0、前言

目前大家关注开源LLM模型的热潮已经褪去,但过去3个月这方面仍有一些工作发布。本文是我本轮调研的一个笔记,顺便发出来供读者参考。

由于这方面的玩家较多,也没有很合适效果或者影响力排序,所以为了尽量让顺序与社区中的认知相似,我综合考虑了模型知名度与口碑、下场时间、预期未来投入等方面进行了一个大致的排序,小范围内前后差异不大。

本文主要讨论通用场景的独立训练的基座LLM,多模态模型和领域特化模型等不在此列。

1、国内厂商列表

1.1、阿里巴巴 千问Qwen

hf主页 https://huggingface.co/Qwen

Qwen系列的开源模型从2023年9月底开始发布,11月底的时候发布了1.8B与72B版本。

  • 模型的梯队:1.8B、7B、14B、72B。base和chat版本都齐备,并且有官方量化版本

  • 还有Qwen-VL、Qwen-Audio模型

Qwen系列模型效果的口碑还是不错的。

Qwen2系列可能会在近期开源。

1.2、智谱 ChatGLM

hf主页 https://huggingface.co/THUDM

核心的ChatGLM开源模型只有6B版本,2023年3月发布了第一代,6月发布了第二代,10月底发布了第三代。截止到第三代仍然是发布比较勤的,目前为止没有第四代开源版本的消息。

  • 最新是ChatGLM3-6B,有32k context微调版本

  • 各类其他模型,包括CodeGeeX2、CogVLM、CoGVide、CogAgent等

ChatGLM系列发布较早且效果在当时较为不错,所以影响力很大。

1.3、百川智能 Baichuan

hf主页 https://huggingface.co/baichuan-inc

Baichuan系列的开源模型在2023年6月发布了第一代7B,在7月发布了13B版本。在9月发布了第二代7B和13B版本呢。

  • 最新是Baichuan2系列,模型的梯队:7B、13B,有base和chat版本

发布仍算相对较早,有不小的影响力。

1.4、智源 天鹰Aquila

hf主页 https://huggingface.co/BAAI

智源在2023年6月在LLM生态中的影响力还是挺大的,一方面是2023北京智源大会,另一方面是同时开源的一系列模型和工作。6月发布了Aquila 7B模型,并持续更新7B小版本到了8月。原本计划发布的33B最终难产。

在Aquila系列模型逐步淡出大家视野之后,又在10月发布了Aquila2系列模型,包括7B、34B,并在11月发布了70B版本。但由于这次的宣发很弱,以及大家对Aquila 1代的模型效果评价不高,所以大部多数人并未听说2代。

1.5、上海人工智能实验室  书生·浦语InternLM

hf主页 https://huggingface.co/internlm

InternLM系列的第一代在7月开源7B版本,9月开源20B版本,在2024年1月开源第二代的7B、20B版本。

这个系列也有商汤的参与。

1.6、元象科技 XVERSE

hf主页 https://huggingface.co/xverse

元象科技从官网来看主业是做元宇宙方向的。

XVERSE系列在8月开源13B版本,9月开源7B版本,11月开源65B版本。在11月更新了第二版的13B,在12月更新了第二版的65B版本。

值得一提的是,XVERSE-65B支持多种语言。

1.7、幻方 深度求索DeepSeek

hf主页 https://huggingface.co/deepseek-ai

幻方主业是做量化基金的,在LLM方面起步算相对较晚的一批,但其LLM方面的工作看起来较为认真,且社区风评较好。

DeepSeek系列在11月开源了7B、67B两个版本,同时还有Coder系列特化版本。在2024年1月还开源了MoE 16B版本。

DeepSeek已经提供了商用API。

1.8、零一万物 Yi

hf主页 https://huggingface.co/01-ai

零一万物也属于较晚入场的一批基座LLM公司,在11月发布了6B、34B版本,在2024年1月发布了VL-6B版本。

1.9、昆仑万维 天工Skywork

hf主页 https://huggingface.co/Skywork

昆仑万维本身的主业也并非做基座LLM,但目前在这方面的动作较多,属于比较认真的玩家。

Skywork系列在10月开源了13B版本和Math特化版本,并开源有SkyPile语料库。

1.10、深言科技 LingoWhale

hf主页 https://huggingface.co/deeplang-ai

LingoWhale在11月开源8B版本。

1.11、猎户星空 Orion

hf主页 https://huggingface.co/OrionStarAI

猎户星空是猎豹移动旗下的公司,主业是智能机器人。从傅盛的公开发言来看,猎户星空也在很认真的开展LLM相关的工作,整体更侧重于参数量不太大的模型。

Orion系列在2024年1月开源14B版本,并附带LongChat、Chat-RAG、Chat-Plugin等版本。

值得一提的是,Orion系列支持除中文、英语外,还有日语、韩语,这与猎户星空已有客户需求是有关的。

1.12、虎博科技 TigerBot

hf主页 https://huggingface.co/TigerResearch

https://github.com/TigerResearch/TigerBot

虎博科技在LLM方向介入也算是较早的,之前开源的模型是基于已有开源模型继续预训练的,大概从12月开始转为了独立预训练(存疑)。

1.13、RWKV

hf主页 https://huggingface.co/BlinkDL

RWKV即使放眼全球也是相当特立独行的存在,基本上是靠彭博一人之力扛起了一个不被看好的LLM方向。禀临科技的官方主页上销售的主要是一些小家电,以灯具为主(捂脸)。

RWKV本质上是一个类似早年RNN系结构的网络架构,与现在的纯transformer系可谓格格不入,而且由于RNN系架构已经被认为不适合学习长程相关性,所以目前主流做LLM的人是看不上这个方案的。彭博应该也不是在最近才特立独行搞这个方向,而是之前几年就在独自坚守这个方向。

由于RWKV太过另类,我也没有太多关注其进展,但RWKV一直是相当活跃的。本文不再展开讨论。

1.14、中科闻歌  雅意Yayi

hf主页 https://huggingface.co/wenge-research

中科闻歌的主业不完全是LLM方向,但看起来相关性还算是较高的。

Yayi系列从Yayi2开始才是独立预训练的,在12月发布了30B版本。

1.X、其他新进厂商

Vivo BlueLM

https://github.com/vivo-ai-lab

hf主页 https://huggingface.co/vivo-ai

在11月开源了7B模型。

浪潮集团 Yuan

https://github.com/IEIT-Yuan

hf主页 https://huggingface.co/IEITYuan

在12月开源了2B、51B、102B模型

中电信人工智能科技  星辰语义TeleChat

hf主页 https://huggingface.co/Tele-AI

在2024年1月开源了7B模型。

1.Y、早期玩家/模型系列

从全球范围内来看,8月之后不少开源模型已经停更,这里仅收录一些知名的玩家。如有遗漏欢迎反馈补充。

复旦 MOSS

https://github.com/OpenLMLab/MOSS

MOSS在2023年4月就已经开源,是中国比较早的独立的LLM工作。但目前已经没有下文。

看起来这条线跟上海人工智能实验室有一定关联,不清楚InternLM是否就是该方向的后续工作。

面壁智能

https://huggingface.co/openbmb

CPM-Bee系列早在5月份就开源了1B、2B、5B、10B版本。但后续面壁再未发布独立预训练的LLM。

2、海外厂商列表

2.1、Meta Llama

hf主页 https://huggingface.co/meta-llama

Llama系列第一代发布于2023年2月,包括7B、13B、33B、65B,参数没有直接开源,但有泄露版本。基本可以算是目前全球开源LLM的宗师,大家或多或少都是直接基于它的方案自己训练或者进行魔改。第二代在7月发布,包括7B、13B、70B。

目前官方已确认Llama-3正在训练中。

2.2、Mistral AI

hf主页 https://huggingface.co/mistralai

Mistral AI在9月开源了7B版本,在12月开源了MoE架构的Mixtral 8x7B,在整个LLM社区中引发了不小的震动。

2.3、Stability AI   StableLM

hf主页 https://huggingface.co/stabilityai

Stability AI主要似乎还是在做生图方向,在2023年4月发布了StableLM-Alpha系列模型,在8月发布了StableLM-Alpha v2,在9月发布了StableLM-3B-4E1T。

2.4、TII  Falcon

hf主页 https://huggingface.co/tiiuae

TII(Technology Innovation Institute)是一家阿联酋公司。

TII在4月开源了Falcon-rw系列模型,参数为1B、7B;在4月和5月开源了Falcon系列的7B和40B,在8月开源了180B模型,一度是后Llama时代中最大参数量的模型。但后续TII再无开源动作。

Falcon系列模型支持印欧语系的部分多语言。

2.5、微软 Phi

hf主页 https://huggingface.co/microsoft?search_models=phi

微软并没有大参数量LLM的开源和闭源消息,但有一个小参数量(~1-2B)的系列工作,称为Phi。

Phi 1和Phi 1.5发布于9月份,Phi 2发布于12月。

2.X、早期玩家/模型系列

Meta OPT

hf主页 https://huggingface.co/facebook?search_models=OPT

OPT是Meta的早期LLM尝试,于2022年5月发布。OPT属于前Llama时代。

BigScience BLOOM

BLOOM是一次开放社区训练LLM的尝试,于2022年7月发布,它的整个过程也是开源的。BLOOM属于前Llama时代。

3、国内微调团队 拾遗

由于做微调和继续预训练的门槛相对于独立预训练低了非常多,所以有很多这方面的工作,鱼龙混杂。

虽然目前基于英文LLM进行中文扩展的工作的价值已经大部分被国内原生中文LLM的开源模型所替代,由于目前在中文和英文中文混合场景下,开源LLM的竞争还不够充分,一些基于英文模型的中文扩展继续预训练模型仍然在被使用。所以本文加入本节少量列举一些有代表性的工作。也许再过1-2年,这个技术方案会完全退出历史舞台。

由于这方面历史工作较多,我并未花太多精力调研,如有遗漏请联系我补充。从我的记忆中,国内对于Llama的中文扩展做的较好的团队只有两家:OpenBuddy和Chinese-LLaMA-Alpaca系列。

3.1、OpenBuddy

https://huggingface.co/OpenBuddy

OpenBuddy在英文模型的中文扩词表和继续预训练上一直算是比较活跃的,且开源的工作较多。虽然目前基于英文LLM进行中文扩展的工作的价值已经大部分被国内原生中文LLM的开源模型所替代,但OpenBuddy目前仍然在活跃,也开始进行一些原生中文LLM的增强工作。

OpenBuddy在算力投入上是较多的,相对于其他团队来说它有涉猎70B及以上参数规模的模型。

3.2、HFL  Chinese-LLaMA-Alpaca

https://github.com/ymcui

https://huggingface.co/hfl

HFL是哈尔滨工业大学和科大讯飞的联合研究室,Chinese-LLaMA-Alpaca项目发布较早且质量较为不错,所以得到了较广的传播和使用。

HFL开源的中文扩展模型主要还是针对于Llama和Alpaca的,也有少量涉猎mixtral等模型。

3.3、流萤Firefly

https://github.com/yangjianxin1/Firefly

https://huggingface.co/YeungNLP

Firefly系列我个人没有太多印象。它目前仍然有这方面的工作不断放出。

4、总评

4.1、开源的后续投入预计

现在开源LLM的热潮已经褪去一轮,虽然还有些新进厂商,以及未来随着算力成本的显著降低,应该还会有继续入场的厂商。但目前在开源界还活着的玩家也就是上面这些,也就是~20家的量级。

在我来看,大部分厂商可能并没有持续开源LLM的动力,已经开源的这些工作的目的更多是:

  • 证明自己的技术能力已经到达某一阶段,在刚入场后会做一段时间,直到能力追上gpt-3.5-turbo。后续可能会以较大的周期(例如1年)进行更新。

  • 内部LLM学习过程的副产品,食之无味弃之可惜,开源一下还可以再获取一些其他价值。

目前来看,基座LLM供应商已经有了明显的跟上层应用层抢饭碗的趋势,这可能会进一步削减其开源强能力模型的意愿。

4.2、开源模型的代际

从效果上来说,目前开源LLM已经有了明显的代际划分,例如:

  • 现在的模型肯定好于1年前的,即使参数量上跨多级。

  • 现在的模型大概率好于半年前的

目前来看前Llama时代的模型都可以丢进垃圾桶了,2023年的模型也可以主要只看后4个月发布的。

4.3、使用推荐

LLM模型的评测本就是一套烂账,开源方面更加一言难尽。现在整个社区对于新模型的关注已经不多了,除了少数历史口碑不错的厂商的新模型还会有人跟进之外,其他二线、三线团队的模型大部分已经无人问津。

从实际场景的角度来说,哪些模型比较好还是要看具体场景的实测的。不过由于现在选项太多,所以简单列一些可以首先尝试的系列:

  • Qwen系列,效果上口碑较好,发布时间也较新,模型规模梯队相对完善。

  • ChatGLM 第3代已经有点老,第4代没有消息

  • Baichuan系列,大概率会跟随Llama 3的发版推出7B、13B版本,主打一个中庸。

  • DeepSeek、Yi、Skywork、Orion,目前的新秀

目前开源模型的参数覆盖和能力梯队都还不完整,以及经常缺少function calling等商用API已经普及的关键特性,所以能选择范围仍很受限。

本文于2024.1.24首发于微信公众号与知乎

知乎链接 https://zhuanlan.zhihu.com/p/679589032

更多文章:

  1. Spring事务无法生效的11个场景
  2. 《2023 年度 AI 大事记》
  3. 设计模式在外卖营销业务中的实践
  4. 2023 年 AI 盘点(转译)
  5. LLM下半场之Agent基础能力概述:Profile、Memory、Plan、Action、Eval学习笔记
  6. LangChain:打造自己的LLM应用
  7. 26 条有效的AI提示词技巧
  8. AI辅助编码,应该怎么选?
  9. 预测 2025 AI
  10. LangChain原理学习笔记
标签: 转载 AI LLM 大语言模型
最后更新:2024-02-01

秋天0261

关注Java领域,后端开发、Netty、Zookeeper、Kafka、ES、分布式、微服务、架构等。分享技术干货,架构设计,实战经验等。

打赏 点赞
< 上一篇
下一篇 >
广告
文章目录
  • 0、前言
  • 1、国内厂商列表
    • 1.2、智谱 ChatGLM
    • 1.3、百川智能 Baichuan
    • 1.4、智源 天鹰Aquila
    • 1.5、上海人工智能实验室  书生·浦语InternLM
    • 1.6、元象科技 XVERSE
    • 1.7、幻方 深度求索DeepSeek
    • 1.8、零一万物 Yi
    • 1.9、昆仑万维 天工Skywork
    • 1.10、深言科技 LingoWhale
    • 1.11、猎户星空 Orion
    • 1.12、虎博科技 TigerBot
    • 1.13、RWKV
    • 1.14、中科闻歌  雅意Yayi
    • 1.X、其他新进厂商
      • Vivo BlueLM
      • 浪潮集团 Yuan
      • 中电信人工智能科技  星辰语义TeleChat
    • 1.Y、早期玩家/模型系列
      • 复旦 MOSS
      • 面壁智能
  • 2、海外厂商列表
    • 2.1、Meta Llama
    • 2.2、Mistral AI
    • 2.3、Stability AI   StableLM
    • 2.4、TII  Falcon
    • 2.5、微软 Phi
    • 2.X、早期玩家/模型系列
      • Meta OPT
      • BigScience BLOOM
  • 3、国内微调团队 拾遗
    • 3.1、OpenBuddy
    • 3.2、HFL  Chinese-LLaMA-Alpaca
    • 3.3、流萤Firefly
  • 4、总评
    • 4.1、开源的后续投入预计
    • 4.2、开源模型的代际
    • 4.3、使用推荐
最新 热点 推荐
最新 热点 推荐
干货 | 论Elasticsearch数据建模的重要性 马蜂窝消息总线——面向业务的消息服务设计 基于 MySQL Binlog 实现可配置的异构数据同步 视频笔记:Google发布Agent2Agent协议 视频笔记:什么是微服务,为什么是微服务? 视频笔记:什么是AI 智能体? 视频笔记:什么是Flink? 如何秒级实现接口间“幂等”补偿:一款轻量级仿幂等数据校正处理辅助工具
Elasticsearch 使用误区之六——富文本内容写入前不清洗基于 MySQL Binlog 实现可配置的异构数据同步马蜂窝消息总线——面向业务的消息服务设计干货 | 论Elasticsearch数据建模的重要性你可以不用RxJava,但必须得领悟它的思想!如何秒级实现接口间“幂等”补偿:一款轻量级仿幂等数据校正处理辅助工具视频笔记:什么是Flink?视频笔记:什么是AI 智能体?
系统设计 | UUID 和 自增 ID 怎么选? 应用分层架构最佳实践:Alibaba COLA 4.0 使用DeepSeek R1的19条经验 我们在顺序消息和事务消息方面的实践 什么是Event Sourcing?跟CQRS和DDD有什么关系 用图讲解SOLID设计原则 JVM 内存分析神器 MAT: Incoming Vs Outgoing References 你真的了解吗? 马蜂窝消息总线——面向业务的消息服务设计

CRUD (1) Event Sourcing (1) graphql (1) id (1) NoSQL (1) quarkus (1) rest (1) RocketMQ (2) Spring Boot (1) zk (1) zookeeper (1) 上下文 (1) 事务消息 (1) 二级缓存 (1) 值对象 (1) 关系数据库 (1) 分布式缓存 (1) 原子性 (1) 唯一ID (1) 商品 (1) 多对多 (1) 子域 (1) 字符集 (1) 客户端心跳 (1) 幂等 (2) 干货 (1) 并发 (1) 应用场景 (1) 应用架构图 (1) 康威定律 (2) 异步复制 (1) 微服务架构 (2) 总体方案 (1) 技术方案 (2) 技术架构 (2) 技术架构图 (1) 技能 (1) 持续集成 (1) 支撑域 (1) 故障恢复 (1) 数据架构图 (1) 方案选型 (1) 日记 (1) 服务发现 (1) 服务治理 (1) 服务注册 (2) 机房 (1) 核心域 (1) 泄漏 (1) 洋葱架构 (1) 消息队列 (5) 源码剖析 (1) 灰度发布 (1) 熔断 (1) 生态 (1) 画图工具 (1) 研发团队 (1) 线程 (2) 组织架构 (1) 缓存架构 (1) 编码 (1) 视频 (18) 读写分离 (1) 贵州 (1) 软件设计 (1) 迁移 (1) 通用域 (1) 集群化 (1) 雪花算法 (1) 顺序消息 (1)

推荐链接🔗
  • AI工具集
  • 工具箱🛠️

COPYRIGHT © 2014-2025 verysu.com . ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备15033072号-2

x