Su的技术博客

  • 首页
  • 原创
  • 视频
  • Java
  • MySQL
  • DDD
  • 事故复盘
  • 架构方案
  • AI
  • Other
  • 工具
    • AI工具集
    • 工具清单
    • JSON在线格式化
    • JSON在线比较
    • SQL在线格式化
  • 打赏
  • 关于
路很长,又很短
  1. 首页
  2. AI
  3. 正文
                           

【AI】Google Gemini技术报告要点提炼

2023-12-10 3429点热度 0人点赞 0条评论

作者:张俊林say

 

1.技术报告60页,没有透漏具体技术细节,大部分是评测,技术报告作者列表包含9页内容,超过700人,应该接近OpenAI的员工总数了吧。

2.Gemini是几种模态一起联合从头训练的,包括文本、图片、音频、视频等。这与目前通常的多模态做法不太一样,目前的多模态模型一般是使用现成的语言大模型或者经过预训练过的图片模型(比如CLIP的图片编码部分),然后利用多模态训练数据在此基础上加上新的网络层训练;如果是几个模态从头开始一起训练,那么按理说应该都遵循next token prediction的模式,就应该是LVM的那个路子,其它模态的数据打成token,然后图片、视频等平面数据先转换成比如16*16=256个token,然后搞成一维线性输入,让模型预测next token,这样就把不同模态在训练阶段统一起来。

3.技术报告说应该是Decoder only的模型结构,针对结构和优化目标做了优化,优化目的是大规模训练的时候的训练和推理的稳定性,所以大结构应该是类似GPT的Decoder-only预测next token prediction的模式。目前支持32K上下文。

4.Gemini Nano包含两个版本:1.8B面向低端手机,3.25B面向高端手机。文章说Nano首先从大模型蒸馏,然后4bit量化。我这里有个问题:为什么不用手机调用API的方式调用服务端的最强模型呢?能想到的一个可能的解释是用户隐私,这样手机不用把数据传到云端;另外一个推理成本从云端转移到了手机,能够大量节省推理成本。还有其他原因么?

5.从硬件描述部分来看,意思是动用了前所未有的TPU集群,所以推测Gemini Ultra的模型规模应该相当大,猜测如果是MOE大概要对标到GPT 4到1.8T的模型容量,如果是Dense模型估计要大于200B参数。考虑到引入视频音频多模态数据(当然是来自于Youtube了,难道会来自TikTok么),所以总数据量*模型参数,会是非常巨大的算力要求,技术报告说可以一周或者两周做一次训练。

6.训练可能分成多个阶段,最后阶段提高了领域数据的混合配比,猜测应该指的是逻辑和数学类的训练数据增加了配比,目前貌似很多这么做的,对于提升模型逻辑能力有直接帮助。

7.看学科能力测试,技术报告指标有人为拔高的倾向,比如MMLU,只有CoT给32个例子Gemini才能超过GPT4,当例子数量减少到5个,Gemini ultra得分83.7%,不如GPT 4得分86.4%,高于GPT 3.5的70%。从测试具体情况看,gemini ultra应该是和GPT4基本持平或者稍微弱于GPT 4的,gemini pro和ultra差距比较大,应该略微强于GPT 3.5;而且Llama2 在数学、推理等方面与最好的大模型效果差距非常明显,不同测试指标差距20到40分之间;

8.从学科能力测试数据看,目前大模型能力很可能顺序如下:GPT 4 略微强于Geminni ultra> Claude 2> inflection-2> GPT 3.5= Grok 1 >Llama2。

9.AlphaCode2是在Gemini pro基础上,使用编程竞赛的数据fine-tune出来的,效果提升很明显,在编程竞赛上排名超过85%的人类选手,之前的AlphaCode1超过50%的人类选手;

10.Gemini Ultra在多模态能力方面,在几乎所有测试数据上确实要比GPT 4V强一些。

11.命令理解方面:和GPT一样,采用多模态instruct数据进行SFT+RM+RLHF三阶段,这里的RM部分在训练打分模型的时候,采用了加权的多目标优化,三个目标helpfulness factuality和 safety,猜测应该是对于某个prompt,模型生成的结果,按照三个指标各自给了一个排序结果。

一个悲观的结论:

最后多说一句,从Gemini能够推断出一个悲观的结论如下:

因为在GPT 4V前大多数是文本模型,很多人觉得文本模型缺乏Grounding,就是文本抽象语义和真实物理对象对应不起来,大模型理解不了物理世界的知识,而视频数据那么多,如果引进了后,大模型不仅能建立起grounding,更重要的是视频数据蕴含了比文本更多的知识,所以对大模型的知识储备会有极大的增长。这里可能存在误解。

从Gemini的效果来看,事实可能并非如此,Gemini多模态效果不错,它主打多模态,肯定引入了尽量多的视频、图片信息,这一方面说明多种模态联合训练确实有用,但是它的用处主要在于:把文本抽象概念和物理实体形象的对应Grounding建立起来了,但是在大模型的世界知识和各种能力储备方面,经过大量视频强化过的Gemini甚至可能还比不过只用文本训练的GPT 4。

这一切指向如下可能:就世界知识含量来说,文本是大模型获取知识的主要来源渠道,视频、图片数据在这方面对于文本的世界知识补充作用微乎其微,视频、图片和文本多模态训练的主要作用是建立起实体概念及知识抽象表述和外在物理形象绑定建立grounding而已。除此外,无需对类似视频等多模态数具有更高的期望。

本质上,目前多模态大模型效果还不错,是大模型把从文本中学到的世界知识和逻辑能力,经过grounding绑定到实体外在形象后,在多模态场景下语言模型把丰富的世界知识迁移给了多模态模型,是文本模型带着多模态在飞,而不是反过来。

更多文章:

  1. 2023 年 AI 盘点(转译)
  2. 《2023 年度 AI 大事记》
  3. LangChain:打造自己的LLM应用
  4. OpenAI震撼技术圈!0代码构建Assistants API,技术原理探秘
  5. LLM下半场之Agent基础能力概述:Profile、Memory、Plan、Action、Eval学习笔记
  6. Prompt之【翻译】
  7. 一文带你了解OpenAI Sora
  8. ChatGLM:ChatGPT的替代方案
  9. 26 条有效的AI提示词技巧
  10. LangChain原理学习笔记
标签: AI 人工智能 OpenAI 大模型 gemini google
最后更新:2023-12-10

秋天0261

关注Java领域,后端开发、Netty、Zookeeper、Kafka、ES、分布式、微服务、架构等。分享技术干货,架构设计,实战经验等。

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

广告
最新 热点 推荐
最新 热点 推荐
微服务架构:必懂的6大性能维度 Anthropic Code with Claude 开发者大会:开启 AI Agent 新时代 视频笔记-微服务架构P4:必懂5种设计模式 视频笔记:微服务架构P4 设计模式:每服务数据库、API 网关和事件驱动架构 干货 | 论Elasticsearch数据建模的重要性 马蜂窝消息总线——面向业务的消息服务设计 基于 MySQL Binlog 实现可配置的异构数据同步 视频笔记:Google发布Agent2Agent协议
基于 MySQL Binlog 实现可配置的异构数据同步马蜂窝消息总线——面向业务的消息服务设计视频笔记:微服务架构P4 设计模式:每服务数据库、API 网关和事件驱动架构干货 | 论Elasticsearch数据建模的重要性视频笔记-微服务架构P4:必懂5种设计模式Anthropic Code with Claude 开发者大会:开启 AI Agent 新时代微服务架构:必懂的6大性能维度
笔记08 | 搜狗面试题:IO多路复用之select、poll、epoll的区别 系统设计 | 高性价比的测试策略("瓜藤"比喻) Vim 一下日志文件,Java 进程没了? JVM 内存分析神器 MAT: Shallow Heap Vs Retained Heap 你理解的对吗? 云音乐贵州机房迁移总体方案回顾 系统设计 | 企业应用数据交换 解构领域驱动设计(二):分层架构 DDD领域建模实战——四色建模法

CRUD (1) Event Sourcing (1) graphql (1) id (1) NoSQL (1) quarkus (1) rest (1) RocketMQ (2) Spring Boot (1) zk (1) zookeeper (1) 上下文 (1) 事务消息 (1) 二级缓存 (1) 值对象 (1) 关系数据库 (1) 分布式缓存 (1) 原子性 (1) 唯一ID (1) 商品 (1) 多对多 (1) 子域 (1) 字符集 (1) 客户端心跳 (1) 幂等 (2) 干货 (1) 并发 (1) 应用场景 (1) 应用架构图 (1) 康威定律 (2) 异步复制 (1) 微服务架构 (3) 总体方案 (1) 技术方案 (2) 技术架构 (2) 技术架构图 (1) 技能 (1) 持续集成 (1) 支撑域 (1) 故障恢复 (1) 数据架构图 (1) 方案选型 (1) 日记 (1) 服务发现 (1) 服务治理 (1) 服务注册 (2) 机房 (1) 核心域 (1) 泄漏 (1) 洋葱架构 (1) 消息队列 (5) 源码剖析 (1) 灰度发布 (1) 熔断 (1) 生态 (1) 画图工具 (1) 研发团队 (1) 线程 (2) 组织架构 (1) 缓存架构 (1) 编码 (1) 视频 (20) 读写分离 (1) 贵州 (1) 软件设计 (1) 迁移 (1) 通用域 (1) 集群化 (1) 雪花算法 (1) 顺序消息 (1)

推荐链接🔗
  • AI工具集
  • 工具箱🛠️

COPYRIGHT © 2014-2025 verysu.com . ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备15033072号-2