Gemma

2个月前更新 390 00

Google DeepMind 开发的一系列轻量开源模型，主要用于开发者进行本地部署。

收录时间：

2026-04-13

Gemma 是由 Google DeepMind 开发的一系列开源模型。是Google AI 体系其中的一条开源线路。

Gemini 更像是面向完整云服务和旗舰能力的“主力队”，而 Gemma 则是更偏向开发者、研究者和本地部署场景的一条“开放模型线”。

2026年4月Google发布的最新的Gemma 4 大模型，它被官方称为“迄今为止最智能的开放模型家族”。

Gemma 4 这次一口气推出了四个型号，包括 E2B、E4B、31B 和 26B A4B。

目标就是覆盖从手机到数据中心的所有场景：小型号更偏向移动端、边缘端和算力受限设备，大型号则更适合需要更强理解、推理和复杂任务处理的场景。

型号	类型	总参数量	推理时激活参数量	上下文窗口	目标硬件
E2B	稠密 (Dense)	约 20亿	约 20亿	128K	手机、物联网设备、树莓派
E4B	稠密 (Dense)	约 40亿	约 40亿	128K	手机、搭载高通/联发科芯片的设备
26B A4B	混合专家 (MoE)	约 260亿	约 38亿	256K	消费级GPU、专业工作站
31B Dense	稠密 (Dense)	约 310亿	约 310亿	256K	单张H100 (80GB) GPU

原生多模态能力：Gemma 4不再是“外挂”视觉模块，而是原生支持多模态。它能直接理解文本和图像（E2B/E4B还支持音频和视频），在处理包含图表、公式的文档时，理解能力比拼接式方案更胜一筹。
超高“参数效率”：这是Gemma 4最核心的卖点。它不再单纯比拼参数量，而是追求“每单位参数带来的智能”。特别是26B的MoE模型，推理时只激活约38亿参数，却能达到接近甚至超越更大规模模型的效果，把性能、速度和资源消耗平衡得很好。
长上下文窗口：小模型支持128K，而26B和31B版本支持高达256K的上下文窗口。这意味着它可以一次性处理几百页的文档或整部中篇小说，在处理海量信息时优势明显。

得益于上面的技术，Gemma 4在基准测试中表现亮眼，尤其在数学和编程上进步显著：

数学推理：在AIME 2026数学测试中，31B Dense模型取得了89.2% 的成绩，相比上一代Gemma 3 27B的21.2%有了质的飞跃。
代码生成：在LiveCodeBench v6代码测试中，31B Dense模型得分80.0%，Codeforces Elo评分高达2150，达到了人类编程竞赛中“紫名”选手的水平。
综合排名：在Arena AI文本排行榜上，31B Dense模型位列全球开源模型第三，26B MoE模型排名第六，用更少的参数超越了许多比自己大20倍的模型。

这次一个非常关键的转变是，Gemma 4采用了业界标准的Apache 2.0开源协议。之前的Gemma版本用的是Google自定义条款，其中对“模型衍生品”的定义让不少商业公司和开发者感到不安。

现在采用Apache 2.0协议，意味着开发者可以自由使用、修改、分发和商业化Gemma 4模型，无需再为法律条款的模糊性而担忧。这大大降低了企业和个人使用Gemma的门槛，是Google吸引开发者构建生态的关键一步。

模型的“本体”都托管在模型社区，主要有以下几个地方，但本地部署时，Ollama 会自动帮你下载，所以通常不用手动操作：

🤗 Hugging Face：全球最大、最权威的AI模型社区，开发者首选。
🦙 Ollama 官方库：部署工具Ollama的官方仓库，主打一个方便，用它下载和运行模型效率最高。
📱 Google AI Edge Gallery：Google 官方的App，专门用来在iPhone或Android手机上直接运行 E2B、E4B 这种轻量模型。
其他平台：比如国内的 ModelScope（魔搭社区）也有下载。

目前最省心的方法就是 Ollama 了，它就像一个“AI模型管家”，能帮你省掉很多麻烦。

这是最推荐给新手的方案，全程基本不用写代码。

安装 Ollama：去官网 ollama.com 下载对应你电脑系统（Windows, macOS, Linux）的安装包，按提示安装就行。
打开终端 (Terminal)：在你电脑上搜索并打开“命令提示符”或“终端”应用。
下载并运行模型：在终端里输入下面的命令，Ollama 就会自动开始下载模型并启动对话。bash# 运行最推荐的 E4B 版本（性价比最高，约 9.6GB） ollama run gemma4:e4b模型下载好以后，你会看到一个 >>> 提示符，直接输入文字就能和它聊天了！你也可以根据需求选择其他版本：
- ollama run gemma4:e2b：运行最轻量的 E2B 版本（约 7.2GB），适合配置一般的电脑。
- ollama run gemma4:26b：运行性能强大的 26B MoE 版本（约 18GB），适合高性能电脑。
- ollama run gemma4:31b：运行最强的 31B 版本（约 20GB），适合顶级显卡工作站。

数据统计

暂无评论...

05-28 00:49AI赚钱X
AI萌宠Vlog赛道起号快：零成本制作，附猫咪上班族剧本提示词
揭示了AI萌宠Vlog低成本高起号的实操路径，并提供了可直接套用的剧本生成提示词，对缺乏实拍能力的自媒体人极具参考价值。
05-26 01:39技巧与观点mp.weixin.qq.com
Skill怎么写，Skill目录结构和参数详解
给出了极具实操性的Skill开发“减法”思路，解决开发者容易过度设计的痛点，同时点明了节省Token的渐进式披露原理，是Agent技能化开发的实用避坑指南。
05-26 00:34产品发布/更新X：通义千问 / Qwen (@Alibaba_Qwen)
Qwen3.7-Max上线隐式缓存，API调用自动提速降价
API调用降本增效的实用更新。隐式缓存零门槛自动生效，对高频开发者和智能体应用极其友好，直接省下真金白银。
05-24 15:06产品发布/更新X：OpenClaw (@openclaw)
OpenClaw 2026.5.22发布：/models响应降至5ms，安全加固
/models接口5ms级响应和npm锁定依赖项，直击本地智能体开发中的卡顿与依赖冲突痛点，已部署用户建议立刻升级。
05-23 20:33技巧与观点X
3款开源工具去除Gemini等AI水印，解决平台限流痛点
AI隐形水印与反溯源工具的直接博弈。对于被平台AI限流困扰的创作者，这几款开源工具提供了从可见水印到隐形凭证的清理方案，极具实用参考价值。