铭鸿体育资讯网

Granite Embedding Multilingual R2:9...

97M 小模型的反常性能性能对比(MTEB 多语言检索)模型 参数量 MTEB 分数 速度 multilingual-e
97M 小模型的反常性能性能对比(MTEB 多语言检索)模型
参数量
MTEB 分数
速度
multilingual-e5-small
118M
50.9
基准
Granite R2 97M
97M
59.6
+1.5× 吞吐
gte-multilingual-base
305M
~59.6
-3× 速度
Granite R1 (前代)
107M
48.1
-
关键洞察:97M 比 118M 强 8.7 分,比 305M 速度快 3 倍,质量持平
其他维度碾压代码检索:60.5 vs 40.7(+19.8 分)长文档检索:65.6 vs 34.3(+31.3 分,翻倍提升)技术架构:从 R1 到 R2 的三大革命维度
R1
R2
架构
XLM-RoBERTa
ModernBERT
上下文
512 token
32,768 token (64×)
位置编码
Absolute
Rotary (RoPE)
注意力
全量
Alternating(每3层全局)
激活函数
GELU
GeGLU / SiLU
Flash Attention

2.0
代码支持

9种语言
97M 是如何"瘦身"的?层剪枝:22 层 → 12 层词表压缩:262K → 180K知识蒸馏:从 311M 蒸馏回性能结果:保留大模型能力,体积仅 1/3短板与适用场景97M 的局限跨语言检索退化:Belebele 52.9 vs R1 55.1(小语种 embedding 质量下降)不是绝对第一:311M 版本 MTEB 64.0,仍有更高分模型选型建议场景
推荐版本
内部知识库 RAG CPU/边缘部署 预算敏感 中文为主
97M
多语言合同检索 长文档(20+页) 跨语言是核心需求
311M
5 分钟接入你的 RAG 栈最简方式(Sentence Transformers)from sentence_transformers import SentenceTransformer

# 一行换模型
model = SentenceTransformer("ibm-granite/granite-embedding-97m-multilingual-r2")

query = "第三季度营收增长了多少?"
passages = [
"Q3 revenue reached $1.2B, up 15% YoY...",
"第三季度营收达到12亿美元,同比增长15%...",
"2025年员工满意度调查结果汇总..."
]

query_emb = model.encode(query)
passage_embs = model.encode(passages)

from sentence_transformers.util import cos_sim
scores = cos_sim(query_emb, passage_embs) # 中文文档得分最高CPU 优化部署# ONNX 后端
model = SentenceTransformer(
"ibm-granite/granite-embedding-97m-multilingual-r2",
backend="onnx"
)

# OpenVINO INT8 量化
model = SentenceTransformer(
"ibm-granite/granite-embedding-97m-multilingual-r2",
backend="openvino",
model_kwargs={"file_name": "openvino/openvino_model_qint8_quantized.xml"}
)vLLM 服务部署vllm serve ibm-granite/granite-embedding-97m-multilingual-r2 --task embedLangChain/LlamaIndex/Haystack/Milvus:只需改一行模型名
为什么这件事比模型本身更大?IBM 的策略很"IBM":
Apache 2.0 许可 → 法务不用开会ONNX/OpenVINO 原生支持 → 运维零学习成本训练数据合规 → 避开 MS-MARCO 等非商用数据集企业友好 → 部署、替换、治理都考虑周全本质:不抢大模型叙事中心,而是成为 企业 RAG 栈的默认基础件
未来观察重点97M 在 CPU/边缘的真实延迟311M 在长文档检索的稳定性主流向量数据库是否纳入默认推荐如果这三点跑通,Granite R2 将成为 企业 AI 工作流的隐形入口——不性感,但极其黏性。
如果你正在搭建 RAG 系统,可以考虑用 97M 替换现有 embedding 模型 在真实业务数据上做 A/B 测试,验证检索准确率提升 考虑将 311M 作为跨语言场景的备选方案