Alibaba-NLP/gte-multilingual-reranker-base · 反问句的重排似乎效果不佳

仍然是某个Q&A自动问答匹配的内部测试数据集，代码如下

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_name_or_path = 'Alibaba-NLP/gte-multilingual-reranker-base'

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name_or_path, trust_remote_code=True,
    torch_dtype=torch.float32
)
model.eval()

pairs = [['当天买洁牙套餐可以当天去诊所洗牙吗？','当天在网上买的洁牙套餐，为什么当天不能使用？'], ['当天买洁牙套餐可以当天去诊所洗牙吗？', '只购买预约了单项洁牙套餐， 可以去补牙吗？']]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)
# 实际输出：tensor([0.1109, 0.1808])

同样例子在jinaai/jina-reranker-v2-base-multilingual 的输出是
tensor([-0.1208, -0.4309])