需要比对的文本比较大,往往超过5000字中文,有什么好办法。试了拆分向量化 再组合,效果不好。

#29
by springsuu - opened

需要比对的文本比较大,往往超过5000字中文,有什么好办法。试了拆分向量化 再组合,效果不好。

StellaEncoder org

针对你这个问题,我建议
1)是否有其他模型支持这么长的上下文
2)能不能对超长的文本进行切割,然后分别检索取最大值作为最终得分
最后,本模型只针对英文,无法处理中文

infgrad changed discussion status to closed

多谢回复。我用的是dunzhang/stella-mrl-large-zh-v3.5-1792d ,文档太长 做了切分处理后效果不好 感觉没有上下文了,因为每个文档都是一个完整的技术方案。 想把模型输入调大一些 模型调优一下 有啥建议吗?

Sign up or log in to comment