需要比对的文本比较大，往往超过5000字中文，有什么好办法。试了拆分向量化再组合，效果不好。

#29

by springsuu - opened 1 day ago

1 day ago

需要比对的文本比较大，往往超过5000字中文，有什么好办法。试了拆分向量化再组合，效果不好。

StellaEncoder org about 21 hours ago

针对你这个问题，我建议
1）是否有其他模型支持这么长的上下文
2）能不能对超长的文本进行切割，然后分别检索取最大值作为最终得分
最后，本模型只针对英文，无法处理中文

infgrad changed discussion status to closed about 21 hours ago

about 17 hours ago

多谢回复。我用的是dunzhang/stella-mrl-large-zh-v3.5-1792d ，文档太长做了切分处理后效果不好感觉没有上下文了，因为每个文档都是一个完整的技术方案。想把模型输入调大一些模型调优一下有啥建议吗？

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment

需要比对的文本比较大，往往超过5000字中文，有什么好办法。试了拆分向量化 再组合，效果不好。