cod*_*ord 7
我假设最小标记长度为 50k 意味着您正在尝试总结像小说一样大的东西。不幸的是,我们还没有一个可以同时处理这么多数据的模型。这主要是因为此类模型的内存占用非常高,无法在生产中使用。但是pegasus (google)、Longformer、Reformer都是总结长文档的可行选择。仍在继续研究创建可以在不消耗大量资源的情况下处理更大序列的模型。例如,reformer 本身经过高度优化,可以处理大量令牌huggingface.co/blog/reformer. 到目前为止,最佳实践是“分而治之”的方法。即,将您的数据分块,保持最大长度作为参考。您甚至可以在迭代中执行此操作,直到达到指定的摘要长度。您还可以探索不同的摘要方法,例如提取和抽象摘要,并利用您的创造力将这些技术组合起来,例如提取摘要和抽象摘要。
更多推荐
文档,摘要,Huggingface
发布评论