2026年2月9日 星期一

RAG 長文搜尋

依目前的理解,一般的 RAG會先預設一個字的長度作文章切片,切片需要作 overlap 後再呼叫 embedding api 取得 vector。

 

有另一種作法類似叫 Late Chunking技術,支持長上下文的 Embedding。此技術的關鍵在於先將整篇文章輸入/上傳給模型獲取全局語義,再根據指定分段進行池化(Pooling),確保每個分塊(Chunk)都帶有上下文資訊。

一樣還是要先把文章切段變成一個文字陣列,陣列文字總合 token不能超過 api要求的長度,比如 Jina的是 8000 tokens,把文字陣列上傳至 api 後回傳 vector 組合 (陣列) ,可以再用 vector 找出對應的文字後再把問題和文字傳給 ranker api ,它會幫你找到最適合的解答。 

  

目前找到的兩種方案如下

Jina Embedding API + Reranker API 

Voyage AI DOC 


 

沒有留言:

張貼留言