Catton IT 分享: RAG 長文搜尋

2026年2月9日星期一

RAG 長文搜尋

依目前的理解，一般的 RAG會先預設一個字的長度作文章切片，切片需要作 overlap 後再呼叫 embedding api 取得 vector。

有另一種作法類似叫 Late Chunking技術，支持長上下文的 Embedding。此技術的關鍵在於先將整篇文章輸入/上傳給模型獲取全局語義，再根據指定分段進行池化（Pooling），確保每個分塊（Chunk）都帶有上下文資訊。

一樣還是要先把文章切段變成一個文字陣列，陣列文字總合 token不能超過 api要求的長度，比如 Jina的是 8000 tokens，把文字陣列上傳至 api 後回傳 vector 組合 (陣列) ，可以再用 vector 找出對應的文字後再把問題和文字傳給 ranker api ，它會幫你找到最適合的解答。

目前找到的兩種方案如下

Jina Embedding API + Reranker API

Voyage AI DOC