Catton IT 分享: 文章太長是不是對於 vector search 的準確度下降

2023年11月10日星期五

最近在試 Mongodb Atlas vector search，發現爬回來的文章轉成 embedded vector 後查詢的準確度一直很差，在網路找了文章又學到了一些東西，知道要開始找 chunk的 lib去分割文章再去轉換成 vector

針對這個問題，直接問 ChatGPT，他的回答如下

文章太長對於向量檢索的準確度可能會產生一些影響，具體的影響取決於所使用的模型、文本的內容以及檢索的任務。以下是一些可能的影響：

文本表示的稀疏性：在向量空間模型中，每個文本都被表示為一個向量，並且這些向量可能是高維且稀疏的。對於非常長的文本，這可能導致向量表示的稀疏性增加，這可能使相似性度量變得不夠精確。
上下文信息的損失：長文本可能包含多個主題或上下文，如果將整個文本視為一個單一的向量，則可能損失了某些局部的相似性結構。這可能導致在相似性搜索中錯過一些細節。
計算效能：對於非常長的文本，計算相似性可能需要更多的計算資源，這可能會影響向量檢索的效能。為了提高效能，一些系統可能會選擇對文本進行截斷或分割。

為了處理這些問題，有時可以使用一些策略：

總的來說，如何處理長文本取決於具體的應用需求和計算資源的可用性。在某些情況下，可能需要進行實驗來評估不同方法對於特定應用的效果。

在C#中，進行文本分塊（chunking）可以使用不同的工具和庫。以下是一些可能的選擇：

Stanford.NLP:
- 描述： Stanford.NLP 是斯坦福大學自然語言處理小組的一個項目，它提供了一個強大的自然語言處理庫。這個庫包括分詞、句法分析等功能，可以用於文本分塊。
- GitHub 鏈接： Stanford.NLP
NLTK（Natural Language Toolkit） for .NET:
- 描述： NLTK 是一個Python的自然語言處理庫，而NLTK for .NET是NLTK的C#版本。它包括一些分詞和句法分析的功能，可以用於文本分塊。
- GitHub 鏈接： NLTK for .NET
OpenNLP:
- 描述： Apache OpenNLP 是一個開源的自然語言處理庫，提供分詞、句法分析等功能。你可以使用 OpenNLP 來實現文本分塊。
- GitHub 鏈接： Apache OpenNLP
jiebaNET:
- 描述： jiebaNET 是jieba中文分詞的.NET版本，它可以用於中文文本的斷詞和分塊。
- GitHub 鏈接： jiebaNET
SnowNLP:
- 描述： SnowNLP 是用於中文自然語言處理的庫，它包括一些文本處理的功能，可以用於中文文本的分塊。
- GitHub 鏈接： SnowNLP

Catton IT 分享