MongoDB Atlas 解鎖 GenAI 應用服務 研討會 投影片 影片
我在會議上有問三個問題
1.如果是用在 Q & A,是 Q轉成 vector or A轉成 vector或是兩者
2.在網路上爬到的文章如果轉成 vector ,是否有前置作業可以讓 vector search的精準度提高
3.中文文章是否要先分詞
第一題研討會顧問有回覆 Q & A都要轉成 vector
第二題沒有得到回覆,我在網路上找到的文章,有提到文章太長會影響 search的精準度,一個方式是作分段,但怎麼分段我需要再找解決方式,或是文章自己要作重點整理 (可以交給 AI)後再轉成 vector
第三題顧問只說分詞需要額外的工具,但中文文章是否要先分詞可以提高 vector search的精準度沒有更進一步的說明,以我小小的經驗,是取決你使用那個 LLM 轉成 vector,我目前用 HuggingFace的 API,我測試的結果是分詞的效果比較好,中文我會建議使用 paraphrase-multilingual-mpnet-base-v2
沒有留言:
張貼留言