12.07.2015 Views

Set-Based Model: A New Approach for Information Retrieval

Set-Based Model: A New Approach for Information Retrieval

Set-Based Model: A New Approach for Information Retrieval

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Introduction• 在 IR 領 域 ,vector space model is popuar, 這 個 model 的 成功 , 大 部 分 因 為 是 Salton 與 他 的 同 事 們 長 期 努 力 的 結 果 .• VSM 中 ,document 與 query 都 由 weighted vectors 來 表 示 ,相 似 度 的 算 法 (ranking) is based on 給 予 document 與query 中 之 index terms 的 weight.• Term weight 的 算 法 有 很 多 種 , 目 前 仍 是 個 課 題 , 目 前 所知 求 weight 最 佳 的 算 法 , 是 tf X idf scheme• tf X idf 考 慮 兩 方 面 因 素 來 計 算 index term 的 weight:(1)index term 在 文 件 出 現 次 數 (2) 整 個 collection 中 出 現此 index term 的 文 件 數


SBM 核 心 精 神 – Closed Termsets3.S = { s , s2.....s21 t}S is the vocabulary-set of a collection of D=> 每 個 document 可 能 包 含 好 幾 個 s i, 因 為 字 會 重 覆 算4. ls i: <strong>for</strong> each termset s i, 1 ≤ i ≤ 2 t , we associate andinverted list, 存 哪 些 document 出 現 過 此 termsetds i: frequency of a termset s ias the number ofoccurrences of s iin D (dsi= )A termset s iis a frequent termset if its frquency ds iisgreater than or equal to a given thresholdlsi


SBM 核 心 精 神 – Closed Termsets5. A closed termset cs iis a frequent termset that is thelargest termset among the termsets that are subsets of cs iand occur in the same set of documents.6. A maximal termset ms iis a frequent termset that is not asubset of any other frequent termset.已 經 有 人 證 明 , the set of maximal termsets associatedwith a codument collection are the minimum amount ofin<strong>for</strong>mation necessary to derive all frequent termsetsassociated with a colletion


範 例T={a,b,c,d,e}threshold=50%


演 算 法 流 程 –determine closed termsets1.1-termsets is above a given threshold?若 是 , 將 此 termset 設 為 closed, 並 進 入 22.A new n+1-termset s newis determined by si ∪ s j (s i, s jboth n-termset, have the same first n-1 terms) 而 產 生lnew= li∩lj3. 檢 查 s new是 否 frequent(Apriori algorithm)原 則 : n-termset may be frequent only if all of its n−1-termsets are also frequent4. 若 s new=frequent, 檢 查 是 否 最 大 , 是 則 將 較 小 的 取 消closed 並 將 s new設 為 closed, 否 則 s newis discared


實 驗 結 果三 種 collection 的 main features


<strong>Retrieval</strong> Per<strong>for</strong>mance- CVC collection


<strong>Retrieval</strong> Per<strong>for</strong>mance-WSJ colletion


<strong>Retrieval</strong> Per<strong>for</strong>mance-TREC-3 collection


Overall average precision


Average precision of top 10 documents


Average number of closed termsets andthe average list sizes while using SBM


Response time


Conclusions and future work• SBM improve retrieval effectiveness• The computation of frequent termsets enumerated by analgorithm to generate association rules lead to a directextension of the vector space model• For future work we will extend SBM to account <strong>for</strong> theproximity in<strong>for</strong>mation about query terms in documents

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!