Home 綜合 “詞袋模型”是什麼意思

“詞袋模型”是什麼意思

0

  bag?of?words?model指的是“詞袋”,值在檢索資訊中,詞袋假如說對於一個文字,忽略它的詞序和語法、句法,並且將其僅僅看作是一個詞的集合,或者說是詞的一個組合,文字中的每個詞的出現都是獨立的,不依賴其他詞是否出現,或是說當一篇文章的作者在任意一個地方選取一個詞彙都不會受到前面句子的影響,因為她是獨立的。

  這個詞語最早出現在神經語言程式學(nlp)和資訊檢索(ir)領域,然後引申到文章中。

  bag of words,也叫做“詞袋”,在資訊檢索中,bag of words model假定對於一個文字,忽略其詞序和語法,句法,將其僅僅看做是一個詞集合,或者說是詞的一個組合,文字中每個詞的出現都是獨立的,不依賴於其他詞是否出現,或者說當這篇文章的作者在任意一個位置選擇一個詞彙都不受前面句子的影響而獨立選擇的。

  這種假設雖然對自然語言進行了簡化,便於模型化,但是其假定在有些情況下是不合理的。

  例如:①在新聞個性化推薦中,採用bag of words的模型就會出現問題。

  例如:②使用者甲對“南京醉酒駕車事故”這個短語很感興趣,採用bag of words忽略了順序和句法,則認為使用者甲對“南京”、“醉酒”、“駕車”和“事故”感興趣,因此可能推薦出和“南京”,“公交車”,“事故”相關的新聞,這顯然是不合理的。