黄色av免费观看_少妇久久久_久久黄色_伊人久久国产_日韩午夜激情_一本一道久久a久久精品综合

您當前的位置主頁 > SEO優化 > 瀏覽文章

Python無監督抽詞

來源:SEO優化 2012-10-13

快速提升網站銷量,使用365webcall網站客服系統

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關聯的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學習,如何利用統計模型進行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續出現的概率并不是各自獨立的程度。例如“上”出現的概率是1×10^-5,”床”出現的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現的概率應該和1×10^-15接近,但是事實上”上床”出現的概率在1×10^-11次方,遠高于各自獨立概率之積。所以我們可以認為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現的demo(轉自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

主站蜘蛛池模板: 成人国产精品一区 | 欧美成人精品一区二区三区 | 欧美一区二区三区免费观看 | 成人男女激情免费视频 | 国产色爱综合网 | 国产一级免费av | a级高清免费毛片av在线 | 国产精品剧情一区二区在线观看 | 精品国产一区在线观看 | 日本一区二区在线看 | 久久久一区二区三区四区 | 美女视频大全网站免费 | 神马福利网| 午夜精品久久久久久久久久久久久蜜桃 | 成人毛片视频免费看 | 一区二区三区在线观看国产 | 欧美一级在线免费 | 高清国产福利 | 自拍偷拍亚洲图片 | 久久青草影院 | 久久99免费观看 | 成人免费观看av | 中文字幕亚洲一区二区三区 | 国产91丝袜在线播放 | 中文字幕在线观看网址 | 精品国产一区二 | 中文字幕一区二区三区久久 | 精品无吗乱吗av国产爱色 | 欧美一级特黄aaaaaaa什 | 成人免费一区 | 久久毛片 | www69xxxxx| 黄色毛片18 | 久久91亚洲精品久久91综合 | 成码无人av片在线观看网站 | 99精品视频久久精品视频 | 女人解衣喂奶电影 | 日韩黄色一级视频 | 欧美一区二区黄色片 | 免费黄色av| 黄色一级片在线观看 |