python?fuzzywuzzy模塊，模糊字符串匹配詳細(xì)用法

更新時(shí)間:2018-08-09 來源:黑馬程序員瀏覽量:

計(jì)算兩個(gè)字符串相(或句子)似度的方法有大約有三種：1 編輯距離，2 余弦相似度，3 FuzzyWuzzy
本文章主要給大家講解 FuzzyWuzzy 庫的使用：
1）----》》
導(dǎo)入庫
>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process

運(yùn)行代碼
>>> fuzz.ratio("this is a test", "this is a test!")out   97>>> fuzz.partial_ratio("this is a test", "this is a test!")out   100

fuzz.ratio()對(duì)位置敏感，全匹配，fuzz.partial_ratio()對(duì)位置不敏感，搜索匹配，從輸出的結(jié)果就可以看到。
2）----》》
>>> fuzz._process_and_sort(s, force_ascii, full_process=True)

對(duì)字符串s排序。force_ascii:True 或者False。為True表示轉(zhuǎn)換為ascii碼。如果full_process為True，則會(huì)將字符串s轉(zhuǎn)換為小寫，去掉除字母和數(shù)字之外的字符（發(fā)現(xiàn)不能去掉-字符），剩下的字符串以空格分開，然后排序。如果為False，則直接對(duì)字符串s排序。

>>> fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

給出字符串 s1, s2的相似度。首先經(jīng)過 fuzz._process_and_sort（）函數(shù)處理。partial為True時(shí)，再經(jīng)過fuzz.partial_ratio（）函數(shù)。partial為False時(shí)，再經(jīng)過fuzz.ratio（）函數(shù)。

>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")out   100

partial為False的_token_sort()
fuzz.partial_token_sort_ratio(s1, s2, force_ascii=True, full_process=True)
就是partial為True時(shí)的Fuzz._token_sort（）

3）
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")out   100

fuzz._token_set(s1, s2, partial=True, force_ascii=True, full_process=True)

當(dāng)partial為False時(shí)，就是 fuzz.token_set_ratio（）函數(shù)。

fuzz.partial_token_set_ratio(s1, s2, force_ascii=True, full_process=True)

partial為True的fuzz._token_set（）函數(shù)。

總結(jié)：如果計(jì)算相似度的字符串只有字母和數(shù)字，直接可以用ratio（）和partial_ratio()。但如果還有其他字符，而且我們想要去掉這些沒用字符，就用下邊的。下邊的函數(shù)都對(duì)順序不敏感，但token_sort_ratio（）系列是全字符匹配，不管順序。而token_set_ratio（）只要第二個(gè)字符串包含第一個(gè)字符串就100,不管順序。

>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]>>> process.extract("new york jets", choices, limit=2) [('New York Jets', 100), ('New York Giants', 78)]>>> process.extractOne("cowboys", choices) ("Dallas Cowboys", 90)

query是字符串，choices是數(shù)組，元素是字符串。 processor是對(duì)輸入比較的字符串的處理函數(shù)，默認(rèn)是fuzzywuzzy.utils.full_process()，即將字符串變?yōu)樾懀?去掉除字母和數(shù)字之外的字符（發(fā)現(xiàn)不能去掉-字符），剩下的字符串以空格分開。scorer計(jì)算兩個(gè)字符串相似度的函數(shù)，默認(rèn)fuzz.WRatio()。 limit是輸出個(gè)數(shù)。

輸出為數(shù)組，元素為元組，元祖第一個(gè)匹配到的字符串，第二個(gè)為int型，為score。對(duì)輸出按照score排序。

score_cutoff為一個(gè)閾值，當(dāng)score小于該閾值時(shí)，不會(huì)輸出。返回一個(gè)生成器，輸出每個(gè)大于 score_cutoff的匹配，按順序輸出，不排序。

>>> process.extractBests(query, choices, processor=default_processor, scorer=default_scorer, score_cutoff=0, limit=5)

作者：黑馬程序員人工智能+python培訓(xùn)學(xué)院
首發(fā)：http://python.itheima.com/

上一篇：python中str函數(shù)isdigit、isdecimal、isnumeric的區(qū)別 下一篇：django文件上傳

全國(guó)中心

熱門課程

python?fuzzywuzzy模塊，模糊字符串匹配詳細(xì)用法

最新資訊

相關(guān)閱讀

熱門課程推薦