Jcseg(Java中文分詞器)是一款輕量級Java中文分詞器,基于mmseg算法,可以幫助用戶提取關鍵詞、關鍵句、文章等內容,同時還有WEB服務,可以方便用戶調用,以此更好的完成提取功能。軟件內同樣提供了最新版本的lucene,solr和elasticsearch的搜索分詞接口,幫助使用者高效的完成中文分詞。
軟件功能
Jcseg核心功能:
中文分詞:mmseg算法 + Jcseg 獨創的優化算法,七種切分模式。
關鍵字提取:基于textRank算法。
關鍵短語提取:基于textRank算法。
關鍵句子提取:基于textRank算法。
文章自動摘要:基于BM25+textRank算法。
自動詞性標注:基于詞庫+(統計歧義去除計劃),目前效果不是很理想,對詞性標注結果要求較高的應用不建議使用。
命名實體標注:基于詞庫+(統計歧義去除計劃),電子郵件,網址,大陸手機號碼,地名,人名,貨幣,datetime時間,長度,面積,距離單位等。
Restful api:嵌入jetty提供了一個絕對高性能的server模塊,包含全部功能的http接口,標準化json輸出格式,方便各種語言客戶端直接調用。
Jcseg中文分詞:
七種切分模式:
簡易模式:FMM算法,適合速度要求場合。
復雜模式:MMSEG四種過濾算法,具有較高的歧義去除,分詞準確率達到了98.41%。
檢測模式:只返回詞庫中已有的詞條,很適合某些應用場合。
最多模式:細粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數字識別等智能功能)其他與復雜模式一致(英文,組合詞等)。
分隔符模式:按照給定的字符切分詞條,默認是空格,特定場合的應用。
NLP模式:繼承自復雜模式,更改了數字,單位等詞條的組合方式,增加電子郵件,大陸手機號碼,網址,人名,地名,貨幣等以及無限種自定義實體的識別與返回。
n-gram模式:CJK和拉丁系字符的通用n-gram切分實現。
分詞功能特性:
支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內容,并且對詞庫進行了分類。
支持詞庫多目錄加載. 配置lexicon.path中使用';'隔開多個詞庫目錄.
詞庫分為簡體/繁體/簡繁體混合詞庫: 可以專門適用于簡體切分, 繁體切分, 簡繁體混合切分, 并且可以利用下面提到的同義詞實現,簡繁體的相互檢索, Jcseg同時提供了詞庫兩個簡單的詞庫管理工具來進行簡繁體的轉換和詞庫的合并。
中英文同義詞追加/同義詞匹配 + 中文詞條拼音追加.詞庫整合了《現代漢語詞典》和cc-cedict辭典中的詞條,并且依據cc-cedict詞典為詞條標上了拼音,依據《中華同義詞詞典》為詞條標上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時候加入拼音和同義詞到分詞結果中。
中文數字和中文分數識別,例如:"一百五十個人都來了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg會自動將其轉換為阿拉伯數字加入到分詞結果中。如:150, 1/40。
支持中英混合詞和英中混合詞的識別(維護詞庫可以識別任何一種組合)。例如:B超, x射線, 卡拉ok, 奇都KTV, 哆啦a夢。
支持英文的類中文切分,同樣使用mmseg算法來消除歧義,例如:“openarkcompiler”會被切分成:“open ark compiler”,該功能也可以被關閉。
更好的拉丁支持,電子郵件,域名,小數,分數,百分數,字母和標點組合詞(例如C++, c#)的識別。
自定義切分保留標點. 例如: 保留&, 就可以識別k&r這種復雜詞條。
復雜英文切分結果的二次切分: 可以保留原組合,同時可以避免復雜切分帶來的檢索命中率下降的情況,例如QQ2013會被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com會被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
支持阿拉伯數字/小數/中文數字基本單字單位的識別,例如2012年,1.75米,38.6℃,五折,并且 Jcseg會將其轉換為“5折”加入分詞結果中。
智能圓角半角, 英文大小寫轉換。
特殊字母識別:例如:Ⅰ,Ⅱ;特殊數字識別:例如:①,⑩。
配對標點內容提取:例如:最好的Java書《java編程思想》,‘暢想杯黑客技術大賽’,被《,‘,“,『標點標記的內容。(1.6.8版開始支持)。
智能中文人名/外文翻譯人名識別。中文人名識別正確率達94%以上。(中文人名可以維護lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex來提高準確率),(引入規則和詞性后會達到98%以上的識別正確率)。
自動中英文停止詞過濾功能(需要在jcseg.properties中開啟該選項,lex-stopwords.lex為停止詞詞庫)。
詞庫更新自動加載功能, 開啟一個守護線程定時的檢測詞庫的更新并且加載(注意需要有對應詞庫目錄下的的lex-autoload.todo文件的寫入權限)。
自動詞性標注(目前基于詞庫)。
自動實體的識別,默認支持:電子郵件,網址,大陸手機號碼,地名,人名,貨幣等;詞庫中可以自定義各種實體并且再切分中返回。
標簽: 源碼相關
精品推薦
-
Microsoft .Net Framework4.7.2中文版
詳情 -
.Net3.5
詳情 -
.Net3.5 64位win10離線安裝包
詳情 -
MarkdownPad2
詳情 -
.Net Framework 4.0 32位離線安裝包
詳情 -
RPGVXACE RTP
詳情 -
Cmder(windows命令行工具)
詳情 -
jetbrains全系列激活工具
詳情 -
scratch免激活離線版
詳情 -
Microsoft .NET Runtime6.0
詳情 -
鯨魚積木編程專業版
詳情 -
Lodop云打印機插件
詳情 -
Qt Linguist(QT語言家)
詳情 -
Microsoft .Net Framework 4.0完整版
詳情 -
Jar to Exe
詳情 -
DevExpress 2020
詳情
裝機必備軟件
網友評論