mirror of
https://gitee.com/lionsoul/friso.git
synced 2024-11-29 17:57:38 +08:00
4.0 KiB
4.0 KiB
friso-1.6:
- 中文数字识别.
- 中文数字转阿拉伯数字.
- 词性标注.
- friso_stirng.c#utf8_decimal_string初始化bytes = 0, 去除WinNT的Run-Time Check Failed. -done
- 复杂英文和数字组合的二次切分. 例如: QQ2013会被切分成: qq2013, qq, 2013 -done
- GBK编码支持.
friso-1.5:
- 加入sphinx定制输出, 同义词使用"|"串接, 例如: 研究|琢磨|研讨|钻研 生命 -done
- 修正了全部的tst-xxx源文件. friso API更改后测试样本文件没更改. -done #3. 中文数字/中文数字+单字单位识别 #4. 中文姓名识别. #5. 中文词性标注 #6. 词库更新自动加载. #7. 配对标点内容提取.
- 修复friso.c#next_basic_latin中"数字+空格+单位"组合中忽略空格直接组合数字和单位的bug -done
- 修复friso.c#next_basic_latin中"数字+中文+空格"组合切分乱码的bug -done
- 引入friso_config_t多配置使用避免全局配置带来的更改不便. -done
friso-1.4:
- 小数+单位无法识别的情况.更改friso_string#utf8_numeric_string()函数.
- 更改中英混合词的识别(目前可以识别中英任何一种组合). 英中: 例如: b超, 英中英: a美1, 英中英中: a哆啦a梦, 中英: 卡拉ok, 中英中: 哆啦a梦, 中英中英: 中文a美a
- 更改了单位组合, 现在可以组合的单位不局限是中文, 例如: ℃,℉
- 对于未识别的字符, 给定一个开关选项来决定保留还是过滤.
- 英文同义词的追加(增加了lex-en.lex词库)
friso-1.3:
- 除去和c++,vs的冲突(string和__value)
- 部分简易函数使用了宏定义来代替, 减少函数的调用.
- 保留了英文全半角和中文标点符号的切分.(可以通过过滤停止词来过滤不需要的标点) 停止词词库中已经加入了全部的保留的标点, 也就是默认全部过滤了.
- 修复friso_string#utf8_en_punctuation()函数一处bug.
- 修复切分结果偏移量bug.(以这个词的开始索引作为offset)
- 修复friso_lexicon#friso_dic_load一处bug.
- 新增了对c++,c#类词条的识别.(新增lex-en-pun.lex词库)
- 新增了中英混合词的识别, 例如: 卡拉ok(新增lex-cemix.lex词库)
- 更改了Makefile, 优化了clean目标并且兼容64bit系统的编译.
- 更改了词库, 加入了些许新词并且去掉了一些无用词.
- 加入了friso开发帮助文档.pdf
friso-1.2:
- 修复了一处在WinNT系统中会导致英文的切分结果无法获取bug. 之前忘记在WinNT系统中测试了.
- 提供了linux和WinNT共享库文件, 尤其是WinNT系统的, 方便直接对friso接口进行调用.
- 提供了cygwin的Makefile - Makefile.cygwin, 在WinNT系统下请使用该Makefile来编译friso
- 重新整合了jcseg的词库, 加入了些许新词.
- 加入了CHANGES文档,在README文档中加入了测试配置说明.
friso-1.1: 加入如下两个功能:
- 修复了一个可能会导致内存泄漏的bug. 更改了接口API, 解决需要调用程序需要自动释放内存的问题, 在friso_next内自动处理了, 详细可查看官方文档.
- 加上了同义词切分功能, 实现同义词匹配. (需要在friso.ini中配置friso.add_syn=1)
- 加入了停止词过滤功能, 新加入了lex-stopwords.lex词库, 专门存放停止词词库.
- 对friso内部代码进行了优化, 加载全部词库只需13.xM内存, 而且切分速度也提高了. 简易模式可达: 3.8M/sec, 复杂模式也接近了2.0M/sec.
friso-1.0 1。目前最高版本:friso 1.0,只支持UTF-8编码。 2。mmseg四种过滤算法,分词准确率达到了98.41%。 3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。 4。词库使用了friso的Java版本jcseg的简化词库。 5。支持中英混合词的识别。例如:c语言,IC卡。 7。很好的英文支持,电子邮件,网址,小数,分数,百分数。 8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。 9。自动英文圆角/半角,大写/小写转换。