|
等 级:资深长老 |
经 验 值:14536 |
魅 力 值:9289 |
龙 币:19892 |
积 分:16426.5 |
注册日期:2003-03-19 |
|
|
|
第二条基本不会影响系统性能
第二条是停用词功能。
系统事先设置一个常用停用词词库,把诸如脏字、政治上所不允许的词等等收录其中。以后可以人工更新,更可以让系统进行自动优化。这不会影响系统性能。
不过,停用词也有负面作用,因为它只能机械地对文字做匹配,无法识别自然语言。用实际的例子说明:
孩子对老师说,“我妈妈的签字很好看。”
因为“妈的”两字几乎都会被收进停用词词库,因此,这句话显示出来就是:
“我妈**签字很好看。”
那两个被认为敏感的字,被系统自动替换成星号(*)了,这句话也快成笑话了。
当然这只是个案。
停用词功能在保护论坛、减轻管理者工作量等方面,是非常见效果的。就目前的数据量而言,第二条基本不会影响系统性能。
推荐考虑此建议。
|
|
|
|