Java过滤敏感词语/词汇---DFA算法

Posted 2020-08-19 冯如

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Java过滤敏感词语/词汇---DFA算法相关的知识，希望对你有一定的参考价值。

最近网站需要在评论、投稿等地方过滤敏感词汇，于是在网上查找了相关教程，特此整理分享。

关于DFA算法，详细的可以去http://blog.csdn.net/u013378306/article/details/52764955 看看。

在这纪录下如何配合js验证控件validate来使用它：

首先把工具类导入到项目中：

package com.test.util;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;

import org.springframework.stereotype.Component;

/**
 * Utils - 敏感词
 * 
 * @author test
 * @version 3.0
 */
@Component
public class DirtyStringUtil {
    
    private static String ENCODING = "UTF-8";    //字符编码
    
    private static String PATH = "/resources/shop/dirtyString/DirtyString.txt";    //你的敏感词汇的文件  我会给大家分享一个我们用的
    
    public static int minMatchTYpe = 1;      //最小匹配规则
    
    public static int maxMatchType = 2;      //最大匹配规则

    @SuppressWarnings("rawtypes")
    public static HashMap sensitiveWordMap;
    
    static {
        try {
            sensitiveWordMap = addSensitiveWordToHashMap(StringUtils.sourFolder+PATH);
        } catch (Exception e) {
        }
    }
    
    /**
     * 读取敏感词库，将敏感词放入HashSet中，构建一个DFA算法模型：<br>
     * 中 = {
     *      isEnd = 0
     *      国 = {<br>
     *           isEnd = 1
     *           人 = {isEnd = 0
     *                民 = {isEnd = 1}
     *                }
     *           男  = {
     *                  isEnd = 0
     *                   人 = {
     *                        isEnd = 1
     *                       }
     *               }
     *           }
     *      }
     *  五 = {
     *      isEnd = 0
     *      星 = {
     *          isEnd = 0
     *          红 = {
     *              isEnd = 0
     *              旗 = {
     *                   isEnd = 1
     *                  }
     *              }
     *          }
     *      }
     * @date 2014年4月20日 下午3:04:20
     * @param keyWordSet  敏感词库
     * @version 1.0
     */
    @SuppressWarnings({ "rawtypes", "unchecked" })
    private static HashMap addSensitiveWordToHashMap(String path) {
        Set<String> keyWordSet = null;
        
        File file = new File(path);    //读取文件
        InputStreamReader read = null;
        try {
            read = new InputStreamReader(new FileInputStream(file),ENCODING);
            if(file.isFile() && file.exists()){      //文件流是否存在
                keyWordSet = new HashSet<String>();
                @SuppressWarnings("resource")
                BufferedReader bufferedReader = new BufferedReader(read);
                String txt = null;
                while((txt = bufferedReader.readLine()) != null){    //读取文件，将文件内容放入到set中
                    keyWordSet.add(txt);
                }
            }
            else{         //不存在抛出异常信息
                throw new Exception("敏感词库文件不存在");
            }
        } catch (Exception e) {
                e.printStackTrace();
        }finally{
            try { //关闭文件流
                if (read != null) {
                    read.close();
                }
            } catch (IOException e) {
                e.printStackTrace();
            }    
        }
        
        HashMap sensitiveWordMap = new HashMap(keyWordSet.size());     //初始化敏感词容器，减少扩容操作
        String key = null;  
        Map nowMap = null;
        Map<String, String> newWorMap = null;
        //迭代keyWordSet
        Iterator<String> iterator = keyWordSet.iterator();
        while(iterator.hasNext()){
            key = iterator.next();    //关键字
            nowMap = sensitiveWordMap;
            for(int i = 0 ; i < key.length() ; i++){
                char keyChar = key.charAt(i);       //转换成char型
                Object wordMap = nowMap.get(keyChar);       //获取
                
                if(wordMap != null){        //如果存在该key，直接赋值
                    nowMap = (Map) wordMap;
                }
                else{     //不存在则，则构建一个map，同时将isEnd设置为0，因为他不是最后一个
                    newWorMap = new HashMap<String,String>();
                    newWorMap.put("isEnd", "0");     //不是最后一个
                    nowMap.put(keyChar, newWorMap);
                    nowMap = newWorMap;
                }
                
                if(i == key.length() - 1){
                    nowMap.put("isEnd", "1");    //最后一个
                }
            }
        }
        return sensitiveWordMap;
    }

    
    
    /**
     * 检查文字中是否包含敏感字符，检查规则如下：<br>
     * @date 2014年4月20日 下午4:31:03
     * @param txt
     * @param beginIndex
     * @param matchType
     * @return，如果存在，则返回敏感词字符的长度，不存在返回0
     * @version 1.0
     */
    @SuppressWarnings({ "rawtypes"})
    public static int CheckSensitiveWord(String txt, Map nowMap, int beginIndex,int matchType){
        boolean  flag = false;    //敏感词结束标识位：用于敏感词只有1位的情况
        int matchFlag = 0;     //匹配标识数默认为0
        char word = 0;
        for(int i = beginIndex; i < txt.length() ; i++){
            word = txt.charAt(i);
            nowMap = (Map) nowMap.get(word);     //获取指定key
            if(nowMap != null){     //存在，则判断是否为最后一个
                matchFlag++;     //找到相应key，匹配标识+1 
                if("1".equals(nowMap.get("isEnd"))){       //如果为最后一个匹配规则,结束循环，返回匹配标识数
                    flag = true;       //结束标志位为true   
                    if(minMatchTYpe == matchType){    //最小规则，直接返回,最大规则还需继续查找
                        break;
                    }
                }
            }
            else{     //不存在，直接返回
                break;
            }
        }
        if(matchFlag < 2 || !flag){        //长度必须大于等于1，为词 
            matchFlag = 0;
        }
        return matchFlag;
    }
    
    
    /**
     * 判断文字是否包含敏感字符
     * @date 2014年4月20日 下午4:28:30
     * @param path  敏感词库文件路径
     * @param txt  文字
     * @param matchType  匹配规则&nbsp;1：最小匹配规则，2：最大匹配规则
     * @return 若包含返回true，否则返回false
     * @version 1.0
     */
    public static boolean isContaintSensitiveWord(String txt, int matchType){
        boolean flag = false;
        for(int i = 0 ; i < txt.length() ; i++){
            int matchFlag = CheckSensitiveWord(txt, sensitiveWordMap, i, matchType); //判断是否包含敏感字符
            if(matchFlag > 0){    //大于0存在，返回true
                flag = true;
            }
        }
        return flag;
    }
    
}

PATH 的路径就是你把敏感词汇那个文档放到的那个路径，这个是我们用的文档：http://pan.baidu.com/s/1o8uD2yQ

然后是验证相关的代码（content就是要验证的那个内容）:

$inputForm.validate({
                focusCleanup: true,
                rules: {
                    title:       "required",//标题不为空
                    linkName: "required", //名字不为空                    
                    linkPhone: {//验证手机
                                required: true,
                                pattern: /^((0\d{2,3}-\d{7,8})|(1[34578]\d{9}))$/,
                        },
                    content:{
                        remote: {//此处就是验证是否饱含敏感词汇的  把这个地址替换成你的controller
                            url: "${base}/dirtyString/check_dirtyString.jhtml"
                        }
                    }    
                },
                messages: {
                    content: {            
                        remote: "含敏感词汇，请修改后重新发布"
                    }
                }

remote的url处就是验证是否饱含敏感词汇的，把这个地址替换成你的controller。

然后就是我们controller的代码：

package com.test.controller.shop;

import org.apache.commons.lang.StringUtils;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.ResponseBody;

import com.nbcyl.util.DirtyStringUtil;

@Controller("dirtyStringController")
@RequestMapping("/dirtyString")
public class DirtyStringController {
    
    /**
     * 检查内容是否包含敏感词语
     */
    @RequestMapping(value = "/check_dirtyString", method = RequestMethod.GET)
    public @ResponseBody
    boolean checkDirtyString(String content) {
        if (StringUtils.isEmpty(content)) {
            return false;
        }
        //去除中英文空格 然后调用工具类判断 是否饱含 敏感词  
        String lastContent = content.replaceAll("\\s", "").replaceAll("　", "");
        if (DirtyStringUtil.isContaintSensitiveWord(lastContent, 2)) {
            return false;
        } else {
            return true;
        }
    }
}

OK，到这基本上就可以啦，当你的页面触发了validate时，就会提示那个message里设置的文字了！

以上是关于Java过滤敏感词语/词汇---DFA算法的主要内容，如果未能解决你的问题，请参考以下文章

Java基于Socket实现聊天群聊敏感词汇过滤功能