php 去除常見中文停用詞(過濾敏感詞)

Posted codenong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了php 去除常見中文停用詞(過濾敏感詞)相关的知识,希望对你有一定的参考价值。

在用sphinx通過文章標題匹配相關文章時,去除停用詞後調出的文章相關性更好。

<?php
header("Content-type:text/html;charset=utf-8"); 
$str = file_get_contents(‘stop.txt‘);//將常見中文停用詞表內容讀入到一個字串中
$badword = explode("
", $str);//轉換成陣列//print_r($arr);
$badword1 =array_combine($badword,array_fill(0,count($badword),‘*‘)); //過濾敏感詞時替換成*
$bb = ‘確定安裝的PowerShell版本https://www.itread01.com/‘;
$str = strtr($bb,$badword1);
echo $str;
?>

 

来源:https://www.itread01.com/content/1543829108.html

以上是关于php 去除常見中文停用詞(過濾敏感詞)的主要内容,如果未能解决你的问题,请参考以下文章

-習題(1-11)待續

”骇客“不可缺少的电脑软件

佐倉紗織 - true my heart

佐倉紗織 - true my heart

使用 Spacy、Bert 时是不是需要对文本分类进行停用词去除、词干/词形还原?

python jieba分词如何去除停用词