机器学习实战错误校正

Posted zhhy236400

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习实战错误校正相关的知识,希望对你有一定的参考价值。

机器学习实战书中代码用python2实现,当使用python3时会出现一些错误,这些错误由语法不同或者代码不够完善引起,学习过程中修改如下,方便大家学习。

1、page40,majorityCnt中的iteritems()

(1)在Python2.x中,iteritems() 用于返回本身字典列表操作后的迭代器【Returns an iterator on all items(key/value pairs) 】,不占用额外的内存。
(2)在Python 3.x 里面,iteritems()方法已经废除了。在3.x里用 items()替换iteritems() ,可以用于 for 来循环遍历。
[https://blog.csdn.net/program_developer/article/details/78657908]

[https://blog.csdn.net/liukai2918/article/details/78307271]

 

2、page41,创建树的函数代码

def createTree(dataset,featureList): 

 参数featureList传进来后应该首先进行深拷贝出另一个list用来操作,按照书中的代码,featureList会被删除第一个特征,因为传递的是引用型,所以函数外部的featureList也会改变而且难以察觉,此处改为:

def createTree(dataset,featureList):    #数据集,特征列表,产生决策树,返回值是字典
    featureListCopy=featureList[:]

 函数内的featureList均改为featureListCopy。

 

3、page65,切分文本

regEx=re.compile(‘\W*‘)

 w表示数字字母下划线

W表示非数字非字母非下划线,即对w取反

*表示匹配0次、1次或者多次

运行后抛出警告:

FutureWarning: split() requires a non-empty pattern match.

原因:用W*匹配文本时表示非数字字母下划线任意次,也就是说0次也符合匹配要求,0次就是nothing

Your regular expression (‘\W*‘) is invalid - it means zero or more not word characters. Zero or more can be matched by "nothing", and if empty string is a match, where exactly do you expect splits will occur?

[https://stackoverflow.com/questions/37642284/futurewarning-split-requires-a-non-empty-pattern-match]

解决办法:把*改成+即可。

 

4、page66,range()

python3中的range()返回的是range类型,不是list类型,此处需要修改:

将:

trainingSet=rang(50)

改为:
trainingSet=list(range(50))

5、用于分类的邮件中ham文件夹下第23.txt文件的第二段中有个“?”会带来编码问题,删除即可。




以上是关于机器学习实战错误校正的主要内容,如果未能解决你的问题,请参考以下文章

《机器学习实战》第7章的一处代码错误

OCR文字识别软件拆分对页和校正文本方向的教程

机器学习—朴素贝叶斯

python 机器学习有用的代码片段

机器学习实战笔记(Python实现)-06-AdaBoost

机器学习实战笔记(Python实现)-03-朴素贝叶斯