下载txt小说章节分割器后怎么使用啊

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了下载txt小说章节分割器后怎么使用啊相关的知识,希望对你有一定的参考价值。

我要下载到mp3里的 最好解释详细一点,谢谢~~

参考技术A 不知道你用的是哪个分割器。
试试Replace
Pioneer,操作简单,而且可以按章/节/回,等等任意自定义的文字进行分割。
如果需要,也可以按行数和字数进行分割。
具体步骤:
1.
ctrl-o打开待分割的txt文件
2.
选择File->Save
As->Split
by
Paragraph菜单:
*
输出格式设置
在Split
Naming输入$BASE.###.$EXT
*
怎样分段
把Para
Start选项选成Other,并在右边输入"^\s*第.*?[章节回]"(不带双引号)
*
写入文件
点击Next,并输入结果文件名比如A.TXT,那么结果文件就被写成A.001.TXT,
A.002.TXT,
...
========================
更多用法:
1.
要想加入其他类型比如"篇",只要把"篇"加入上面Para
Start的方括号,变成"^\s*第.*?[章节回篇]"(不带双引号)
2.
如果每章的格式是1.xxx
2.xxx
...,只要把Para
Start变成"^\s*\d+\."(不带双引号)
3.
如果每章的格式是
一、xxx
二、xxx
...,只要把Para
Start变成"^\s*[一二三四五六七八九零〇百千]+、"(不带双引号)
4.
要想按行数/字数分段,就用File->Save
As->Split
by
bytes/lines菜单。

爬虫使用urllib.request去爬取小说

import urllib.request
import re
#1获取主页源代码
#2获取章节超链接
#3获取章节内容
#4下载小说

#驼峰命名法
#注释 获取小说内容
def getNovelContent():
    #获取源代码 HTTP Response对象
    html = urllib.request.urlopen(http://www.quanshuwang.com/book/0/269/)
    html = html.read()
    #print(html)
    #设置编码
    html = html.decode(gbk)
    #获取超链接
    #<li><a href="http://www.quanshuwang.com/book/0/269/78850.html" title="第一章 山边小村,共2741字">第一章 山边小村</a></li>
    #正则表达式 通配符  .*? 匹配所有  (.*?)括号里面是需要的内容  分组匹配
    reg = r<li><a href="(.*?)" title=".*?">(.*?)</a></li>
    #目的是增加效率的,可以不写,但写更好
    reg = re.compile(reg)
    urls = re.findall(reg,html)
    #print(urls)

    for i in urls:
        #print(i[0])
        novel_url = i[0]
        novel_title = i[1]
        chapt = urllib.request.urlopen(novel_url).read()
        chapt_html = chapt.decode(gbk)
        # | ||d r‘ |d‘ 
        reg = </script>&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<script type="text/javascript">
        # S 多行匹配
        reg = re.compile(reg,re.S)
        chapt_content = re.findall(reg,chapt_html)
        #print(chapt_content[0])
        #把没用的替换掉,注意类型进行一次替换之后是列表,br是换行,nbsp是空格
        chapt_content = chapt_content[0].replace(<br />,"")
        #print(type(chapt_content))
        chapt_content = chapt_content.replace(&nbsp;&nbsp;&nbsp;&nbsp;,"")
        #从列表变成字符串了,下面不用加索引
        #print(chapt_content)

        #下载,可以加个提示
        print("正在保存%s"%novel_title)
        # w 读写模式  wb 二进制读写模式,一般用来读写照片和视频  没加具体路径则在py路径下自动新增,也可以保存为doc格式等
        f = open({}.txt.format(novel_title),w)
        f.write(chapt_content)
        f.close


getNovelContent()

没有注释简约版代码:

import urllib.request
import re

def getNovelContent():

    html = urllib.request.urlopen(http://www.quanshuwang.com/book/0/269/)
    html = html.read()
    html = html.decode(gbk)
    reg = r<li><a href="(.*?)" title=".*?">(.*?)</a></li>
    reg = re.compile(reg)
    urls = re.findall(reg,html)

    for i in urls:
        novel_url = i[0]
        novel_title = i[1]
        chapt = urllib.request.urlopen(novel_url).read()
        chapt_html = chapt.decode(gbk)
        reg = </script>&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<script type="text/javascript">
        reg = re.compile(reg,re.S)
        chapt_content = re.findall(reg,chapt_html)
        chapt_content = chapt_content[0].replace(<br />,"")
        chapt_content = chapt_content.replace(&nbsp;&nbsp;&nbsp;&nbsp;,"")

        print("正在保存%s"%novel_title)
        f = open({}.txt.format(novel_title),w)
        f.write(chapt_content)
        f.close

getNovelContent()

 

以上是关于下载txt小说章节分割器后怎么使用啊的主要内容,如果未能解决你的问题,请参考以下文章

追书大师一直获取章节失败怎么办

word怎么批量将小说章节的全部标题(如第一章 开始,第二章 经过,第三章 结束)设为目录标题?

iOS - 小说阅读器分章节,支持正则分章节和按字数分章节

追书神器在哪里购买章节

节的顺序

《恐怖童谣》小说全文精彩章节在线阅读(小阳)