2.4 通用的网页信息结构化信息提取的方法

Posted lvmememe

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2.4 通用的网页信息结构化信息提取的方法相关的知识,希望对你有一定的参考价值。

  我们在抓网页的时候,希望获得的是网页中的有效信息。事实上,直接抓取下来的内容是网页全部的html代码,代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页,我们怎么提取出网页中的有效信息,并且结构化存储。

  先亮代码:https://github.com/1049451037/universal_webpage_extraction

  这个工程使用起来很简单,把要提取的链接放到pool.txt里,然后运行main.py,就可以把pool.txt里的页面都抓取下来并且结构化存储。结果存在output文件夹里。

  每个网页都保存了链接、标题、文本、图片链接、链接到的网页。效果如下:

  

  下面来讲解一下原理,实际上很简单,使用的是beautifulsoup包。

  beautifulsoup是Python的一个拓展库,可以非常方便的实现HTML网页的分析。下面是它的官方文档网址,里面讲的非常清楚:

  https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

  实现起来特别容易,核心代码只有几行,就可以很容易的提取出想要的东西:

  

  想要更多地了解和使用beautifulsoup,建议学习官方文档~

 

以上是关于2.4 通用的网页信息结构化信息提取的方法的主要内容,如果未能解决你的问题,请参考以下文章

带你读AI论文:SDMG-R结构化提取—无限版式小票场景应用

爬虫的基本原理

python 信息标记与提取方法

信息组织与提取方法

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动