PHP 爬取网页中表格数据
Posted 飞舞189
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PHP 爬取网页中表格数据相关的知识,希望对你有一定的参考价值。
public function spider_j($page) { $url="http://aaa/bbb".$page."_0/"; $fcontents=file_get_contents($url); $table_data = preg_match_all(‘#<table>(.*?)</table>#si‘,$fcontents,$match); $table_data = $match[0][0]; $table_array = explode(‘<tr>‘,$table_data); $data = array(); for($i=2;$i<count($table_array);$i++){ $data[$i] = explode(‘</td>‘,$table_array[$i]); for($j = 0;$j<count($data[$i]);$j++){ $data[$i][$j] = preg_replace(‘/\s(?=\s)/‘,‘‘,trim(strip_tags($data[$i][$j]))); } $data[$i][6] = date(‘Y-m-d‘); } $kname = array(‘ID‘, ‘GAMENAME‘, ‘GATEGORY‘,‘BETA‘, ‘DATA‘, ‘DOWNLOAD‘,‘THEDATE‘); foreach($data as $key=>&$val){ $val = array_combine($kname,$val); } for($i=2;$i<(count($data)+2);$i++){ $this->db06->insert(‘TBL_J‘,$data[$i]); } } public function spider() { for($i=1;$i<11;$i++){ $this->spider_j($i); } }
逻辑:把网页代码读到字符串中,通过正则表达式筛选出指定的数据,然后变成二维数组,插入到数据库里。
以上是关于PHP 爬取网页中表格数据的主要内容,如果未能解决你的问题,请参考以下文章
针对源代码和检查元素不一致的网页爬虫——利用SeleniumPhantomJSbs4爬取12306的列车途径站信息