Python 读取HTML表格 pd.read_html()
Posted SpikeKing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 读取HTML表格 pd.read_html()相关的知识,希望对你有一定的参考价值。
数据部门提供的数据是xls格式的文件,但是执行读取xls文件的脚本报错。
xlrd报错:
xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'
读取xlrd的脚本
data_lines = read_excel_file(self.file_path)
def read_excel_file(file_path):
"""
读取excel文件
"""
import xlrd
print('[Info] excel file: {}'.format(file_path))
book = xlrd.open_workbook(file_path)
sheet = book.sheet_by_index(0)
data_lines = []
for row in range(0, sheet.nrows):
line_data = []
for column in range(0, sheet.ncols):
val = sheet.cell(row, column).value
line_data.append(val)
data_lines.append(line_data)
return data_lines # 二维数组
原因是文件格式是HTML表格,参考python xlrd unsupported format, or corrupt file.
使用pandas的read_html读取文件,同时替换nan为空字符,数据格式保持一致。
def read_html_table(file_path):
"""
读取html表格
"""
import pandas as pd
pd_table = pd.read_html(file_path)
df = pd_table[0]
# num_col = df.shape[1]
# num_row = df.shape[0]
df_data = df.values.tolist()
df_data = df_data[1:]
for r_idx, row in enumerate(df_data):
for c_idx, value in enumerate(row):
# 判断nan,参考https://stackoverflow.com/questions/944700/how-can-i-check-for-nan-values
if value != value:
df_data[r_idx][c_idx] = ""
return df_data
读取问题解决。
以上是关于Python 读取HTML表格 pd.read_html()的主要内容,如果未能解决你的问题,请参考以下文章