Python 3 unicode-escape

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 3 unicode-escape相关的知识,希望对你有一定的参考价值。

我有一个脚本,我按照学习Python for Forensics一书中的蓝图建立。该脚本将遍历用户指定的目录,并收集目录中每个文件的元数据。结果将保存到sqlite数据库,并写入CSV或HTML文件。

该脚本最初是用Python 2.7.15编写的。我正在尝试更新Python 3.7的代码。但是,摄取目录函数中有一行可以解决问题。

ingestDirectory函数如下所示:

def ingestDirectory(cur, source, custodian_id):    
    count = 0
    for root, folders, files in os.walk(source):
        for file_name in files:
            meta_data = dict()
            try:
                meta_data['file_name'] = file_name
                meta_data['file_path'] = os.path.join(root, file_name)
                meta_data['extension'] = os.path.splitext(file_name)[-1]

                file_stats = os.stat(meta_data['file_path'])
                meta_data['mode'] = oct(file_stats.st_mode)
                meta_data['inode'] = int(file_stats.st_ino)
                meta_data['file_size'] = int(file_stats.st_size)
                meta_data['atime'] = formatTimestamp(file_stats.st_atime)
                meta_data['mtime'] = formatTimestamp(file_stats.st_mtime)
                meta_data['ctime'] = formatTimestamp(file_stats.st_ctime)
            except Exception as e:
                logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())
            meta_data['custodian'] = custodian_id
            columns = '","'.join(meta_data.keys())
            values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())
            sql = 'INSERT INTO Files ("' + columns + '") VALUES ("' + values + '")'
            cur.execute(sql)
            count += 1

给我错误的那条线是这样的:

values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())

此行用于处理在将数据写入数据库之前在metadata.values中找到的任何字符串转义字符。

当我尝试在Python 3中运行此代码时,我收到有关无法识别的编解码器的错误。我做了一些关于Stack Overflow的研究,发现string_escape已经被Python 3中的unicode-escape取代了。

我是Python 3和Unicode的新手。我的问题是:

如何更新上面的行,以便它使用unicode-escape而不是string_escape并产生与Python 2.7代码相同的结果?

任何帮助,将不胜感激!我已经工作了几天了,我尝试的每个解决方案都会导致更多的错误代码或损坏的输出文件。

答案

您正在该代码片段中生成SQL,并且在那里尝试生成有效的SQL。这是一个非常穷人试图避免SQL注入的尝试。它不是很有效,并且不需要,因为数据库驱动程序已经知道如何以更安全的方式处理这个问题!

对于SQL数据库,将值放入SQL参数的正确方法。 SQL参数由两个组件组成:占位符和值分别传递给.execute()方法,以便数据库可以干净地处理。 sqlite3图书馆也不例外,请参阅cursor.execute() method for details。对于您的情况,您可以使用命名占位符:

columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
placeholders = [f':{name}' for name in meta_data]
sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'    
cur.execute(sql, meta_data)

请注意,meta_data作为第二个参数传递;数据库采用每个:name占位符并从meta_data字典中获取该占位符的值。

我还正确地格式化了列名,通过在它们周围加上双引号并将名称中的任何"字符加倍;看到SQLite keyword documentation

'keyword'       A keyword in single quotes is a string literal.
"keyword"       A keyword in double-quotes is an identifier.

您的代码已对这些列名进行了硬编码,并且它们都不是保留的SQL关键字,因此它们并不真正需要这种保护,但它仍然是一种很好的做法。

对于你的代码,其中meta_data有固定数量的键,上面构建了这个sql字符串:

>>> columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
>>> placeholders = [f':{name}' for name in meta_data]
>>> sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'
>>> from pprint import pprint
>>> pprint(sql)
('INSERT INTO Files ("file_name", "file_path", "extension", "mode", "inode", '
 '"file_size", "atime", "mtime", "ctime") VALUES (:file_name, :file_path, '
 ':extension, :mode, :inode, :file_size, :atime, :mtime, :ctime)')

我也会改变你记录错误的方式,而不是

logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())

我用了

logging.exception('Could not gather data for file: %s', meta_data['file_path'])

并将错误收集留给日志框架。即使您确实包含异常对象,也可以使用str(e)%s占位符。

以上是关于Python 3 unicode-escape的主要内容,如果未能解决你的问题,请参考以下文章

Python unicode转义字符u的处理

python3编码问题个人理解

python unicode to str and str to unicode

PEP 263 -- Defining Python Source Code Encodings(定义Python源代码编码)

python—基础练习题

python中unicode的坑