SQLite 中的连接语句出现问题

Posted 2023-02-24

技术标签:

【中文标题】SQLite 中的连接语句出现问题【英文标题】：Trouble with a join statement in SQLite 【发布时间】：2014-09-10 13:29:37 【问题描述】：

我有两个正在使用的数据文件。一个包含单词列表，其中包含有关这些单词的一些附加信息，另一个包含单词对（其中单词按第一个表中的单词 ID 列出）及其频率。

词典文件（示例输出）

('wID', 'w1', 'w1cs', 'L1', 'c1')
('-----', '-----', '-----', '-----', '-----')
(1, ',', ',', ',', 'y')
(2, '.', '.', '.', 'y')
(3, 'the', 'the', 'the', 'at')
(4, 'and', 'and', 'and', 'cc')
(5, 'of', 'of', 'of', 'io')

Bigram 文件（示例输出）

('freq', 'w1', 'w2')
(4, 22097, 161)
(1, 98664, 1320)
(1, 426515, 1345)
(1, 483675, 747)
(19, 63, 15496)
(2, 3011, 7944)
(1, 27985, 27778)

我使用 SQLite 创建了两个表，并从上面的文件中上传了数据。

conn = sqlite3.connect('bigrams.db')
conn.text_factory = str
c = conn.cursor()
c.execute('pragma foreign_keys=ON')

词典表

c.execute('''CREATE TABLE lex
            (wID INT PRIMARY KEY, w1 TEXT, w1cs TEXT, L1 TEXT, c1 TEXT)''')

#I removed this index as per CL.'s suggestion
#c.execute('''DROP INDEX IF EXISTS lex_index''') 
#c.execute('''CREATE INDEX lex_index ON lex (wID, w1, c1)''')

#and added this one
c.execute('''CREATE INDEX lex_w1_index ON lex (w1)''')

向词典表中插入数据

#I replaced this code
# with open('/Users/.../lexicon.txt', "rb") as lex_file:
#    for line in lex_file:
#        currentRow = line.split('\t')
#        try:
#            data = [currentRow[0], currentRow[1], currentRow[2], currentRow[3], str(currentRow[4].strip('\r\n'))]
#           c.executemany ('insert or replace into lex values (?, ?, ?, ?, ?)', (data,))
#        except IndexError:
#            pass   


#with the one that Julian wrote

blocksize = 100000

with open('/Users/.../lexicon.txt', "rb") as lex_file:
    data = []
    line_counter = 0
    for line in lex_file:
        data.append(line.strip().split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany ('insert or replace into lex values (?, ?, ?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'Lex error lines -'.format(block_start, line_counter)
            finally:
                data = []

二元表

#I replaced this code to create table x2 
#c.execute('''CREATE TABLE x2
#             (freq INT, w1 INT, w2 INT, FOREIGN KEY(w1) REFERENCES lex(wID), FOREIGN KEY(w2) REFERENCES lex(wID))''')

#with the code that Julian suggested
c.execute('''CREATE TABLE x2
             (freq INT, w1 INT, w2 INT,
              FOREIGN KEY(w1) REFERENCES lex(wID),
              FOREIGN KEY(w2) REFERENCES lex(wID),
              PRIMARY KEY(w1, w2) )''')

将数据插入二元表

#Replaced this code
#with open('/Users/.../x2.txt', "rb") as x2_file:
#    for line in x2_file:
#        currentRow = line.split('\t')
#        try:
#            data = [str(currentRow[0].replace('\x00','').replace('\xff\xfe','')), str(currentRow[1].replace('\x00','')), str(currentRow[2].replace('\x00','').strip('\r\n'))]
#           c.executemany('insert or replace into x2 values (?, ?, ?)', (data,))
#        except IndexError:
#            pass

#with this one suggested by Julian 
with open('/Users/.../x2.txt', "rb") as x2_file:
    data = []
    line_counter = 0
    for line in x2_file:
        data.append(line.strip().replace('\x00','').replace('\xff\xfe','').split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany('insert or replace into x2 values (?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'x2 error lines -'.format(block_start, line_counter)
            finally:
                data = []

conn.close()

我希望能够检查数据中是否存在给定的单词对——例如“like new”

当我只指定第一个单词时，程序运行良好。

cur.execute('''SELECT lex1.w1, lex2.w1 from x2 
                INNER JOIN lex as lex1 ON lex1.wID=x2.w1
                INNER JOIN lex as lex2 ON lex2.wID=x2.w2
                WHERE lex1.w1= “like” ’’’)

但是当我想搜索一对单词时，代码非常慢。

cur.execute('''SELECT lex1.w1, lex2.w1 from x2 
                    INNER JOIN lex as lex1 ON lex1.wID=x2.w1
                    INNER JOIN lex as lex2 ON lex2.wID=x2.w2
                    WHERE lex1.w1=“like” AND lex2.w1= “new” ''')

我不知道我做错了什么。任何帮助将非常感激。

【问题讨论】：

如果使用跨产品联接会发生什么？

SELECT lex1.w1, lex2.w1 from x2, lex as lex1, lex as lex2 WHERE lex1.wID=x2.w1 AND lex2.wID=x2.w2 AND lex1.w1="like" AND lex2.w1="new"

另外，您应该使用EXPLAIN <query> 查看查询的执行计划。这有望向您展示效率低下的地方，并允许您以不同的方式构建查询。 @TheSoundDefense：谢谢。我尝试了跨产品连接，但它和内部连接一样慢。当我将 EXPLAIN QUERY PLAN 与 join 语句一起使用时，我得到： (0, 0, 'TABLE x2') (1, 1, 'TABLE lex AS lex1 WITH INDEX sqlite_autoindex_lex_1') (2, 2, 'TABLE lex AS lex2带索引 sqlite_autoindex_lex_1')。这似乎在最近的 SQLite 版本中工作得更好。你有没有想过这个？ 【参考方案1】：

像这样定义你的 x2 表。

c.execute('''CREATE TABLE x2
             (freq INT, w1 INT, w2 INT,
              FOREIGN KEY(w1) REFERENCES lex(wID),
              FOREIGN KEY(w2) REFERENCES lex(wID),
              PRIMARY KEY(w1, w2) )''')

除了语义正确之外，这还会创建一个永久索引，从而大大加快您的查询速度。如果不指定 (w1, w2) 对是表的主键，则每次运行该查询时都必须临时重新创建该索引，这是一项代价高昂的操作。 p>

以下代码可用于重新定义表，而无需重新导入所有内容。

c.execute('''
    create table x2_new (
        freq INT, w1 INT, w2 INT,
        FOREIGN KEY(w1) REFERENCES lex(wID),
        FOREIGN KEY(w2) REFERENCES lex(wID),
        PRIMARY KEY(w1, w2) )
''')
c.execute('insert into x2_new select * from x2')
c.execute('drop table x2')
c.execute('alter table x2_new rename to x2')
conn.commit()

下面的代码应该可以加快插入速度。

blocksize = 100000

with open('/Users/.../lexicon.txt', "rb") as lex_file:
    data = []
    line_counter = 0
    for line in lex_file:
        data.append(line.strip().split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany ('insert or replace into lex values (?, ?, ?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'Lex error lines -'.format(block_start, line_counter)
                conn.rollback()
            finally:
                data = []

with open('/Users/.../x2.txt', "rb") as x2_file:
    data = []
    line_counter = 0
    for line in x2_file:
        data.append(line.strip().replace('\x00','').replace('\xff\xfe','').split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany('insert or replace into x2 values (?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'x2 error lines -'.format(block_start, line_counter)
                conn.rollback()
            finally:
                data = []

【讨论】：

我尝试按照您的建议使用 (w1, w2) 对上的主键创建 x2 表，但代码从昨天开始运行，并且包含 lex 和 x2 表的数据库仍未准备好.词典文件大小为 203.3MB，二元组文件大小为 1.34GB。处理这么大的文件时，我还能做些什么吗？您到底想做什么？重新定义模式并从头开始填充数据库？在这种情况下，您的瓶颈可能在插入数据的 Python 代码中。特别是如果您一次插入并提交一行数据，这往往会很慢。也许您可以尝试一次插入 10000 行数据。我可以提供更多选择，但这取决于您的具体问题。是的，我尝试从头开始重建数据库。我将编辑我的问题并添加用于插入数据的代码。如果您的旧数据库还在，您也可以使用不同的临时名称创建 x2 的新定义，例如x2_new，然后执行 SQL 命令insert into x2_new select * from x2; drop table x2; alter table x2_new rename to x2。一般来说，为了加快速度，您也可以不时运行vacuum; analyze（但经常这样做并没有用处）。谢谢。我进行了您建议的更改并将它们添加到上面的代码中。我需要删除 'c.commit()' 因为它给了我一个 AttributeError: 'sqlite3.Cursor' 对象没有属性 'commit'。【参考方案2】：

EXPLAIN QUERY PLAN 显示数据库首先扫描x2 表，然后为每个x2 行查找对应的lex 行，检查单词是否匹配。 lex 查找是使用临时索引完成的，但是对 x2 中的每一行执行两次此查找仍然会使整个查询变慢。

如果数据库可以先查找这两个词的 ID，然后在x2 中搜索具有这两个 ID 的行，则查询会很快。这需要一些新的索引。（lex_index 索引仅适用于从 wID 列开始的查找（并且此类查找可能已经使用主键索引）。）

您需要创建一个允许搜索w1的索引：

CREATE INDEX lex_w1_index ON lex(w1);

要查找包含两个单词 ID 的任何 x2 行，您需要在最左侧位置包含这两列的一些索引：

CREATE INDEX x2_w1_w2_index ON x2(w1, w2);

或者，将这两列设为主索引（参见 Julian 的回答）。

要强制数据库首先进行单词 ID 查找，您可以将它们移动到子查询中：

SELECT freq
FROM x2
WHERE w1 = (SELECT wID FROM lex WHERE w1 = 'like')
  AND w2 = (SELECT wID FROM lex WHERE w1 = 'new')

但是，这不是必需的；有了新的索引，优化器应该能够自动找到最优的查询计划。（但如果您认为它更具可读性，您仍然可以使用此查询。）

【讨论】：

谢谢。删除 lex 索引很有意义，因为我在 wID 上已经有了一个主键。一旦数据库完成，我将尝试使用代码强制单词 ID 查找。看起来它现在正在构建中，但它还没有完成。【参考方案3】：

如果找到其中一个单词的行确实很快，您可以根据结果创建一个临时表，然后在该表中再次搜索。比如：

DROP TABLE IF EXISTS x2_temp;
CREATE TABLE x2_temp AS
    SELECT lex.*, x2.w2 from x2 
        INNER JOIN lex ON lex.wID=x2.w1
        WHERE lex.w1 = 'like';

SELECT x2_temp.*, lex.* from x2_temp
    INNER JOIN lex ON lex.wID=x2_temp.w2
    WHERE lex.w1 = 'new';

您也可以将两者结合起来，而不使用临时表（不确定是否有帮助）：

SELECT x.*, lex.* FROM 
    (SELECT lex.*, x2.w2 FROM x2 
        INNER JOIN lex ON lex.wID=x2.w1
        WHERE lex.w1 = 'like') AS x
    INNER JOIN lex ON lex.wID=x.w2
    WHERE lex.w1 = 'new';

（这些在sqlite3中执行，但我没有数据，也没有花时间创建测试数据；但应该是正确的。）

【讨论】：

以上是关于SQLite 中的连接语句出现问题的主要内容，如果未能解决你的问题，请参考以下文章