SQLite 中的连接语句出现问题

Posted

技术标签:

【中文标题】SQLite 中的连接语句出现问题【英文标题】:Trouble with a join statement in SQLite 【发布时间】:2014-09-10 13:29:37 【问题描述】:

我有两个正在使用的数据文件。一个包含单词列表,其中包含有关这些单词的一些附加信息,另一个包含单词对(其中单词按第一个表中的单词 ID 列出)及其频率。

词典文件(示例输出)

('wID', 'w1', 'w1cs', 'L1', 'c1')
('-----', '-----', '-----', '-----', '-----')
(1, ',', ',', ',', 'y')
(2, '.', '.', '.', 'y')
(3, 'the', 'the', 'the', 'at')
(4, 'and', 'and', 'and', 'cc')
(5, 'of', 'of', 'of', 'io')

Bigram 文件(示例输出)

('freq', 'w1', 'w2')
(4, 22097, 161)
(1, 98664, 1320)
(1, 426515, 1345)
(1, 483675, 747)
(19, 63, 15496)
(2, 3011, 7944)
(1, 27985, 27778)

我使用 SQLite 创建了两个表,并从上面的文件中上传了数据。

conn = sqlite3.connect('bigrams.db')
conn.text_factory = str
c = conn.cursor()
c.execute('pragma foreign_keys=ON')

词典表

c.execute('''CREATE TABLE lex
            (wID INT PRIMARY KEY, w1 TEXT, w1cs TEXT, L1 TEXT, c1 TEXT)''')

#I removed this index as per CL.'s suggestion
#c.execute('''DROP INDEX IF EXISTS lex_index''') 
#c.execute('''CREATE INDEX lex_index ON lex (wID, w1, c1)''')

#and added this one
c.execute('''CREATE INDEX lex_w1_index ON lex (w1)''')

向词典表中插入数据

#I replaced this code
# with open('/Users/.../lexicon.txt', "rb") as lex_file:
#    for line in lex_file:
#        currentRow = line.split('\t')
#        try:
#            data = [currentRow[0], currentRow[1], currentRow[2], currentRow[3], str(currentRow[4].strip('\r\n'))]
#           c.executemany ('insert or replace into lex values (?, ?, ?, ?, ?)', (data,))
#        except IndexError:
#            pass   


#with the one that Julian wrote

blocksize = 100000

with open('/Users/.../lexicon.txt', "rb") as lex_file:
    data = []
    line_counter = 0
    for line in lex_file:
        data.append(line.strip().split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany ('insert or replace into lex values (?, ?, ?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'Lex error lines -'.format(block_start, line_counter)
            finally:
                data = []

二元表

#I replaced this code to create table x2 
#c.execute('''CREATE TABLE x2
#             (freq INT, w1 INT, w2 INT, FOREIGN KEY(w1) REFERENCES lex(wID), FOREIGN KEY(w2) REFERENCES lex(wID))''')

#with the code that Julian suggested
c.execute('''CREATE TABLE x2
             (freq INT, w1 INT, w2 INT,
              FOREIGN KEY(w1) REFERENCES lex(wID),
              FOREIGN KEY(w2) REFERENCES lex(wID),
              PRIMARY KEY(w1, w2) )''')

将数据插入二元表

#Replaced this code
#with open('/Users/.../x2.txt', "rb") as x2_file:
#    for line in x2_file:
#        currentRow = line.split('\t')
#        try:
#            data = [str(currentRow[0].replace('\x00','').replace('\xff\xfe','')), str(currentRow[1].replace('\x00','')), str(currentRow[2].replace('\x00','').strip('\r\n'))]
#           c.executemany('insert or replace into x2 values (?, ?, ?)', (data,))
#        except IndexError:
#            pass

#with this one suggested by Julian 
with open('/Users/.../x2.txt', "rb") as x2_file:
    data = []
    line_counter = 0
    for line in x2_file:
        data.append(line.strip().replace('\x00','').replace('\xff\xfe','').split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany('insert or replace into x2 values (?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'x2 error lines -'.format(block_start, line_counter)
            finally:
                data = []

conn.close()

我希望能够检查数据中是否存在给定的单词对——例如“like new”

当我只指定第一个单词时,程序运行良好。

cur.execute('''SELECT lex1.w1, lex2.w1 from x2 
                INNER JOIN lex as lex1 ON lex1.wID=x2.w1
                INNER JOIN lex as lex2 ON lex2.wID=x2.w2
                WHERE lex1.w1= “like” ’’’)

但是当我想搜索一对单词时,代码非常慢。

cur.execute('''SELECT lex1.w1, lex2.w1 from x2 
                    INNER JOIN lex as lex1 ON lex1.wID=x2.w1
                    INNER JOIN lex as lex2 ON lex2.wID=x2.w2
                    WHERE lex1.w1=“like” AND lex2.w1= “new” ''')

我不知道我做错了什么。 任何帮助将非常感激。

【问题讨论】:

如果使用跨产品联接会发生什么? SELECT lex1.w1, lex2.w1 from x2, lex as lex1, lex as lex2 WHERE lex1.wID=x2.w1 AND lex2.wID=x2.w2 AND lex1.w1="like" AND lex2.w1="new" 另外,您应该使用EXPLAIN <query> 查看查询的执行计划。这有望向您展示效率低下的地方,并允许您以不同的方式构建查询。 @TheSoundDefense:谢谢。我尝试了跨产品连接,但它和内部连接一样慢。当我将 EXPLAIN QUERY PLAN 与 join 语句一起使用时,我得到: (0, 0, 'TABLE x2') (1, 1, 'TABLE lex AS lex1 WITH INDEX sqlite_autoindex_lex_1') (2, 2, 'TABLE lex AS lex2带索引 sqlite_autoindex_lex_1')。 这似乎在最近的 SQLite 版本中工作得更好。 你有没有想过这个? 【参考方案1】:

像这样定义你的 x2 表。

c.execute('''CREATE TABLE x2
             (freq INT, w1 INT, w2 INT,
              FOREIGN KEY(w1) REFERENCES lex(wID),
              FOREIGN KEY(w2) REFERENCES lex(wID),
              PRIMARY KEY(w1, w2) )''')

除了语义正确之外,这还会创建一个永久索引,从而大大加快您的查询速度。如果不指定 (w1, w2) 对是表的主键,则每次运行该查询时都必须临时重新创建该索引,这是一项代价高昂的操作。 p>


以下代码可用于重新定义表,而无需重新导入所有内容。

c.execute('''
    create table x2_new (
        freq INT, w1 INT, w2 INT,
        FOREIGN KEY(w1) REFERENCES lex(wID),
        FOREIGN KEY(w2) REFERENCES lex(wID),
        PRIMARY KEY(w1, w2) )
''')
c.execute('insert into x2_new select * from x2')
c.execute('drop table x2')
c.execute('alter table x2_new rename to x2')
conn.commit()

下面的代码应该可以加快插入速度。

blocksize = 100000

with open('/Users/.../lexicon.txt', "rb") as lex_file:
    data = []
    line_counter = 0
    for line in lex_file:
        data.append(line.strip().split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany ('insert or replace into lex values (?, ?, ?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'Lex error lines -'.format(block_start, line_counter)
                conn.rollback()
            finally:
                data = []

with open('/Users/.../x2.txt', "rb") as x2_file:
    data = []
    line_counter = 0
    for line in x2_file:
        data.append(line.strip().replace('\x00','').replace('\xff\xfe','').split('\t'))
        line_counter += 1
        if line_counter % blocksize == 0:
            try:
                c.executemany('insert or replace into x2 values (?, ?, ?)', data)
                conn.commit()
            except IndexError:
                block_start = line_counter - blocksize + 1
                print 'x2 error lines -'.format(block_start, line_counter)
                conn.rollback()
            finally:
                data = []

【讨论】:

我尝试按照您的建议使用 (w1, w2) 对上的主键创建 x2 表,但代码从昨天开始运行,并且包含 lex 和 x2 表的数据库仍未准备好.词典文件大小为 203.3MB,二元组文件大小为 1.34GB。处理这么大的文件时,我还能做些什么吗? 您到底想做什么?重新定义模式并从头开始填充数据库?在这种情况下,您的瓶颈可能在插入数据的 Python 代码中。特别是如果您一次插入并提交一行数据,这往往会很慢。也许您可以尝试一次插入 10000 行数据。我可以提供更多选择,但这取决于您的具体问题。 是的,我尝试从头开始重建数据库。我将编辑我的问题并添加用于插入数据的代码。 如果您的旧数据库还在,您也可以使用不同的临时名称创建 x2 的新定义,例如x2_new,然后执行 SQL 命令insert into x2_new select * from x2; drop table x2; alter table x2_new rename to x2。一般来说,为了加快速度,您也可以不时运行vacuum; analyze(但经常这样做并没有用处)。 谢谢。我进行了您建议的更改并将它们添加到上面的代码中。我需要删除 'c.commit()' 因为它给了我一个 AttributeError: 'sqlite3.Cursor' 对象没有属性 'commit'。【参考方案2】:

EXPLAIN QUERY PLAN 显示数据库首先扫描x2 表,然后为每个x2 行查找对应的lex 行,检查单词是否匹配。 lex 查找是使用临时索引完成的,但是对 x2 中的每一行执行两次此查找仍然会使整个查询变慢。

如果数据库可以先查找这两个词的 ID,然后在x2 中搜索具有这两个 ID 的行,则查询会很快。 这需要一些新的索引。 (lex_index 索引仅适用于从 wID 列开始的查找(并且此类查找可能已经使用主键索引)。)

您需要创建一个允许搜索w1的索引:

CREATE INDEX lex_w1_index ON lex(w1);

要查找包含两个单词 ID 的任何 x2 行,您需要在最左侧位置包含这两列的一些索引:

CREATE INDEX x2_w1_w2_index ON x2(w1, w2);

或者,将这两列设为主索引(参见 Julian 的回答)。


要强制数据库首先进行单词 ID 查找,您可以将它们移动到子查询中:

SELECT freq
FROM x2
WHERE w1 = (SELECT wID FROM lex WHERE w1 = 'like')
  AND w2 = (SELECT wID FROM lex WHERE w1 = 'new')

但是,这不是必需的;有了新的索引,优化器应该能够自动找到最优的查询计划。 (但如果您认为它更具可读性,您仍然可以使用此查询。)

【讨论】:

谢谢。删除 lex 索引很有意义,因为我在 wID 上已经有了一个主键。一旦数据库完成,我将尝试使用代码强制单词 ID 查找。看起来它现在正在构建中,但它还没有完成。【参考方案3】:

如果找到其中一个单词的行确实很快,您可以根据结果创建一个临时表,然后在该表中再次搜索。比如:

DROP TABLE IF EXISTS x2_temp;
CREATE TABLE x2_temp AS
    SELECT lex.*, x2.w2 from x2 
        INNER JOIN lex ON lex.wID=x2.w1
        WHERE lex.w1 = 'like';

SELECT x2_temp.*, lex.* from x2_temp
    INNER JOIN lex ON lex.wID=x2_temp.w2
    WHERE lex.w1 = 'new';

您也可以将两者结合起来,而不使用临时表(不确定是否有帮助):

SELECT x.*, lex.* FROM 
    (SELECT lex.*, x2.w2 FROM x2 
        INNER JOIN lex ON lex.wID=x2.w1
        WHERE lex.w1 = 'like') AS x
    INNER JOIN lex ON lex.wID=x.w2
    WHERE lex.w1 = 'new';

(这些在sqlite3中执行,但我没有数据,也没有花时间创建测试数据;但应该是正确的。)

【讨论】:

以上是关于SQLite 中的连接语句出现问题的主要内容,如果未能解决你的问题,请参考以下文章

PHP,PDO,SQLite INNER JOIN语句和变量

SQLite 错误:复合 SELECT 中的术语太多

SQLite也可能出现死锁

如何让Navicat for SQLite 连接Sqlite数据库

SQlite concat 选择语句

SQLite模糊查询一个单词的语句是啥?