从mysql中的大表中快速选择随机行

Posted

技术标签:

【中文标题】从mysql中的大表中快速选择随机行【英文标题】:quick selection of a random row from a large table in mysql 【发布时间】:2010-09-17 16:49:46 【问题描述】:

从大型mysql表中选择随机行的快速方法是什么?

我正在使用 php,但我对任何解决方案都感兴趣,即使它是另一种语言的。

【问题讨论】:

MySQL select 10 random rows from 600K rows fast的可能重复 【参考方案1】:

创建一个函数来执行此操作,这很可能是这里的最佳答案和最快的答案!

优点 - 即使有间隙也能工作,而且速度极快。

<?

$sqlConnect = mysqli_connect('localhost','username','password','database');

function rando($data,$find,$max = '0')
   global $sqlConnect; // Set as mysqli connection variable, fetches variable outside of function set as GLOBAL
   if($data == 's1')
     $query = mysqli_query($sqlConnect, "SELECT * FROM `yourtable` ORDER BY `id` DESC LIMIT $find,1");

     $fetched_data = mysqli_fetch_assoc($query);
      if(mysqli_num_rows($fetched_data>0)
       return $fetch_$data;
      else
       rando('','',$max); // Start Over the results returned nothing
      
   else
     if($max != '0')
        $irand = rand(0,$max); 
        rando('s1',$irand,$max); // Start rando with new random ID to fetch
     else

        $query = mysqli_query($sqlConnect, "SELECT `id` FROM `yourtable` ORDER BY `id` DESC LIMIT 0,1");
        $fetched_data = mysqli_fetch_assoc($query);
        $max = $fetched_data['id'];
        $irand = rand(1,$max);
        rando('s1',$irand,$max); // Runs rando against the random ID we have selected if data exist will return
     
   
 

 $your_data = rando(); // Returns listing data for a random entry as a ASSOC ARRAY
?>

请记住,此代码未经测试,但它是一个可行的概念,即使有间隙也会返回随机条目。只要间隙不会大到导致加载时间问题。

【讨论】:

【参考方案2】:

我已经使用了这个并且工作完成了 来自here的引用

SELECT * FROM myTable WHERE RAND()<(SELECT ((30/COUNT(*))*10) FROM myTable) ORDER BY RAND() LIMIT 30;

【讨论】:

【参考方案3】:

在我的情况下,我的表有一个 id 作为主键,自动递增,没有间隙,所以我可以使用 COUNT(*)MAX(id) 来获取行数。

我做了这个脚本来测试最快的操作:

logTime();
query("SELECT COUNT(id) FROM tbl");
logTime();
query("SELECT MAX(id) FROM tbl");
logTime();
query("SELECT id FROM tbl ORDER BY id DESC LIMIT 1");
logTime();

结果是:

计数:36.8418693542479 ms 最大:0.241041183472 ms 订购0.216960906982 ms

用下单方式回答:

SELECT FLOOR(RAND() * (
    SELECT id FROM tbl ORDER BY id DESC LIMIT 1
)) n FROM tbl LIMIT 1

...
SELECT * FROM tbl WHERE id = $result;

【讨论】:

【参考方案4】:

使用以下查询获取随机行

SELECT user_firstname ,
COUNT(DISTINCT usr_fk_id) cnt
FROM userdetails 
GROUP BY usr_fk_id 
ORDER BY cnt ASC  
LIMIT 1

【讨论】:

【参考方案5】:

为了从给定表中选择多个随机行(比如“单词”),我们的团队想出了这个美:

SELECT * FROM
`words` AS r1 JOIN 
(SELECT  MAX(`WordID`) as wid_c FROM `words`) as tmp1
WHERE r1.WordID >= (SELECT (RAND() * tmp1.wid_c) AS id) LIMIT n

【讨论】:

【参考方案6】:

我在这里看到了很多解决方案。一两个似乎还可以,但其他解决方案有一些限制。但以下解决方案适用于所有情况

select a.* from random_data a, (select max(id)*rand() randid  from random_data) b
     where a.id >= b.randid limit 1;

这里,id,不需要是连续的。它可以是任何主键/唯一/自动增量列。请看以下Fastest way to select a random row from a big MySQL table

谢谢 齐鲁尔 - www.techinfobest.com

【讨论】:

【参考方案7】:

SELECT DISTINCT * FROM yourTable WHERE 4 = 4 LIMIT 1;

【讨论】:

【参考方案8】:

又快又脏的方法:

SET @COUNTER=SELECT COUNT(*) FROM your_table;

SELECT PrimaryKey
FROM your_table
LIMIT 1 OFFSET (RAND() * @COUNTER);

对于 MyISAM 表,第一个查询的复杂度是 O(1)。

第二个查询伴随着表全扫描。复杂度 = O(n)

又脏又快的方法:

保留一个单独的表格仅用于此目的。每当插入原始表时,您还应该向该表插入相同的行。假设:没有删除。

CREATE TABLE Aux(
  MyPK INT AUTO_INCREMENT,
  PrimaryKey INT
);

SET @MaxPK = (SELECT MAX(MyPK) FROM Aux);
SET @RandPK = CAST(RANDOM() * @MaxPK, INT)
SET @PrimaryKey = (SELECT PrimaryKey FROM Aux WHERE MyPK = @RandPK);

如果允许删除,

SET @delta = CAST(@RandPK/10, INT);

SET @PrimaryKey = (SELECT PrimaryKey
                   FROM Aux
                   WHERE MyPK BETWEEN @RandPK - @delta AND @RandPK + @delta
                   LIMIT 1);

总体复杂度为 O(1)。

【讨论】:

【参考方案9】:

我遇到了我的 ID 不连续的问题。我想出了这个。

SELECT * FROM products WHERE RAND()<=(5/(SELECT COUNT(*) FROM products)) LIMIT 1

返回的行数约为 5,但我将其限制为 1。

如果您想添加另一个 WHERE 子句,它会变得更有趣。假设您要搜索打折产品。

SELECT * FROM products WHERE RAND()<=(100/(SELECT COUNT(*) FROM pt_products)) AND discount<.2 LIMIT 1

您要做的是确保返回足够的结果,这就是我将其设置为 100 的原因。在子查询中使用 WHERE discount<.2>

【讨论】:

【参考方案10】:

如果不删除此表中的行,最有效的方法是:

(如果你知道最小 id 就跳过它)

SELECT MIN(id) AS minId, MAX(id) AS maxId FROM table WHERE 1

$randId=mt_rand((int)$row['minId'], (int)$row['maxId']);

SELECT id,name,... FROM table WHERE id=$randId LIMIT 1

【讨论】:

【参考方案11】:

我对 SQL 有点陌生,但是如何在 PHP 中生成一个随机数并使用

SELECT * FROM the_table WHERE primary_key >= $randNr

这并不能解决桌子上有洞的问题。

但这里对 lassevks 的建议有所不同:

SELECT primary_key FROM the_table

在PHP中使用mysql_num_rows()根据上面的结果创建一个随机数:

SELECT * FROM the_table WHERE primary_key = rand_number

顺便说一句,SELECT * FROM the_table 有多慢: 根据mysql_num_rows() 创建一个随机数,然后将数据指针移动到该点mysql_data_seek()。在拥有一百万行的大表上,这会有多慢?

【讨论】:

【参考方案12】:

为了从表中查找随机行,不要使用 ORDER BY RAND(),因为它会强制 MySQL 进行完整的文件排序,然后才检索所需的限制行数。为了避免这种完整的文件排序,请仅在 where 子句中使用 RAND() 函数。一旦达到所需的行数,它将立即停止。 看 http://www.rndblog.com/how-to-select-random-rows-in-mysql/

【讨论】:

【参考方案13】:

还有另一种方法来生成随机行,只使用一个查询而不用 rand() 排序。 它涉及用户定义的变量。 见how to produce random rows from a table

【讨论】:

【参考方案14】:

看看 Jan Kneschke 的 this link 或 this SO answer,因为他们都在讨论同一个问题。 SO的答案也涵盖了各种选项,并根据您的需要提供了一些很好的建议。 Jan 回顾了所有不同的选项以及每个选项的性能特征。他最终得出了以下在 MySQL 选择中执行此操作的最优化方法:

SELECT name
  FROM random AS r1 JOIN
       (SELECT (RAND() *
                     (SELECT MAX(id)
                        FROM random)) AS id)
        AS r2
 WHERE r1.id >= r2.id
 ORDER BY r1.id ASC
 LIMIT 1;

HTH,

-地平

【讨论】:

【参考方案15】:

为每一行添加一个包含计算出的随机值的列,并在排序子句中使用它,在选择时限制为一个结果。这比ORDER BY RANDOM() 引起的表扫描要快。

更新:当然,在检索时发出SELECT 语句之前,您仍然需要计算一些随机值,例如

SELECT * FROM `foo` WHERE `foo_rand` >= some random value LIMIT 1

【讨论】:

我想过。添加一个新的索引列并在创建行时为其分配一个随机 int。但问题是我存储了不必要的数据,你仍然需要做其他事情才能真正从中获取随机行,因为随机列数据是静态的。 为什么这是-2,而Cesar B的却是+17?在我看来,它们几乎相同。 应该是“SELECT * FROM foo WHERE foo_rand >= 一些随机值 ORDER BY foo_rand LIMIT 1”? 如果您的 some random value 大于表中预先生成的最高随机数怎么办。您将返回一个空记录集。【参考方案16】:

MediaWiki 使用了一个有趣的技巧(用于 Wikipedia 的 Special:Random 功能):包含文章的表格有一个带有随机数的额外列(在创建文章时生成)。要获得一篇随机文章,请生成一个随机数,并在随机数列中获取具有下一个更大或更小(不记得是哪个)值的文章。使用索引,这可以非常快。 (而且 MediaWiki 是用 PHP 编写并为 MySQL 开发的。)

如果结果数字分布不均,这种方法可能会导致问题; IIRC,这已在 MediaWiki 上修复,因此如果您决定这样做,您应该查看代码以了解它当前是如何完成的(可能他们会定期重新生成随机数列)。

【讨论】:

这是个好主意。是否有文章或其他资源详细说明了这一点? 这是个好主意,但我猜想 N 个期望的结果可能行不通。因为你得到的结果可能会更少,或者顺序可能相同。 这是个好主意。但是在查询中,我们仍然必须按随机列排序,对吧?假设随机列是random_number,那么查询就像:“SELECT * FROM mytable WHERE random_number>$rand ORDER BY random_number LIMIT 1”。是不是比 ORDER BY RAND() 快很多? 您需要对与当前条目数相关的随机数的最大值设置一定程度的限制。然后随着表的增长,将这个限制与表中的行数有一定程度的相关性。例如,当条目不多时。假设您有 3 个。对随机数没有限制,您可以说 2 个非常小的数字和一个大的数字。当最小值、本身和中间数之间的差距很小时,几乎不会调用 3 中最小的那个。如果 min=0, max=100 有 3 个条目,并且分配的 rand # 是 49, 50, 51? 我不明白这个。这与仅在 1 和 max(id) 之间随机化一个数字并选择具有该 ID 的条目有何不同?为什么需要额外的列?【参考方案17】:

这是一个运行相当快的解决方案,它获得了更好的随机分布,而不依赖于连续或从 1 开始的 id 值。

SET @r := (SELECT ROUND(RAND() * (SELECT COUNT(*) FROM mytable)));
SET @sql := CONCAT('SELECT * FROM mytable LIMIT ', @r, ', 1');
PREPARE stmt1 FROM @sql;
EXECUTE stmt1;

【讨论】:

如何使用 PHP 获取此 SQL 查询返回的行?将$query 设置为等于上述值,然后执行通常的mysql_query($query) 不会返回任何结果。谢谢。 这是 1.5 次表扫描——COUNT(*) 的 1 次(假设 InnoDB),比 OFFSET @r 的完整扫描还少。但它非常擅长随机而不依赖于 id 的属性。 @RickJames,对。另一种解决方案是用一个用序列整数填充的新列来枚举行。然后可以用 MAX() 而不是 COUNT() 得到最大的,然后按索引选择它,而不用处理间隙。尽管该解决方案需要在行进出时重新编号。【参考方案18】:

获取所有 id,从中随机选择一个,然后检索整行。

如果您知道 id 是连续的,没有孔,您可以获取最大值并计算随机 id。

如果这里和那里有漏洞但大部分是顺序值,并且您不关心稍微偏斜的随机性,请获取最大值,计算一个 id,然后选择 id 等于或高于那个的第一行你计算过。偏斜的原因是 id 跟随这样的洞比跟随另一个 id 的洞更有可能被选中。

如果您随机订购,您将面临糟糕的表格扫描,而 quick 这个词不适用于这样的解决方案。

不要这样做,也不应该按 GUID 订购,它有同样的问题。

【讨论】:

【参考方案19】:

我知道必须有一种方法可以在单个查询中快速完成。这里是:

不涉及外部代码的快速方法,赞

http://jan.kneschke.de/projects/mysql/order-by-rand/

SELECT name
  FROM random AS r1 JOIN
       (SELECT (RAND() *
                     (SELECT MAX(id)
                        FROM random)) AS id)
        AS r2
 WHERE r1.id >= r2.id
 ORDER BY r1.id ASC
 LIMIT 1;

【讨论】:

请注意这里的权衡,为了确保在第一次尝试时获得结果,任何前面有空格的键都更有可能被选中。例如,给定两个键为 1 和 10 的记录,以 10 作为键的记录将在 90% 的时间内被选中。 是的,如果键没有间隙并避免 WHERE 和 ORDER BY 子句,您可以获得更好的分布。检查文章,那里解释得很好。我不想偷走所有这些,因此没有提出其他查询,每个查询的优缺点。 当您指定一些额外的参数(例如 WHERE r1.id >= r2.id AND r1.some_field=1 而 some_field 包含 data=1 时,此查询有时不会返回数据。关于如何解决这个问题的任何想法?【参考方案20】:

在伪代码中:

sql "select id from table"
store result in list
n = random(size of list)
sql "select * from table where id=" + list[n]

这假定id 是唯一的(主)键。

【讨论】:

如果 ID 不经常更改,您甚至可以将 ID 列表保存在内存中以加快速度。 如果有十亿行怎么办?这意味着您的列表变量很大。【参考方案21】:

一种简单但缓慢的方法是(适用于小桌子)

SELECT * from TABLE order by RAND() LIMIT 1

【讨论】:

这将为表中的所有行产生一个随机值,排序,然后抓取一行。这并不快。 是的。不过,它的开发时间很快。 (并在回答时间:-))。我会把它留给可能需要它的非大表用户 "smallish" 可能非常小(我在虚拟主机上遇到了 20k 条目表的问题),跟踪此类问题可能是一个royal 背部疼痛。帮自己一个忙,从一开始就使用适当的算法。 这将导致大型表的性能大幅下降。检查这个类似的问题***.com/questions/1244555/…【参考方案22】:

使用命令你会做一个完整的扫描表。 最好是执行 select count(*) 并稍后在 0 和最后一个注册表之间获得一个随机 row=rownum

【讨论】:

【参考方案23】:

经典的“SELECT id FROM table ORDER BY RAND() LIMIT 1”其实没问题。

请参阅 MySQL 手册的以下摘录:

如果将 LIMIT row_count 与 ORDER BY 结合使用,MySQL 会在找到排序结果的前 row_count 行后立即结束排序,而不是对整个结果进行排序。

【讨论】:

但它仍然必须为每条记录分配一个随机数,不是吗?我问是因为这种解释对我来说没有多大意义:如果整个结果集没有排序,它将如何返回前 N 个排序的行:S @igelkott,还是有性能问题,估计不行【参考方案24】:

也许你可以这样做:

SELECT * FROM table 
  WHERE id=
    (FLOOR(RAND() * 
           (SELECT COUNT(*) FROM table)
          )
    );

这是假设您的身份证号码都是连续的,没有间隔。

【讨论】:

实际上你可能需要 CEIL 而不是 FLOOR,这取决于你的 ID 是从 0 开始还是从 1 开始 假设表达式被缓存并且不会为每一行重新计算。 主键有空格,因为有些行被删除了。

以上是关于从mysql中的大表中快速选择随机行的主要内容,如果未能解决你的问题,请参考以下文章

MySQL - 从大表中选择随机行

MySQL 从 600K 行中快速选择 10 个随机行

在PostgreSQL中选择N个匹配条件的随机行

如何从 SQL 数据库表中选择随机行? [复制]

从 sqlite 表中选择随机行

sql 从sqlite表中选择随机行