PHP 短哈希,如 URL 缩短网站
Posted
技术标签:
【中文标题】PHP 短哈希,如 URL 缩短网站【英文标题】:PHP short hash like URL-shortening websites 【发布时间】:2010-10-31 21:23:09 【问题描述】:我正在寻找一个 php 函数,它可以从字符串或文件中创建一个简短的哈希,类似于那些 URL 缩短网站,如 tinyurl.com
哈希不应超过 8 个字符。
【问题讨论】:
我知道这是一个老问题,但请查看:hashids.org。适用于大多数编程语言 查看ShortCode 库。它完全符合您的要求。基于基本转化率。 除了使用 Adler-32 或 CRC32 之外,您不能将现代(防碰撞)哈希 缩短很多(即减少到 8 个字符)。不使用 SHA-2,不使用 SHA-1,甚至不使用 MD5。使用Alphabet::convert($hash, Alphabet::HEX, Alphabet::ALPHANUMERIC)
,您可以将 MD5 减少到 22(从 32 个)字符。您想要的是使用 (new Id())->encode($id)
对文件的整数 ID(例如,来自您的数据库)进行编码。
【参考方案1】:
TinyURL 不散列任何内容,它使用 Base 36 整数(甚至是 base 62,使用大小写字母)来指示要访问的记录。
基数 36 到整数:
intval($str, 36);
以 36 为底的整数:
base_convert($val, 10, 36);
那么,不是重定向到像/url/1234
这样的路由,而是变成/url/ax
。这比散列提供了更多的用途,因为不会发生冲突。有了这个,您可以轻松检查 url 是否存在并返回正确的、现有的、以 base 36 为基础的 ID,而用户不知道它已经在数据库中。
不要散列,对这类事情使用其他基础。 (它更快,并且可以防碰撞。)
【讨论】:
嗨@RobertK,PHP 将如何转换包含数字和字母的 6 位字符串? @timpeterson,只需调用 intval 并传入给定的基数(参见我的第一个代码块)。 @RobertK,但是intval()
把所有东西都变成了一个数字。我想我可能对intval()
与执行重定向所需的其他步骤(如数据库角色)的连接方式感到困惑。
@timpeterson,那是因为字符串代表数据库记录的 ID。因此,您根据传递的 ID 选择记录。
@RobertK,我在intval()
中看到的一个问题是您的$str
中是否有斜线(/)或破折号(-)。我意识到on/stuff
、on-stuff
和on
都返回了数字887
。您是否有使用带有斜杠和破折号的 URL 的解决方案?【参考方案2】:
我写了一个小库来从整数生成混淆哈希。
http://web.archive.org/web/20130727034425/http://blog.kevburnsjr.com/php-unique-hash
$ids = range(1,10);
foreach($ids as $id)
echo PseudoCrypt::unhash($id) . "\n";
m8z2p 8hy5e uqx83 格兹瓦斯 38伏特 普格6 bqtiv xzslk k8ro9 6hqqy
7/14/2015:在下面添加实际代码,因为它变得难以找到:
<?php
/**
* PseudoCrypt by KevBurns (http://blog.kevburnsjr.com/php-unique-hash)
* Reference/source: http://***.com/a/1464155/933782
*
* I want a short alphanumeric hash that’s unique and who’s sequence is difficult to deduce.
* I could run it out to md5 and trim the first n chars but that’s not going to be very unique.
* Storing a truncated checksum in a unique field means that the frequency of collisions will increase
* geometrically as the number of unique keys for a base 62 encoded integer approaches 62^n.
* I’d rather do it right than code myself a timebomb. So I came up with this.
*
* Sample Code:
*
* echo "<pre>";
* foreach(range(1, 10) as $n)
* echo $n." - ";
* $hash = PseudoCrypt::hash($n, 6);
* echo $hash." - ";
* echo PseudoCrypt::unhash($hash)."<br/>";
*
*
* Sample Results:
* 1 - cJinsP - 1
* 2 - EdRbko - 2
* 3 - qxAPdD - 3
* 4 - TGtDVc - 4
* 5 - 5ac1O1 - 5
* 6 - huKpGQ - 6
* 7 - KE3d8p - 7
* 8 - wXmR1E - 8
* 9 - YrVEtd - 9
* 10 - BBE2m2 - 10
*/
class PseudoCrypt
/* Key: Next prime greater than 62 ^ n / 1.618033988749894848 */
/* Value: modular multiplicative inverse */
private static $golden_primes = array(
'1' => '1',
'41' => '59',
'2377' => '1677',
'147299' => '187507',
'9132313' => '5952585',
'566201239' => '643566407',
'35104476161' => '22071637057',
'2176477521929' => '294289236153',
'134941606358731' => '88879354792675',
'8366379594239857' => '7275288500431249',
'518715534842869223' => '280042546585394647'
);
/* Ascii : 0 9, A Z, a z */
/* $chars = array_merge(range(48,57), range(65,90), range(97,122)) */
private static $chars62 = array(
0=>48,1=>49,2=>50,3=>51,4=>52,5=>53,6=>54,7=>55,8=>56,9=>57,10=>65,
11=>66,12=>67,13=>68,14=>69,15=>70,16=>71,17=>72,18=>73,19=>74,20=>75,
21=>76,22=>77,23=>78,24=>79,25=>80,26=>81,27=>82,28=>83,29=>84,30=>85,
31=>86,32=>87,33=>88,34=>89,35=>90,36=>97,37=>98,38=>99,39=>100,40=>101,
41=>102,42=>103,43=>104,44=>105,45=>106,46=>107,47=>108,48=>109,49=>110,
50=>111,51=>112,52=>113,53=>114,54=>115,55=>116,56=>117,57=>118,58=>119,
59=>120,60=>121,61=>122
);
public static function base62($int)
$key = "";
while(bccomp($int, 0) > 0)
$mod = bcmod($int, 62);
$key .= chr(self::$chars62[$mod]);
$int = bcdiv($int, 62);
return strrev($key);
public static function hash($num, $len = 5)
$ceil = bcpow(62, $len);
$primes = array_keys(self::$golden_primes);
$prime = $primes[$len];
$dec = bcmod(bcmul($num, $prime), $ceil);
$hash = self::base62($dec);
return str_pad($hash, $len, "0", STR_PAD_LEFT);
public static function unbase62($key)
$int = 0;
foreach(str_split(strrev($key)) as $i => $char)
$dec = array_search(ord($char), self::$chars62);
$int = bcadd(bcmul($dec, bcpow(62, $i)), $int);
return $int;
public static function unhash($hash)
$len = strlen($hash);
$ceil = bcpow(62, $len);
$mmiprimes = array_values(self::$golden_primes);
$mmi = $mmiprimes[$len];
$num = self::unbase62($hash);
$dec = bcmod(bcmul($num, $mmi), $ceil);
return $dec;
【讨论】:
这个设计很聪明 =D Golden primes = world.rock() 我知道我正在评论一篇较旧的帖子。我想我会提到 KevBurnsJr 代码确实运行良好。但是,我最近刚从 Windows 2003 32 位服务器切换到 Windows 2008 R2 x64 服务器,我发现我正在复制唯一的哈希。我现在必须找到另一种创建确认码的方法。 在一些评论者的帮助下,该帖子已更新为使用 bcmath,因此它现在应该是可靠的。有人还找到了一种让它完全可逆的方法。 web.archive.org/web/20130727034425/http://blog.kevburnsjr.com/… 似乎网站已关闭,所以这里是该链接的副本;) 你应该备份你的网站,或者在github.com/KevBurnsJr/pseudocrypt下发布这个的php版本——多么棒的小库!不想使用像 YOURLS 或 PHURL 这样的巨大“系统”,只是一个不错的库来创建短链接,就是这样。谢谢【参考方案3】:URL 缩短服务宁可使用自动递增的整数值(如补充数据库 ID)并使用 Base64 或其他编码对其进行编码,以使每个字符具有更多信息(64 位而不是 10 位类似的数字)。
【讨论】:
这是什么意思(每个字符的更多信息)只是好奇! @ravisoni 如果您使用十进制数字0
–9
来表示一个数字,则每个编码字符有 10 个可能的值(ld(10) ≈ 3.32 位/字符)。但是,如果您使用 Base64 字符表示相同的数字,则每个编码字符有 64 个可能的值(ld(64) = 6 位/字符)。因此,对于 Base64,每个编码字符中存储了更多信息,即。例如,6 位信息而不是 3.32 位。
如果你使用 base64,那么没有什么能阻止脚本说 for($i=0;$iyoururl.com/'.base64_encode($i)); 现在我可以访问您数据库中的每个 URL。【参考方案4】:
最短的哈希是 32 个字符长度,你怎么能使用 md5 哈希的前 8 个字符
echo substr(md5('http://www.google.com'), 0, 8);
更新:这是由Travell Perkins 编写的另一个类here,它采用记录号并为其创建短哈希。 14 位数字产生 8 位字符串。当你达到这个数字时,你会变得比 tinyurl 更受欢迎;)
class BaseIntEncoder
//const $codeset = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
//readable character set excluded (0,O,1,l)
const codeset = "23456789abcdefghijkmnopqrstuvwxyzABCDEFGHIJKLMNPQRSTUVWXYZ";
static function encode($n)
$base = strlen(self::codeset);
$converted = '';
while ($n > 0)
$converted = substr(self::codeset, bcmod($n,$base), 1) . $converted;
$n = self::bcFloor(bcdiv($n, $base));
return $converted ;
static function decode($code)
$base = strlen(self::codeset);
$c = '0';
for ($i = strlen($code); $i; $i--)
$c = bcadd($c,bcmul(strpos(self::codeset, substr($code, (-1 * ( $i - strlen($code) )),1))
,bcpow($base,$i-1)));
return bcmul($c, 1, 0);
static private function bcFloor($x)
return bcmul($x, '1', 0);
static private function bcCeil($x)
$floor = bcFloor($x);
return bcadd($floor, ceil(bcsub($x, $floor)));
static private function bcRound($x)
$floor = bcFloor($x);
return bcadd($floor, round(bcsub($x, $floor)));
这里是如何使用它的示例:
BaseIntEncoder::encode('1122344523');//result:3IcjVE
BaseIntEncoder::decode('3IcjVE');//result:1122344523
【讨论】:
使用 md5 的前 8 个字符,两个 URL 可能有相同的哈希值 是的,可能会发生这样的冲突,但随机字符串的机会很小,大约为 1 到 40 亿,但是如果您想要 100% 唯一的哈希值,您可以将其用作数据库记录的参考使用包含的类。 想提一下const codeset
可以是任意顺序,只是为了混淆++【参考方案5】:
对于简短的hash,url 友好,考虑到不允许可能的重复内容,我们可以使用hash()
,尤其是CRC 或Adler-32 类型,因为它们是正是为此而生的:
循环冗余检查
循环冗余校验 (CRC) 是一种常见的错误检测代码 用于数字网络和存储设备以检测意外 原始数据的变化。进入这些系统的数据块会缩短 根据多项式除法的余数检查附加值 他们的内容。在检索时,重复计算,并且在 如果检查值不匹配,可以采取纠正措施 采取 https://en.wikipedia.org/wiki/Cyclic_redundancy_check
Adler-32 是一种校验和算法 (...),与 相同长度的循环冗余校验,它以可靠性换取 速度(更喜欢后者) https://en.wikipedia.org/wiki/Adler-32
echo hash("crc32", "Content of article...");
// Output fd3e7c6e
echo hash("adler32", "Content of article...");
// Output 55df075f
[Youtube] How do CRCs work?
【讨论】:
【参考方案6】:最佳答案:Smallest Unique "Hash Like" String Given Unique Database ID - PHP Solution, No Third Party Libraries Required.
代码如下:
<?php
/*
THE FOLLOWING CODE WILL PRINT:
A database_id value of 200 maps to 5K
A database_id value of 1 maps to 1
A database_id value of 1987645 maps to 16LOD
*/
$database_id = 200;
$base36value = dec2string($database_id, 36);
echo "A database_id value of $database_id maps to $base36value\n";
$database_id = 1;
$base36value = dec2string($database_id, 36);
echo "A database_id value of $database_id maps to $base36value\n";
$database_id = 1987645;
$base36value = dec2string($database_id, 36);
echo "A database_id value of $database_id maps to $base36value\n";
// HERE'S THE FUNCTION THAT DOES THE HEAVY LIFTING...
function dec2string ($decimal, $base)
// convert a decimal number into a string using $base
//DebugBreak();
global $error;
$string = null;
$base = (int)$base;
if ($base < 2 | $base > 36 | $base == 10)
echo 'BASE must be in the range 2-9 or 11-36';
exit;
// if
// maximum character string is 36 characters
$charset = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ';
// strip off excess characters (anything beyond $base)
$charset = substr($charset, 0, $base);
if (!ereg('(^[0-9]1,50$)', trim($decimal)))
$error['dec_input'] = 'Value must be a positive integer with < 50 digits';
return false;
// if
do
// get remainder after dividing by BASE
$remainder = bcmod($decimal, $base);
$char = substr($charset, $remainder, 1); // get CHAR from array
$string = "$char$string"; // prepend to output
//$decimal = ($decimal - $remainder) / $base;
$decimal = bcdiv(bcsub($decimal, $remainder), $base);
while ($decimal > 0);
return $string;
?>
【讨论】:
【参考方案7】:实际上拥有“随机”哈希的最佳解决方案是生成一个随机哈希列表,将其以唯一的 INDEX 放在 mysql 上(您可以编写一个简单的 UDF 以在 1 秒内插入 100 000 行)。
我认为像这样的结构 ID|HASH|STATUS|URL|VIEWS|......
status 表示此 Hash 是否空闲。
【讨论】:
【参考方案8】:我正在缩短网址。就我而言,我每次使用数据库的“id”创建一个唯一的短 url。
我所做的是,首先 -
在 db 中插入“原始 url”和“创建日期”等数据,将 db 中的“短 url”留空。 然后从那里获取“id”并传入下面的函数。
<?php
function genUniqueCode($id)
$id = $id + 100000000000;
return base_convert($id, 10, 36);
//Get Unique Code using ID
/*
id Below is retrived from Database after Inserting Original URL.
*/
$data['id'] =10;
$uniqueCode = genUniqueCode($data['id']);
// Generating the URL
$protocol = strtolower(substr($_SERVER["SERVER_PROTOCOL"],0,5))=='https'?'https':'http';
echo "<a href='$protocol://$_SERVER['HTTP_HOST']/$uniqueCode'>$protocol://$_SERVER['HTTP_HOST']/$uniqueCode</a>";
?>
然后更新数据库中短网址代码的值。
这里我使用“id”来创建短代码。由于多个条目的 ID 不能相同。它是唯一的,因此唯一代码或 URL 将是唯一的。
【讨论】:
【参考方案9】:我写了某种算法。
这是
-
更易于理解、调整和更改
仅使用您允许的符号(因此可以轻松区分大小写)
也是独一无二的
框不区分大小写
仅适用于正整数(用于 ID)
<?php
class PseudoCrypt1
private static $keychars = 'CZPXD5H2FIWB81KE76JY93V4ORLAMT0QSUNG'; // Dictionary of allowed unique symbols, shuffle it for yourself or remove unwanted chars (don't forget to call testParameters after changing)
private static $divider = 19; // Tune divider for yourself (don't forget to call testParameters after changing)
private static $biasDivider = 14; // Tune bias divider for yourself (don't forget to call testParameters after changing)
private static $noise = 53; // Any positive number
public static function testParameters()
if (strlen(static::$keychars) < static::$divider + static::$biasDivider - 1)
throw new Exception('Check your divider and biasDivider. It must be less than keychars length');
public static function encode(int $i): string
if ($i < 0)
throw new Exception('Expected positive integer');
$keychars = static::$keychars;
$i = $i + static::$noise; // add noise to a number
$bias = $i % static::$biasDivider;
$res = '';
while ($i > 0)
$div = $i % static::$divider;
$i = intdiv($i, static::$divider);
$res .= $keychars[$div + $bias];
// Current version of an algorithm is one of these chars (if in the future you will need to identify a version)
// Remember this chars on migrating to a new algorithm/parameters
$res .= str_shuffle('LPTKEZG')[0];
$res .= $keychars[$bias]; // Encoded bias
return $res;
public static function decode($code)
$keychars = static::$keychars;
$biasC = substr($code, -1);
$bias = strpos($keychars, $biasC);
$code = substr($code, 0, -2);
$code = str_split(strrev($code));
$val = 0;
foreach ($code as $c)
$val *= static::$divider;
$val += strpos($keychars, $c) - $bias;
return $val - static::$noise;
输出
36926 -> 7IWFZX
927331 -> F4WIKP2
9021324 -> AT66R7P1
你可以用这个小测试来测试它(它不包括唯一性测试,但算法是唯一的):
PseudoCrypt1::testParameters();
for ($i = 4000000; $i < 9500000; $i++)
$hash = PseudoCrypt1::encode($i);
echo $i.':'.strlen($hash).':'.$hash.PHP_EOL;
if ($i != PseudoCrypt1::decode($hash))
echo 'FAIL:'.$i.PHP_EOL;
die();
【讨论】:
以上是关于PHP 短哈希,如 URL 缩短网站的主要内容,如果未能解决你的问题,请参考以下文章