如何对网页进行哈希算法?跪求大神回答！

Posted 2023-04-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何对网页进行哈希算法?跪求大神回答！相关的知识，希望对你有一定的参考价值。

参考技术A 网页进行哈希算法!?
大致有以下步骤：对存储对象的关键字进行哈希运算，得到键值。这样就将所有的对象映射到了一个具体的数值范围中。重叠网中的每个节点负责数值范围中的特定段落。例如，节点A负责存储键值从8000到8999的对象；而节点B负责7000~7999的对象。这样就将对象集合分布地存储在所有的节点中。节点可以直接存储对象本身，如文件中的一个片段；也可以存储对象的索引，如该对象所在节点的IP地址。结构化的分布式存储问题解决后，剩下的问题就是用户如何才能找到存储着目标信息的节点。在有着大量节点(如100万个)的P2P系统中，任何节点都不可能拥有全部的节点?键值?内容的对应关系；因此用户获得了键值之后，如何找到该键值对应的节点就被称为DHT的路由问题。DHT协议必须定义优化的查找(路由)算法来完成这一搜寻的工作。不同的DHT协议之间区别很大程度上就在于定义了不同的路由算法。 DHT的应用非常简洁----API简单到只有一项输入和一项输出：应用层将数据对象(文件、数据块或索引)通过哈希算法获得键值，将该键值提交给DHT后，返回结果就是键值所在节点的IP地址。
哈希使用的关键字有2个，一个是代理的标识符(每个代理均有唯一的标识)，另一个是URL本身。存储内容时，每个代理负责缓冲哈希键值最大的URL。这样，当缓冲代理阵列发生少量变化时(新的代理加入或旧的代理退出)，原有的URL还有可能仍然被映射到原来的代理上，仍可以按照原有的方式访问。路由算法客户端(HTTP浏览器)首先加载一个代理配置文件，该文件中存储了代理的标识符和IP地址等用于哈希的关键参数。浏览器在访问网页时，可以根据URL和代理标识获得代理的位置信息(IP地址)，从而可以直接访问缓冲代理中的页面。

如何将html转换成xml，跪求请说明具体算法和用到的工具

参考技术A 我给你些我的建议吧
HTML的语法格式比XML宽松多了，真正XML格式的网页是XHTML，也就是下一代HTML，他的格式和XML差不多，很严谨的。
如果你不想利用某些HTML和XML互转工具，自己编的话，有一定难度。
1.HTML的节点可以没末节点，你需要不停扫描<,>,/,这三个符号以检查是否漏掉末节点，并补充。
2.HTML节点还可以不规则嵌套，你需要对已读入节点进行顺序存储，或用栈的数据结构来存储，并验证其层次正确性，最终正确顺序的节点，期间还得缓存节点值，或属性值。
3.HTML不同于XML，许多HTML节点有特殊的意义，许多HTML节点比如<b>,<hr/>都需要经过特殊处理才行。
在技术上，为保证性能，还要在一下方面有加强。
1.强大的字符串扫描，和解析器，此工作也巨大，但网上源码很多，建议到google英文里搜索，HTML
parser，XML
parser（解析器），有很多c#，java，c++的源代码可以利用，没有强大的解析器，跟本无法读懂文件。
2.System.Xml空间的详细运用，除了简单的XMLWriter，还必须学会XMLDocument，XmlNode，能够动态操控XML。还有Xpath技术，操作XMl很有效率。
3.适当还会运用到正则表达式，来处理字符串匹配问题，尤其是节点的操作，即使是再好的字符串查找算法，有时也不如正则表达式，因此system.Text
中的Regex类要掌握好。
4.会控制WinForm中的WebBrower控件
当然，即使你不打算自己做，或已找到了源代码，要想读懂，也必须要以上的知识。
至于工具，网上有，源码还哪找，有java的，但下载不下来。
这是著名的W3C（Html，xml等技术的创始组织）的转换工具，里面也有一些介绍，相信会有用的。
有一个用C#编的转换器，但付费后才可看到源代码
还有一些软件，stylus的产品不错！

以上是关于如何对网页进行哈希算法?跪求大神回答！的主要内容，如果未能解决你的问题，请参考以下文章

如何对网页进行哈希算法?跪求大神回答！

如何将html转换成xml，跪求 请说明具体算法和用到的工具

如何将html转换成xml，跪求请说明具体算法和用到的工具