如何在 PHP 中使用 xhtml:link 解析 XML?

Posted

技术标签:

【中文标题】如何在 PHP 中使用 xhtml:link 解析 XML?【英文标题】:How to parse an XML with xhtml:link in PHP? 【发布时间】:2019-07-10 00:07:58 【问题描述】:

目标:

导入外部 XML 文件(在本例中,它是内联的) 获取,保存到变量中 找到具有href-lang="fr-ca"属性的 将两者都插入数据库中

我遇到的问题:我什至无法让 php 识别 xhtml:link 是 项的 childNode;即使我只是简单地为 吐出 nodeValue,它也会省略所有

我正在使用/尝试的代码:

<?php
$xml = <<< XML
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xmlns:xhtml="http://www.w3.org/1999/xhtml">
<url xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <loc>https://www.example.com/ca/en/cat/categories/series/07660/</loc>
  <lastmod>2018-11-07</lastmod>
  <changefreq>daily</changefreq>
  <priority>1.0</priority>
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-ae" href="https://www.example.com/ae/en/cat/categories/series/07660/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="de-at" href="https://www.example.com/at/de/cat/07660/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-au" href="https://www.example.com/au/en/cat/categories/series/07660/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-ca" href="https://www.example.com/ca/en/cat/categories/series/07660/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="fr-ca" href="https://www.example.com/ca/fr/cat/categories/series/07660/" />
</url>
<url xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <loc>https://www.example.com/ca/en/cat/categories/series/07683/</loc>
  <lastmod>2018-11-07</lastmod>
  <changefreq>daily</changefreq>
  <priority>1.0</priority>
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-ae" href="https://www.example.com/ae/en/cat/categories/series/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="de-at" href="https://www.example.com/at/de/cat/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-au" href="https://www.example.com/au/en/cat/categories/series/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="fr-be" href="https://www.example.com/be/fr/collections/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="nl-be" href="https://www.example.com/be/nl/collecties/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-bh" href="https://www.example.com/bh/en/cat/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="en-ca" href="https://www.example.com/ca/en/cat/categories/series/07683/" />
  <xhtml:link xmlns:xhtml="http://www.w3.org/1999/xhtml" rel="alternate" hreflang="fr-ca" href="https://www.example.com/ca/fr/cat/categories/series/07683/" />
</url>
</urlset>
XML;

$urlsxml = new DOMDocument;
$urlsxml->loadXML($xml);
$urls = $urlsxml->getElementsByTagName('url');

for ($i = 0; $i < $urls->length; $i++) 

      echo $urls->item($i)->nodeValue;
      echo $urls->getElementsByTagName("xhtml:link")->attributes->getNamedItem("hreflang")->nodeValue;

      // INSERT INTO DB



?>

没有想法;任何帮助将不胜感激。

【问题讨论】:

【参考方案1】:

在您的数据库中插入的实际行为超出了此处代码的范围,但要解析 XML,您可以做一些简单的事情(基于本地保存的 XML 副本,而不是使用 heredoc 语法) ~ 文件名仅供识别。

最初我认为这需要在 XPath 表达式中注册和使用namespace,但事实并非如此 - 每个 url 节点的简单 XPath 查询就足够了 ~ 使用父节点 url 作为查询的引用节点。

$file='so-stack-xml-namespace.xml';


libxml_use_internal_errors( true );
$dom=new DOMDocument;
$dom->validateOnParse=true;
$dom->recover=true;
$dom->strictErrorChecking=true;
$dom->load( $file );
libxml_clear_errors();

$xp=new DOMXPath( $dom );

$urls=$dom->getElementsByTagName('url');
foreach( $urls as $url )
    $href=$url->nodeValue;
    $frca=$xp->query('xhtml:link[@hreflang="fr-ca"]',$url)->item(0)->getAttribute('href');
    /* do something with the variables...add to DB */
    printf('href:%s<br />frca:%s<br /><br />', $href,$frca);

【讨论】:

【参考方案2】:

如果将 XML 文件放入变量中,则可以通过循环提取值:

$xml = file_get_contents("your_xml_file");
$tags = explode("<", $xml);
$loc = "not found";
$frhref = "not found";

foreach ($tags as $tag)
    if(strpos($tag, "loc>") === 0)
        $loc = substr($tag, 4);
    
    if(strpos($tag, "xhtml:link") === 0)
        $at = strpos($tag, "hreflang") + 9;
        $lang = substr($tag, $at, 7);
        if($lang == '"fr-ca"')
            $at = strpos($tag, "href=") + 6;
            $_href = substr($tag, $at);
            $until = strpos($_href, '"');
            $frhref = substr($_href, 0, $until);
        
    

echo $loc, " ", $frhref; //put them in your db

我用你的内容测试了它:https://3v4l.org/1laON

【讨论】:

【参考方案3】:

XML 使用两个命名空间 http://www.sitemaps.org/schemas/sitemap/0.9 没有别名,http://www.w3.org/1999/xhtml 使用别名 xhtml。要使用命名空间读取 XML,您应该使用 DOM 方法的 *NS 变体。

$urls = $urlsxml->getElementsByTagNameNS(
  'http://www.sitemaps.org/schemas/sitemap/0.9', 'url'
);

$urls[$i]->getElementsByTagNameNS('http://www.w3.org/1999/xhtml', 'link');

第一个参数是命名空间 URI,第二个参数是本地名称(带前缀的节点名称)。在这种情况下,最好为命名空间 URI 使用常量/变量。

更舒适的选择是 Xpath。它允许您使用位置路径和条件来获取节点。

$document = new DOMDocument;
$document->loadXML($xml);
// create an xpath instance for the document
$xpath = new DOMXpath($document);
// register the namespaces for your own prefixes
$xpath->registerNameSpace('s', 'http://www.sitemaps.org/schemas/sitemap/0.9');
$xpath->registerNameSpace('x', 'http://www.w3.org/1999/xhtml');

// iterate all sitemap url elements
foreach ($xpath->evaluate('//s:url') as $url) 
  $data = [
    // get the sitemap loc child element as a string
    'loc' => $xpath->evaluate('string(s:loc)', $url),
    // get the href attribute of the xhtml link element (with language condition)
    'fr-ca' => $xpath->evaluate('string(x:link[@hreflang="fr-ca"]/@href)', $url),
  ];
  var_dump($data);

输出:

array(2)  
  ["loc"]=> 
  string(58) "https://www.example.com/ca/en/cat/categories/series/07660/" 
  ["fr-ca"]=> 
  string(58) "https://www.example.com/ca/fr/cat/categories/series/07660/" 
 
array(2)  
  ["loc"]=> 
  string(58) "https://www.example.com/ca/en/cat/categories/series/07683/" 
  ["fr-ca"]=> 
  string(58) "https://www.example.com/ca/fr/cat/categories/series/07683/" 

Xpath 中的string() 将列表中的第一个节点转换为字符串。它允许您避免显式访问节点对象属性。例如$xpath-&gt;evaluate('s:loc', $url)-&gt;item(0)-&gt;textContent; 可以写成$xpath-&gt;evaluate('string(s:loc)', $url);。与属性访问不同,如果不存在匹配的节点,Xpath 转换不会因错误而失败。它将返回一个空字符串。

【讨论】:

史诗。谢谢你。

以上是关于如何在 PHP 中使用 xhtml:link 解析 XML?的主要内容,如果未能解决你的问题,请参考以下文章

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?

您如何在 PHP 中解析和处理 HTML/XML?