lxml etree xmlparser verwijder ongewenste naamruimte

October 7, 2022

Ik heb een XML-document dat ik probeer te ontleden met Etree.lxml

<Envelope xmlns="http://www.example.com/zzz/yyy">
  <Header>
    <Version>1</Version>
  </Header>
  <Body>
    some stuff
  <Body>
<Envelope>

Mijn code is:

path = "path to xml file"
from lxml import etree as ET
parser = ET.XMLParser(ns_clean=True)
dom = ET.parse(path, parser)
dom.getroot()

Als ik dom.getroot() probeer te krijgen, krijg ik:

<Element {http://www.example.com/zzz/yyy}Envelope at 28adacac>

Ik wil echter alleen:

<Element Envelope at 28adacac>

Als ik dat doe

dom.getroot().find("Body")

Ik krijg niets terug. Echter, wanneer ik

dom.getroot().find("{http://www.example.com/zzz/yyy}Body")

Ik krijg een resultaat.

Ik dacht dat het doorgeven van ns_clean=Trouw aan de parser dit zou voorkomen.

Enig idee?

Antwoord 1, autoriteit 100%

import io
import lxml.etree as ET
content='''\
<Envelope xmlns="http://www.example.com/zzz/yyy">
  <Header>
    <Version>1</Version>
  </Header>
  <Body>
    some stuff
  </Body>
</Envelope>
'''    
dom = ET.parse(io.BytesIO(content))

Je kunt naamruimtebewuste nodes vinden met de xpath-methode:

body=dom.xpath('//ns:Body',namespaces={'ns':'http://www.example.com/zzz/yyy'})
print(body)
# [<Element {http://www.example.com/zzz/yyy}Body at 90b2d4c>]

Als u echt naamruimten wilt verwijderen, kunt u een XSL-transformatie gebruiken:

# http://wiki.tei-c.org/index.php/Remove-Namespaces.xsl
xslt='''<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" indent="no"/>
<xsl:template match="/|comment()|processing-instruction()">
    <xsl:copy>
      <xsl:apply-templates/>
    </xsl:copy>
</xsl:template>
<xsl:template match="*">
    <xsl:element name="{local-name()}">
      <xsl:apply-templates select="@*|node()"/>
    </xsl:element>
</xsl:template>
<xsl:template match="@*">
    <xsl:attribute name="{local-name()}">
      <xsl:value-of select="."/>
    </xsl:attribute>
</xsl:template>
</xsl:stylesheet>
'''
xslt_doc=ET.parse(io.BytesIO(xslt))
transform=ET.XSLT(xslt_doc)
dom=transform(dom)

Hier zien we dat de naamruimte is verwijderd:

print(ET.tostring(dom))
# <Envelope>
#   <Header>
#     <Version>1</Version>
#   </Header>
#   <Body>
#     some stuff
#   </Body>
# </Envelope>

Dus je kunt het Body-knooppunt nu op deze manier vinden:

print(dom.find("Body"))
# <Element Body at 8506cd4>

Antwoord 2, autoriteit 58%

Probeer Xpath te gebruiken:

dom.xpath("//*[local-name() = 'Body']")

Genomen (en vereenvoudigd) van deze pagina, onder de sectie “De xpath()-methode”

Antwoord 3, autoriteit 7%

De laatste oplossing van https://bitbucket.org/olauzanne/pyquery/issue/17 kan u helpen om naamruimten met weinig moeite te vermijden

pas xml.replace(' xmlns:', ' xmlnamespace:')toe op uw xml voordat u pyquery gebruikt, zodat lxml naamruimten negeert

Probeer in jouw geval xml.replace(' xmlns="', ' xmlnamespace="'). Het kan echter zijn dat je iets ingewikkelders nodig hebt als de string ook in de lichamen wordt verwacht.

Antwoord 4, autoriteit 2%

Een andere niet al te slechte optie is om de QName-helper te gebruiken en deze in een functie met een standaardnaamruimte in te pakken:

from lxml import etree
DEFAULT_NS = 'http://www.example.com/zzz/yyy'
def tag(name, ns=DEFAULT_NS):
    return etree.QName(ns, name)
dom = etree.parse(path)
body = dom.getroot().find(tag('Body'))

Antwoord 5

Je toont het resultaat van de repr()-aanroep. Wanneer u programmatisch door de boomstructuur beweegt, kunt u er gewoon voor kiezen om de naamruimte te negeren.

Previous articleweb.config ontbreekt bij het maken van ASP.NET Core Web App in VS 2017 RC?

Next articleVermijd automatische punttekens na snelle spatie in Sublime Text 3

lxml etree xmlparser verwijder ongewenste naamruimte

Antwoord 1, autoriteit 100%

Antwoord 2, autoriteit 58%

Antwoord 3, autoriteit 7%

Antwoord 4, autoriteit 2%

Antwoord 5

Other episodes

Verschillen tussen numpy.random.rand en numpy.random.randn in Python

Bewerken van specifieke regel in tekstbestand in Python

Single Sign On (SSO) implementeren met Django

hoe sorteer ik op lengte van string gevolgd door alfabetische volgorde?

LabelEncoder: TypeError: ‘>’ niet ondersteund tussen instanties van ‘float’ en ‘str’

Lxml-module installeren in python

`staticmethod` en `abc.abstractmethod`: gaat het samensmelten?