Ik heb een XPATH om uittreksel gegevens van www.gsmarena.com

Ik ben bezig met een onderzoek over de manier waarop mobiele telefoons zich in de loop jaar, dus ik moet een database met de specificaties van zoveel telefoons mogelijk te maken. Ik ben op zoek naar schroot gegevens van GSM Arena website.

Voorbeeld pagina: http://www.gsmarena.com/samsung_galaxy_note7-8082.php

Ik gebruik XPATH dat de etikettering die voorafgaat elke waarde, bijvoorbeeld // tr [bevat (. “Sensors”)] / td [2]

Maar er zijn sommige waarden, laatste in categorie, zonder voorafgaande label.

Hoe kies ik deze info:

Non-verwisselbare Li-Po 3500 mAh batterij

of dit ino:

Snel opladen van de batterij
Qi draadloos opladen (markt afhankelijk)
ANT + support
S-Voice natuurlijke taal commando’s en dicteren
MP4 / DivX / XviD / WMV / H.265 speler
MP3 / WAV / WMA / eAAC + / FLAC-speler
Foto / video-editor
Document editor

Let wel verschillende telefoons hebben verschillende aantal rijen op pagina, dus het gebruik van [nummer] in XPATH zou anders info kiezen uit

http://www.gsmarena.com/samsung_galaxy_note7-8082.php – noodzaak om de 5e rij van functies plukken

http://www.gsmarena.com/samsung_sgh_600-49.php – noodzaak om de 8e rij van functies plukken


Antwoord 1, Autoriteit 100%

Om rijen te selecteren zonder label in sectie Battery u deze xpath te gebruiken:

//tbody[.//th[contains(.,'Battery')]]//td[@class="ttl" and not(*)]/following-sibling::td

Om-informatie te selecteren uit functies this

//tbody[.//th[contains(.,'Features')]]//td[@class="ttl" and not(*)]/following-sibling::td

Om Camera-functies

te selecteren

//tbody[.//th[contains(.,'Camera')]]//td[@class="ttl" and contains(.,'Features')]/following-sibling::td

Om luidspreker in Geluidscategorie

te selecteren

//tbody[.//th[contains(.,'Sound')]]//td[@class="ttl" and contains(.,'Loudspeaker')]/following-sibling::td

Other episodes