Een lijst met URL’s van een site ophalen

Ik implementeer een vervangende site voor een klant, maar ze willen niet dat al hun oude pagina’s eindigen op 404’s. Het was niet mogelijk om de oude URL-structuur te behouden omdat het afschuwelijk was.

Dus ik schrijf een 404-handler die moet zoeken naar een oude pagina die wordt opgevraagd en een permanente omleiding naar de nieuwe pagina moet uitvoeren. Het probleem is dat ik een lijst met alle oude pagina-URL’s nodig heb.

Ik zou dit handmatig kunnen doen, maar ik zou geïnteresseerd zijn als er apps zijn die me een lijst met relatieve (bijv. /page/path, niet http://…/page/path) URL’s kunnen geven gezien de homepage. Als een spin, maar een die niets om de inhoud geeft, behalve om diepere pagina’s te vinden.


Antwoord 1, autoriteit 100%

Het was niet mijn bedoeling om mijn eigen vraag te beantwoorden, maar ik dacht er gewoon aan om een sitemapgenerator te gebruiken. De eerste vond ik dat http://www.xml-sitemaps.comeen mooie tekstuitvoer heeft. Perfect voor mijn behoeften.


Antwoord 2, autoriteit 70%

doe wget -r -l0 www.oldsite.com

Dan zou gewoon find www.oldsite.comzoeken, alle urls onthullen, geloof ik.

U kunt ook die aangepaste niet-gevonden pagina weergeven bij elk 404-verzoek!
D.w.z. als iemand de verkeerde link gebruikte, zou hij de pagina laten weten dat die pagina niet gevonden was, en enkele hints geven over de inhoud van de site.


Antwoord 3, autoriteit 33%

Hier is een lijst met sitemapgeneratoren (waaruit u uiteraard de lijst met URL’s van een site kunt halen): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Websitemap-generatoren

Hier volgen koppelingen naar tools die bestanden genereren of onderhouden in
het XML-sitemaps-formaat, een open standaard gedefinieerd op sitemaps.org en
ondersteund door de zoekmachines zoals Ask, Google, Microsoft Live
Zoeken en Yahoo!. Sitemapbestanden bevatten over het algemeen een verzameling van:
URL’s op een website samen met enkele metagegevens voor deze URL’s. De
volgende tools genereren over het algemeen “web-type” XML-sitemap en URL-lijst
bestanden (sommige ondersteunen mogelijk ook andere formaten).

Let op: Google heeft de functies niet getest of geverifieerd of
beveiliging van de software van derden die op deze site wordt vermeld. Alsjeblieft
stel vragen over de software aan de auteur van de software.
We hopen dat je deze tools leuk vindt!

Server-side programma’s

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux/Windows, 32/64bit, open source)
  • Outil en PHP (Frans, PHP)
  • Perl-sitemapgenerator (Perl)
  • Python-sitemapgenerator (Python)
  • Eenvoudige sitemaps (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • Sitemapgenerator voor OS/2 (REXX-script)
  • XML-sitemapgenerator (PHP) $

CMS en andere plug-ins:

  • ASP.NET – Sitemaps.Net
  • DotClear (Spaans)
  • DotClear (2)
  • Drupal
  • E-commerce-sjablonen (PHP) $
  • E-commercesjablonen (PHP of ASP) $
  • LifeType
  • MediaWiki-sitemapgenerator
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Tekstpatroon
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Downloadbare tools

  • GSiteCrawler (Windows)
  • GWebCrawler & Sitemapmaker (Windows)
  • G-Mapper (Windows)
  • Inspyder-sitemapmaker (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider en sitemapgenerator (Windows/Mac) $
  • Sitemap Pro (Windows) $
  • Sitemapschrijver (Windows) $
  • Sitemap Generator door DevIntelligence (Windows)
  • Sorrowmans-sitemaptools (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visuele SEO Studio (Windows)
  • WebDesignPros-sitemapgenerator (Java Webstart-toepassing)
  • Weblight (Windows/Mac) $
  • WonderWebWare-sitemapgenerator (Windows)

Online generatoren/diensten

  • AuditMyPc.com-sitemapgenerator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Gratis sitemapgenerator
  • Neuroticweb.com sitemapgenerator
  • ROR-sitemapgenerator
  • ScriptSocket-sitemapgenerator
  • SeoUtility-sitemapgenerator (Italiaans)
  • SitemapDoc
  • Sitemapspal
  • SitemapVerzenden
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XML-sitemapgenerator
  • XML-sitemapgenerator

CMS met geïntegreerde sitemapgeneratoren

  • Beton5

Google Nieuws-sitemapgeneratoren De volgende plug-ins staan toe:
uitgevers om Google Nieuws-sitemapbestanden bij te werken, een variant van de
sitemaps.org-protocol dat we beschrijven in ons Helpcentrum. In aanvulling
naar de normale eigenschappen van sitemapbestanden, staan Google Nieuws-sitemaps toe
uitgevers om de soorten inhoud die ze publiceren te beschrijven, samen met:
het specificeren van toegangsniveaus voor individuele artikelen. Meer informatie
over Google Nieuws is te vinden in ons Helpcentrum en Helpforums.

  • WordPress Google Nieuws-plug-in

Codefragmenten/bibliotheken

  • ASP-script
  • Emacs Lisp-script
  • Java-bibliotheek
  • Perl-script
  • PHP-klasse
  • Script voor PHP-generator

Als u van mening bent dat een tool moet worden toegevoegd of verwijderd voor een legitieme
reden, laat dan een reactie achter op het Webmaster Help Forum.


Antwoord 4, autoriteit 9%

Het beste wat ik heb gevonden is http://www.auditmypc.com/xml-sitemap.aspdie Java gebruikt en geen limiet heeft voor pagina’s, en waarmee u zelfs resultaten kunt exporteren als een onbewerkte URL-lijst.

Het maakt ook gebruik van sessies, dus als je een CMS gebruikt, zorg er dan voor dat je uitgelogd bent voordat je de crawl uitvoert.


Antwoord 5, autoriteit 4%

Dus in een ideale wereld zou je een specificatie hebben voor alle pagina’s op je site. Je zou ook een testinfrastructuur hebben die al je pagina’s zou kunnen raken om ze te testen.

Je bevindt je waarschijnlijk niet in een ideale wereld. Waarom doe je dit niet…?

  1. Maak een afbeelding tussen de put
    bekende oude URL’s en de nieuwe.
    Omleiden wanneer u een oude URL ziet.
    Ik zou eventueel overwegen om een te presenteren
    “deze pagina is verplaatst, het is een nieuwe url
    is XXX, je wordt doorgestuurd
    binnenkort”.

  2. Als u geen toewijzing heeft, presenteer dan een
    “sorry – deze pagina is verplaatst. Hier is
    een link naar de homepage” bericht en
    stuur ze door als je wilt.

  3. Log alle omleidingen – vooral de
    die zonder kaart. Voeg na verloop van tijd toe
    toewijzingen voor pagina’s die zijn
    belangrijk.


Antwoord 6, autoriteit 4%

wget uit een linux-box kan ook een goede optie zijn, omdat er schakelaars zijn voor spider en de uitvoer ervan wijzigen.

EDIT: wget is ook beschikbaar op Windows: http://gnuwin32.sourceforge.net/ packages/wget.htm


Antwoord 7

Schrijf een spin die in elke HTML van de schijf luidt en voert elk “HREF” -attribuut uit van een “A” -element (kan met een parser worden uitgevoerd). Houd in gedachten welke koppelingen behoren tot een bepaalde pagina (dit is een veel voorkomende taak voor een multimap-datastreur). Hierna kunt u een toewijzingsbestand produceren die fungeert als de invoer voor de 404-handler.


Antwoord 8

Ik zou op een willekeurige gereedschappen van online sitemap genereren. Persoonlijk gebruik ik deze (op Java gebaseerde) in het verleden, maar als U doet een Google-zoektocht naar “Sitemap Builder”, ik weet zeker dat u veel verschillende opties zult vinden.

Other episodes