Wat is de beste reguliere expressie om te controleren of een string een geldige URL is?

Hoe kan ik controleren of een gegeven string een geldig URL-adres is?

Mijn kennis van reguliere expressies is basaal en stelt me niet in staat om te kiezen uit de honderden reguliere expressies die ik al op internet heb gezien.


Antwoord 1, autoriteit 100%

Ik heb mijn URL-patroon (eigenlijk IRI, geïnternationaliseerd) geschreven om te voldoen aan RFC 3987 (http:/ /www.faqs.org/rfcs/rfc3987.html). Deze zijn in PCRE-syntaxis.

Voor absolute IRI’s (geïnternationaliseerd):

/^[a-z](?:[-a-z0-9\+\.])*:(?:\/\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:])*@)?(?:\[(?:(?:(?:[0-9a-f]{1,4}:){6}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|::(?:[0-9a-f]{1,4}:){5}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:){4}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,1}[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:){3}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,2}[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:){2}(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,3}[0-9a-f]{1,4})?::[0-9a-f]{1,4}:(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,4}[0-9a-f]{1,4})?::(?:[0-9a-f]{1,4}:[0-9a-f]{1,4}|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3})|(?:(?:[0-9a-f]{1,4}:){0,5}[0-9a-f]{1,4})?::[0-9a-f]{1,4}|(?:(?:[0-9a-f]{1,4}:){0,6}[0-9a-f]{1,4})?::)|v[0-9a-f]+\.[-a-z0-9\._~!\$&'\(\)\*\+,;=:]+)\]|(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(?:\.(?:[0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}|(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=])*)(?::[0-9]*)?(?:\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))*)*|\/(?:(?:(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))+)(?:\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))*)*)?|(?:(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))+)(?:\/(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@]))*)*|(?!(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@])))(?:\?(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@])|[\x{E000}-\x{F8FF}\x{F0000}-\x{FFFFD}\x{100000}-\x{10FFFD}\/\?])*)?(?:\#(?:(?:%[0-9a-f][0-9a-f]|[-a-z0-9\._~\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}!\$&'\(\)\*\+,;=:@])|[\/\?])*)?$/i

Ook relatieve IRI’s toestaan:



Hoe ze zijn samengesteld (in PHP):

<?php
/* Regex convenience functions (character class, non-capturing group) */
function cc($str, $suffix = '', $negate = false) {
  return '[' . ($negate ? '^' : '') . $str . ']' . $suffix;
}
function ncg($str, $suffix = '') {
  return '(?:' . $str . ')' . $suffix;
}
/* Preserved from RFC3986 */
$ALPHA = 'a-z';
$DIGIT = '0-9';
$HEXDIG = $DIGIT . 'a-f';
$sub_delims = '!\\$&\'\\(\\)\\*\\+,;=';
$gen_delims = ':\\/\\?\\#\\[\\]@';
$reserved = $gen_delims . $sub_delims;
$unreserved = '-' . $ALPHA . $DIGIT . '\\._~';
$pct_encoded = '%' . cc($HEXDIG) . cc($HEXDIG);
$dec_octet = ncg(implode('|', array(
  cc($DIGIT),
  cc('1-9') . cc($DIGIT),
  '1' . cc($DIGIT) . cc($DIGIT),
  '2' . cc('0-4') . cc($DIGIT),
  '25' . cc('0-5')
)));
$IPv4address = $dec_octet . ncg('\\.' . $dec_octet, '{3}');
$h16 = cc($HEXDIG, '{1,4}');
$ls32 = ncg($h16 . ':' . $h16 . '|' . $IPv4address);
$IPv6address = ncg(implode('|', array(
  ncg($h16 . ':', '{6}') . $ls32,
  '::' . ncg($h16 . ':', '{5}') . $ls32,
  ncg($h16, '?') . '::' . ncg($h16 . ':', '{4}') . $ls32,
  ncg($h16 . ':' . $h16, '?') . '::' . ncg($h16 . ':', '{3}') . $ls32,
  ncg(ncg($h16 . ':', '{0,2}') . $h16, '?') . '::' . ncg($h16 . ':', '{2}') . $ls32,
  ncg(ncg($h16 . ':', '{0,3}') . $h16, '?') . '::' . $h16 . ':' . $ls32,
  ncg(ncg($h16 . ':', '{0,4}') . $h16, '?') . '::' . $ls32,
  ncg(ncg($h16 . ':', '{0,5}') . $h16, '?') . '::' . $h16,
  ncg(ncg($h16 . ':', '{0,6}') . $h16, '?') . '::',
)));
$IPvFuture = 'v' . cc($HEXDIG, '+') . cc($unreserved . $sub_delims . ':', '+');
$IP_literal = '\\[' . ncg(implode('|', array($IPv6address, $IPvFuture))) . '\\]';
$port = cc($DIGIT, '*');
$scheme = cc($ALPHA) . ncg(cc('-' . $ALPHA . $DIGIT . '\\+\\.'), '*');
/* New or changed in RFC3987 */
$iprivate = '\x{E000}-\x{F8FF}\x{F0000}-\x{FFFFD}\x{100000}-\x{10FFFD}';
$ucschar = '\x{A0}-\x{D7FF}\x{F900}-\x{FDCF}\x{FDF0}-\x{FFEF}' .
  '\x{10000}-\x{1FFFD}\x{20000}-\x{2FFFD}\x{30000}-\x{3FFFD}' .
  '\x{40000}-\x{4FFFD}\x{50000}-\x{5FFFD}\x{60000}-\x{6FFFD}' .
  '\x{70000}-\x{7FFFD}\x{80000}-\x{8FFFD}\x{90000}-\x{9FFFD}' .
  '\x{A0000}-\x{AFFFD}\x{B0000}-\x{BFFFD}\x{C0000}-\x{CFFFD}' .
  '\x{D0000}-\x{DFFFD}\x{E1000}-\x{EFFFD}';
$iunreserved = '-' . $ALPHA . $DIGIT . '\\._~' . $ucschar;
$ipchar = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . ':@'));
$ifragment = ncg($ipchar . '|' . cc('\\/\\?'), '*');
$iquery = ncg($ipchar . '|' . cc($iprivate . '\\/\\?'), '*');
$isegment_nz_nc = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . '@'), '+');
$isegment_nz = ncg($ipchar, '+');
$isegment = ncg($ipchar, '*');
$ipath_empty = '(?!' . $ipchar . ')';
$ipath_rootless = ncg($isegment_nz) . ncg('\\/' . $isegment, '*');
$ipath_noscheme = ncg($isegment_nz_nc) . ncg('\\/' . $isegment, '*');
$ipath_absolute = '\\/' . ncg($ipath_rootless, '?'); // Spec says isegment-nz *( "/" isegment )
$ipath_abempty = ncg('\\/' . $isegment, '*');
$ipath = ncg(implode('|', array(
  $ipath_abempty,
  $ipath_absolute,
  $ipath_noscheme,
  $ipath_rootless,
  $ipath_empty
))) . ')';
$ireg_name = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . '@'), '*');
$ihost = ncg(implode('|', array($IP_literal, $IPv4address, $ireg_name)));
$iuserinfo = ncg($pct_encoded . '|' . cc($iunreserved . $sub_delims . ':'), '*');
$iauthority = ncg($iuserinfo . '@', '?') . $ihost . ncg(':' . $port, '?');
$irelative_part = ncg(implode('|', array(
  '\\/\\/' . $iauthority . $ipath_abempty . '',
  '' . $ipath_absolute . '',
  '' . $ipath_noscheme . '',
  '' . $ipath_empty . ''
)));
$irelative_ref = $irelative_part . ncg('\\?' . $iquery, '?') . ncg('\\#' . $ifragment, '?');
$ihier_part = ncg(implode('|', array(
  '\\/\\/' . $iauthority . $ipath_abempty . '',
  '' . $ipath_absolute . '',
  '' . $ipath_rootless . '',
  '' . $ipath_empty . ''
)));
$absolute_IRI = $scheme . ':' . $ihier_part . ncg('\\?' . $iquery, '?');
$IRI = $scheme . ':' . $ihier_part . ncg('\\?' . $iquery, '?') . ncg('\\#' . $ifragment, '?');
$IRI_reference = ncg($IRI . '|' . $irelative_ref);

EDIT 7 maart 2011: vanwege de manier waarop PHP backslashes in geciteerde snaren handelt, zijn deze standaard onbruikbaar. Je moet een ontsnappingsbackslashes verdubbelen, behalve waar de backslash een speciale betekenis heeft in regex. Je kunt dat op deze manier doen:

$escape_backslash = '/(?<!\\)\\(?![\[\]\\\^\$\.\|\*\+\(\)QEnrtaefvdwsDWSbAZzB1-9GX]|x\{[0-9a-f]{1,4}\}|\c[A-Z]|)/';
$absolute_IRI = preg_replace($escape_backslash, '\\\\', $absolute_IRI);
$IRI = preg_replace($escape_backslash, '\\\\', $IRI);
$IRI_reference = preg_replace($escape_backslash, '\\\\', $IRI_reference);

2, Autoriteit 39%

Ik heb zojuist een blogpost geschreven voor een geweldige oplossing voor het herkennen van URL’s in de meeste gebruikte indelingen zoals:

De gebruikte reguliere expressie is:

/((([A-Za-z]{3,9}:(?:\/\/)?)(?:[-;:&=\+\$,\w]+@)?[A-Za-z0-9.-]+|(?:www.|[-;:&=\+\$,\w]+@)[A-Za-z0-9.-]+)((?:\/[\+~%\/.\w-_]*)?\??(?:[-\+=&;%@.\w_]*)#?(?:[\w]*))?)/

3, Autoriteit 19%

welk platform? Als u .NET gebruikt, gebruik dan System.Uri.TryCreate, geen regex.

Bijvoorbeeld:

static bool IsValidUrl(string urlString)
{
  Uri uri;
  return Uri.TryCreate(urlString, UriKind.Absolute, out uri)
    && (uri.Scheme == Uri.UriSchemeHttp
     || uri.Scheme == Uri.UriSchemeHttps
     || uri.Scheme == Uri.UriSchemeFtp
     || uri.Scheme == Uri.UriSchemeMailto
      /*...*/);
}
// In test fixture...
[Test]
void IsValidUrl_Test()
{
  Assert.True(IsValidUrl("https://www.example.com"));
  Assert.False(IsValidUrl("javascript:alert('xss')"));
  Assert.False(IsValidUrl(""));
  Assert.False(IsValidUrl(null));
}

(dankzij @yoshi voor de tip over javascript:)


4, Autoriteit 15%

Hier is wat Regexbuddy gebruikt.

(\b(https?|ftp|file)://)?[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]

Het komt overeen met deze hieronder (in de ** **markeringen):

**http://www.regexbuddy.com** 
**http://www.regexbuddy.com/** 
**http://www.regexbuddy.com/index.html** 
**http://www.regexbuddy.com/index.html?source=library** 

U kunt Regexbuddy downloaden op http://www.regexbuddy.com/download.html .


5, Autoriteit 12%

Mathias Bynens heeft een geweldig artikel over de beste vergelijking van veel reguliere expressies: op zoek naar de perfecte URL-validatie Regex

De beste die wordt geplaatst is een beetje lang, maar het komt overeen met alles wat u eraan kunt gooien.

JavaScript-versie

/^(?:(?:https?|ftp):\/\/)(?:\S+(?::\S*)?@)?(?:(?!(?:10|127)(?:\.\d{1,3}){3})(?!(?:169\.254|192\.168)(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\u00a1-\uffff0-9]-*)*[a-z\u00a1-\uffff0-9]+)(?:\.(?:[a-z\u00a1-\uffff0-9]-*)*[a-z\u00a1-\uffff0-9]+)*(?:\.(?:[a-z\u00a1-\uffff]{2,}))\.?)(?::\d{2,5})?(?:[/?#]\S*)?$/i

PHP-versie

_^(?:(?:https?|ftp)://)(?:\S+(?::\S*)?@)?(?:(?!(?:10|127)(?:\.\d{1,3}){3})(?!(?:169\.254|192\.168)(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\x{00a1}-\x{ffff}0-9]-*)*[a-z\x{00a1}-\x{ffff}0-9]+)(?:\.(?:[a-z\x{00a1}-\x{ffff}0-9]-*)*[a-z\x{00a1}-\x{ffff}0-9]+)*(?:\.(?:[a-z\x{00a1}-\x{ffff}]{2,}))\.?)(?::\d{2,5})?(?:[/?#]\S*)?$_iuS

Antwoord 6, autoriteit 11%

Met betrekking tot eyelidness‘ antwoordbericht dat luidt: “Dit is gebaseerd op mijn lezing van de URI-specificatie.”: Bedankt Eyelidness, de jouwe is de perfecte oplossing die ik zocht, omdat het gebaseerd is op de URI-specificatie! Schitterend werk. 🙂

Ik moest twee amendementen indienen. De eerste die ervoor zorgt dat de regexp correct overeenkomt met IP-adres-URL’s in PHP (v5.2.10) met de functie preg_match().

Ik moest nog een set haakjes toevoegen aan de regel boven “IP-adres” rond de buizen:

)|((\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])\.){3}(?#

Ik weet niet zeker waarom.

Ik heb ook de minimale lengte van het domein op het hoogste niveau teruggebracht van 3 naar 2 letters om .co.uk en dergelijke te ondersteunen.

Definitieve code:

/^(https?|ftp):\/\/(?#                   protocol
)(([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+(?#     username
)(:([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+)?(?#   password
)@)?(?#                           auth requires @
)((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*(?#       domain segments AND
)[a-z][a-z0-9-]*[a-z0-9](?#                 top level domain OR
)|((\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])\.){3}(?#
  )(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])(?#       IP address
))(:\d+)?(?#                        port
))(((\/+([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)*(?# path
)(\?([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)(?#   query string
)?)?)?(?#                          path and query string optional
)(#([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)?(?#   fragment
)$/i

Deze aangepaste versie is niet gecontroleerd aan de hand van de URI-specificatie, dus ik kan niet instaan ​​voor de naleving ervan. Hij is gewijzigd om URL’s in lokale netwerkomgevingen en tweecijferige TLD’s en andere soorten web-URL’s te verwerken, en om beter te werken in de PHP-setup die ik gebruik.

Als PHP-code:

define('URL_FORMAT', 
'/^(https?):\/\/'.                     // protocol
'(([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+'.     // username
'(:([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+)?'.   // password
'@)?(?#'.                         // auth requires @
')((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*'.           // domain segments AND
'[a-z][a-z0-9-]*[a-z0-9]'.                 // top level domain OR
'|((\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])\.){3}'.
'(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])'.         // IP address
')(:\d+)?'.                        // port
')(((\/+([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)*'. // path
'(\?([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)'.   // query string
'?)?)?'.                          // path and query string optional
'(#([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)?'.   // fragment
'$/i');

Hier is een testprogramma in PHP dat verschillende URL’s valideert met behulp van de regex:

<?php
define('URL_FORMAT',
'/^(https?):\/\/'.                     // protocol
'(([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+'.     // username
'(:([a-z0-9$_\.\+!\*\'\(\),;\?&=-]|%[0-9a-f]{2})+)?'.   // password
'@)?(?#'.                         // auth requires @
')((([a-z0-9]\.|[a-z0-9][a-z0-9-]*[a-z0-9]\.)*'.           // domain segments AND
'[a-z][a-z0-9-]*[a-z0-9]'.                 // top level domain OR
'|((\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])\.){3}'.
'(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-5])'.         // IP address
')(:\d+)?'.                        // port
')(((\/+([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)*'. // path
'(\?([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)'.   // query string
'?)?)?'.                          // path and query string optional
'(#([a-z0-9$_\.\+!\*\'\(\),;:@&=-]|%[0-9a-f]{2})*)?'.   // fragment
'$/i');
/**
 * Verify the syntax of the given URL. 
 * 
 * @access public
 * @param $url The URL to verify.
 * @return boolean
 */
function is_valid_url($url) {
 if (str_starts_with(strtolower($url), 'http://localhost')) {
  return true;
 }
 return preg_match(URL_FORMAT, $url);
}
/**
 * String starts with something
 * 
 * This function will return true only if input string starts with
 * niddle
 * 
 * @param string $string Input string
 * @param string $niddle Needle string
 * @return boolean
 */
function str_starts_with($string, $niddle) {
   return substr($string, 0, strlen($niddle)) == $niddle;
}
/**
 * Test a URL for validity and count results.
 * @param url url
 * @param expected expected result (true or false)
 */
$numtests = 0;
$passed = 0;
function test_url($url, $expected) {
 global $numtests, $passed;
 $numtests++;
 $valid = is_valid_url($url);
 echo "URL Valid?: " . ($valid?"yes":"no") . " for URL: $url. Expected: ".($expected?"yes":"no").". ";
 if($valid == $expected) {
  echo "PASS\n"; $passed++;
 } else {
  echo "FAIL\n";
 }
}
echo "URL Tests:\n\n";
test_url("https://localserver/projects/public/assets/javascript/widgets/UserBoxMenu/widget.css", true);
test_url("https://www.google.com", true);
test_url("https://www.google.co.uk/projects/my%20folder/test.php", true);
test_url("https://myserver.localdomain", true);
test_url("https://192.168.1.120/projects/index.php", true);
test_url("https://192.168.1.1/projects/index.php", true);
test_url("https://projectpier-server.localdomain/projects/public/assets/javascript/widgets/UserBoxMenu/widget.css", true);
test_url("https://2.4.168.19/project-pier?c=test&a=b", true);
test_url("https://localhost/a/b/c/test.php?c=controller&arg1=20&arg2=20", true);
test_url("https://user:[email protected]/a/b/c/test.php?c=controller&arg1=20&arg2=20", true);
echo "\n$passed out of $numtests tests passed.\n\n";
?>

Nogmaals bedankt aan ooglidness voor de regex!


7, Autoriteit 8%

De post Delen van een URL (Regex) bespreekt het parseren van een URL om zijn verschillende componenten te identificeren. Als u wilt controleren of een URL goed is gevormd, moet dit voldoende zijn voor uw behoeften.

Als u moet controleren of het daadwerkelijk geldig is, moet u uiteindelijk proberen toegang te krijgen tot wat er ook aan de andere kant is.

In het algemeen, hoewel u waarschijnlijk beter af bent met behulp van een functie die aan u wordt toegevoerd door uw kader of een andere bibliotheek. Veel platforms omvatten functies die URL’s parseren. Er zijn bijvoorbeeld Python’s urlparse module, en in .NET U kunt Gebruik de systeem.uri class’s constructor als middel om de URL te valideren .


8, Autoriteit 6%

Dit is mogelijk geen taak voor regexes, maar voor bestaande tools in uw taal van de keuze. U wilt waarschijnlijk bestaande code gebruiken die al is geschreven, getest en gedebuggeerd.

Gebruik in PHP de parse_urlfunctie.

PERL: URIMODULE .

Ruby: URI-module.

.NET: ‘Uri’-klasse

Regexen zijn geen toverstaf waarmee je zwaait bij elk probleem dat toevallig met snaren te maken heeft.


Antwoord 9, autoriteit 5%

Dit komt overeen met alle URL’s

 • met of zonder http/https
 • met of zonder www

…inclusief subdomeinen en die nieuwe extensies voor domeinnamen op het hoogste niveau, zoals
.museum,
.academie,
.stichting
enz. die maximaal 63 tekens kunnen bevatten (niet alleen .com, .net, .infoenz.)

(([\w]+:)?//)?(([\d\w]|%[a-fA-f\d]{2,2})+(:([\d\w]|%[a-fA-f\d]{2,2})+)?@)?([\d\w][-\d\w]{0,253}[\d\w]\.)+[\w]{2,63}(:[\d]+)?(/([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)*(\?(&?([-+_~.\d\w]|%[a-fA-f\d]{2,2})=?)*)?(#([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)?

Omdat vandaag de maximale lengte van de beschikbare top-level domeinnaamextensie 13 tekens is, zoals .internationaal, kunt u het getal 63 in expressie wijzigen in 13 om te voorkomen dat iemand het misbruikt.

als javascript

var urlreg=/(([\w]+:)?\/\/)?(([\d\w]|%[a-fA-f\d]{2,2})+(:([\d\w]|%[a-fA-f\d]{2,2})+)?@)?([\d\w][-\d\w]{0,253}[\d\w]\.)+[\w]{2,63}(:[\d]+)?(\/([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)*(\?(&?([-+_~.\d\w]|%[a-fA-f\d]{2,2})=?)*)?(#([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)?/;
$('textarea').on('input',function(){
 var url = $(this).val();
 $(this).toggleClass('invalid', urlreg.test(url) == false)
});
$('textarea').trigger('input');
textarea{color:green;}
.invalid{color:red;}
<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<textarea>http://www.google.com</textarea>
<textarea>http//www.google.com</textarea>
<textarea>googlecom</textarea>
<textarea>https://www.google.com</textarea>

Snippet uitvouwen


Antwoord 10, autoriteit 4%

Niet-validerende URI-referentie-parser

Voor referentiedoeleinden is hier de IETF-specificatie: (TXT| HTML). Met name Bijlage B. Het ontledenvan een URI-referentie met een reguliere expressielaat zien hoe u een geldige regexkunt ontleden. Dit wordt beschreven als,

voor een voorbeeld van een niet-validerende URI-referentie-parser die een gegeven tekenreeks zal nemen en de URI-componenten zal extraheren.

Dit is de regex die ze leveren:

^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?

Zoals iemand anders al zei, is het waarschijnlijk het beste om dit over te laten aan een lib/framework dat je al gebruikt.


Antwoord 11, autoriteit 3%

De beste reguliere expressie voor URL voor mij zou zijn:

"(([\w]+:)?//)?(([\d\w]|%[a-fA-F\d]{2,2})+(:([\d\w]|%[a-fA-f\d]{2,2})+)?@)?([\d\w][-\d\w]{0,253}[\d\w]\.)+[\w]{2,4}(:[\d]+)?(/([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)*(\?(&?([-+_~.\d\w]|%[a-fA-f\d]{2,2})=?)*)?(#([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)?"

Antwoord 12, autoriteit 2%

Hier is een goede regel die alle mogelijke gevallen dekt: poorten, parameters en enz.

/(https?:\/\/(?:[a-z0-9](?:[a-z0-9-]{0,61}[a-z0-9])?\.)+[a-z0-9][a-z0-9-]{0,61}[a-z0-9])(:?\d*)\/?([a-z_\/0-9\-#.]*)\??([a-z_\/0-9\-#=&]*)/g

Antwoord 13, autoriteit 2%

    function validateURL(textval) {
      var urlregex = new RegExp(
      "^(http|https|ftp)\://([a-zA-Z0-9\.\-]+(\:[a-zA-Z0-9\.&amp;%\$\-]+)*@)*((25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9])\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0)\.(25[0-5]|2[0-4][0-9]|[0-1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])|localhost|([a-zA-Z0-9\-]+\.)*[a-zA-Z0-9\-]+\.(com|edu|gov|int|mil|net|org|biz|arpa|info|name|pro|aero|coop|museum|[a-zA-Z]{2}))(\:[0-9]+)*(/($|[a-zA-Z0-9\.\,\?\'\\\+&amp;%\$#\=~_\-]+))*$");
      return urlregex.test(textval);
    }

Wedstrijden
http://site.com/dir/file.php?var=moo| ftp://user:[email protected]:21/file/dir

Niet-overeenkomsten
site.com | http://site.com/dir//


Antwoord 14, autoriteit 2%

Ik kon de regex die ik zocht niet vinden, dus ik heb een regex aangepast om aan mijn vereisten te voldoen, en blijkbaar lijkt het nu goed te werken. Mijn vereisten waren:

Hier is wat ik heb bedacht, elke suggestie wordt op prijs gesteld:

@Test
  public void testWebsiteUrl(){
    String regularExpression = "((http|ftp|https):\\/\\/)?[\\w\\-_]+(\\.[\\w\\-_]+)+([\\w\\-\\.,@?^=%&amp;:/~\\+#]*[\\w\\-\\@?^=%&amp;/~\\+#])?";
    assertTrue("www.google.com".matches(regularExpression));
    assertTrue("www.google.co.uk".matches(regularExpression));
    assertTrue("http://www.google.com".matches(regularExpression));
    assertTrue("http://www.google.co.uk".matches(regularExpression));
    assertTrue("https://www.google.com".matches(regularExpression));
    assertTrue("https://www.google.co.uk".matches(regularExpression));
    assertTrue("google.com".matches(regularExpression));
    assertTrue("google.co.uk".matches(regularExpression));
    assertTrue("google.mu".matches(regularExpression));
    assertTrue("mes.intnet.mu".matches(regularExpression));
    assertTrue("cse.uom.ac.mu".matches(regularExpression));
    assertTrue("http://www.google.com/path".matches(regularExpression));
    assertTrue("http://subdomain.web-site.com/cgi-bin/perl.cgi?key1=value1&key2=value2e".matches(regularExpression));
    assertTrue("http://www.google.com/?queryparam=123".matches(regularExpression));
    assertTrue("http://www.google.com/path?queryparam=123".matches(regularExpression));
    assertFalse("www..dr.google".matches(regularExpression));
    assertFalse("www:google.com".matches(regularExpression));
    assertFalse("https://[email protected]".matches(regularExpression));
    assertFalse("https://www.google.com\"".matches(regularExpression));
    assertFalse("https://www.google.com'".matches(regularExpression));
    assertFalse("http://www.google.com/path'".matches(regularExpression));
    assertFalse("http://subdomain.web-site.com/cgi-bin/perl.cgi?key1=value1&key2=value2e'".matches(regularExpression));
    assertFalse("http://www.google.com/?queryparam=123'".matches(regularExpression));
    assertFalse("http://www.google.com/path?queryparam=12'3".matches(regularExpression));
  }

Antwoord 15, autoriteit 2%

^(http:\/\/www\.|https:\/\/www\.|http:\/\/|https:\/\/)?[a-z0-9]+([\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(:[0-9]{1,5})?(\/.*)?$

live demo: https://regex101.com/r/HUNasA/2

Ik heb verschillende uitdrukkingen getest om aan mijn vereisten te voldoen.

Als gebruiker kan ik de zoekbalk van de browser raken met de volgende strings:

geldige URL’s

ongeldige URL’s


Antwoord 16, autoriteit 2%

function validateURL(textval) {
      var urlregex = new RegExp(
      "^(http|https|ftp)\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(:[a-zA-Z0-9]*)?/?([a-zA-Z0-9\-\._\?\,\'/\\\+&amp;%\$#\=~])*$");
      return urlregex.test(textval);
    }

Wedstrijden
http://www.asdah.com/~joe| ftp://ftp.asdah.co.uk:2828/asdah%20asdah.gif| https://asdah.gov/asdh-ah.as


Antwoord 17, autoriteit 2%

Als je echt zoekt naar de ultiemematch, vind je die waarschijnlijk op “Een goede reguliere expressie voor URL’s?“.

Maar een regex die echt overeenkomt met alle mogelijke domeinen en alles toestaat wat volgens RFC’s is toegestaan, is verschrikkelijk lang en onleesbaar, geloof me 😉


Antwoord 18, autoriteit 2%

Ik heb een kleine groovy versie geschreven die je kunt gebruiken

het komt overeen met de volgende URL’s (wat goed genoeg is voor mij)

public static void main(args) {
  String url = "go to http://www.m.abut.ly/abc its awesome"
  url = url.replaceAll(/https?:\/\/w{0,3}\w*?\.(\w*?\.)?\w{2,3}\S*|www\.(\w*?\.)?\w*?\.\w{2,3}\S*|(\w*?\.)?\w*?\.\w{2,3}[\/\?]\S*/ , { it ->
    "woof${it}woof"
  })
  println url 
}
http://google.com
http://google.com/help.php
http://google.com/help.php?a=5
http://www.google.com
http://www.google.com/help.php
http://www.google.com?a=5
google.com?a=5
google.com/help.php
google.com/help.php?a=5
http://www.m.google.com/help.php?a=5 (and all its permutations)
www.m.google.com/help.php?a=5 (and all its permutations)
m.google.com/help.php?a=5 (and all its permutations)

Het belangrijkste voor URL’s die niet beginnen met httpof wwwis dat ze een /of ?

Ik wed dat dit iets meer kan worden aangepast, maar het doet het werk best aardig omdat het zo kort en compact is… omdat je het zo’n beetje in 3 kunt splitsen:

vind iets dat begint met http:

https?:\/\/w{0,3}\w*?\.\w{2,3}\S*

vind iets dat begint met www:

www\.\w*?\.\w{2,3}\S*

of iets vinden dat een tekst moet hebben, dan een punt, dan minimaal 2 letters en dan een ?of /:

\w*?\.\w{2,3}[\/\?]\S*

Antwoord 19

Ik heb gewerkt aan een diepgaand artikel over URI-validatie met behulp van reguliere expressies. Het is gebaseerd op RFC3986.

Regelmatige expressie URI-validatie

Hoewel het artikel nog niet compleet is, heb ik een PHP-functie bedacht die behoorlijk goed werk levert bij het valideren van HTTP- en FTP-URL’s. Hier is de huidige versie:

// function url_valid($url) { Rev:20110423_2000
//
// Return associative array of valid URI components, or FALSE if $url is not
// RFC-3986 compliant. If the passed URL begins with: "www." or "ftp.", then
// "http://" or "ftp://" is prepended and the corrected full-url is stored in
// the return array with a key name "url". This value should be used by the caller.
//
// Return value: FALSE if $url is not valid, otherwise array of URI components:
// e.g.
// Given: "http://www.jmrware.com:80/articles?height=10&width=75#fragone"
// Array(
//  [scheme] => http
//  [authority] => www.jmrware.com:80
//  [userinfo] =>
//  [host] => www.jmrware.com
//  [IP_literal] =>
//  [IPV6address] =>
//  [ls32] =>
//  [IPvFuture] =>
//  [IPv4address] =>
//  [regname] => www.jmrware.com
//  [port] => 80
//  [path_abempty] => /articles
//  [query] => height=10&width=75
//  [fragment] => fragone
//  [url] => http://www.jmrware.com:80/articles?height=10&width=75#fragone
// )
function url_valid($url) {
  if (strpos($url, 'www.') === 0) $url = 'http://'. $url;
  if (strpos($url, 'ftp.') === 0) $url = 'ftp://'. $url;
  if (!preg_match('/# Valid absolute URI having a non-empty, valid DNS host.
    ^
    (?P<scheme>[A-Za-z][A-Za-z0-9+\-.]*):\/\/
    (?P<authority>
     (?:(?P<userinfo>(?:[A-Za-z0-9\-._~!$&\'()*+,;=:]|%[0-9A-Fa-f]{2})*)@)?
     (?P<host>
      (?P<IP_literal>
       \[
       (?:
        (?P<IPV6address>
         (?:                        (?:[0-9A-Fa-f]{1,4}:){6}
         |                        ::(?:[0-9A-Fa-f]{1,4}:){5}
         | (?:             [0-9A-Fa-f]{1,4})?::(?:[0-9A-Fa-f]{1,4}:){4}
         | (?:(?:[0-9A-Fa-f]{1,4}:){0,1}[0-9A-Fa-f]{1,4})?::(?:[0-9A-Fa-f]{1,4}:){3}
         | (?:(?:[0-9A-Fa-f]{1,4}:){0,2}[0-9A-Fa-f]{1,4})?::(?:[0-9A-Fa-f]{1,4}:){2}
         | (?:(?:[0-9A-Fa-f]{1,4}:){0,3}[0-9A-Fa-f]{1,4})?::  [0-9A-Fa-f]{1,4}:
         | (?:(?:[0-9A-Fa-f]{1,4}:){0,4}[0-9A-Fa-f]{1,4})?::
         )
         (?P<ls32>[0-9A-Fa-f]{1,4}:[0-9A-Fa-f]{1,4}
         | (?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}
            (?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)
         )
        |  (?:(?:[0-9A-Fa-f]{1,4}:){0,5}[0-9A-Fa-f]{1,4})?::  [0-9A-Fa-f]{1,4}
        |  (?:(?:[0-9A-Fa-f]{1,4}:){0,6}[0-9A-Fa-f]{1,4})?::
        )
       | (?P<IPvFuture>[Vv][0-9A-Fa-f]+\.[A-Za-z0-9\-._~!$&\'()*+,;=:]+)
       )
       \]
      )
     | (?P<IPv4address>(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}
                (?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))
     | (?P<regname>(?:[A-Za-z0-9\-._~!$&\'()*+,;=]|%[0-9A-Fa-f]{2})+)
     )
     (?::(?P<port>[0-9]*))?
    )
    (?P<path_abempty>(?:\/(?:[A-Za-z0-9\-._~!$&\'()*+,;=:@]|%[0-9A-Fa-f]{2})*)*)
    (?:\?(?P<query>    (?:[A-Za-z0-9\-._~!$&\'()*+,;=:@\\/?]|%[0-9A-Fa-f]{2})*))?
    (?:\#(?P<fragment>  (?:[A-Za-z0-9\-._~!$&\'()*+,;=:@\\/?]|%[0-9A-Fa-f]{2})*))?
    $
    /mx', $url, $m)) return FALSE;
  switch ($m['scheme']) {
  case 'https':
  case 'http':
    if ($m['userinfo']) return FALSE; // HTTP scheme does not allow userinfo.
    break;
  case 'ftps':
  case 'ftp':
    break;
  default:
    return FALSE;  // Unrecognized URI scheme. Default to FALSE.
  }
  // Validate host name conforms to DNS "dot-separated-parts".
  if ($m['regname']) { // If host regname specified, check for DNS conformance.
    if (!preg_match('/# HTTP DNS host name.
      ^           # Anchor to beginning of string.
      (?!.{256})       # Overall host length is less than 256 chars.
      (?:          # Group dot separated host part alternatives.
       [A-Za-z0-9]\.    # Either a single alphanum followed by dot
      |           # or... part has more than one char (63 chars max).
       [A-Za-z0-9]     # Part first char is alphanum (no dash).
       [A-Za-z0-9\-]{0,61} # Internal chars are alphanum plus dash.
       [A-Za-z0-9]     # Part last char is alphanum (no dash).
       \.          # Each part followed by literal dot.
      )*           # Zero or more parts before top level domain.
      (?:          # Explicitly specify top level domains.
       com|edu|gov|int|mil|net|org|biz|
       info|name|pro|aero|coop|museum|
       asia|cat|jobs|mobi|tel|travel|
       [A-Za-z]{2})     # Country codes are exactly two alpha chars.
       \.?         # Top level domain can end in a dot.
      $           # Anchor to end of string.
      /ix', $m['host'])) return FALSE;
  }
  $m['url'] = $url;
  for ($i = 0; isset($m[$i]); ++$i) unset($m[$i]);
  return $m; // return TRUE == array of useful named $matches plus the valid $url.
}

Deze functie gebruikt twee regexes; een om overeen te komen met een subset van geldige generieke URI’s (absoluut met een niet-lege host), en een tweede om de DNS-hostnaam met “dot-separated-parts” te valideren. Hoewel deze functie momenteel alleen HTTP- en FTP-schema’s valideert, is het zo gestructureerd dat het gemakkelijk kan worden uitgebreid om andere schema’s te verwerken.


Antwoord 20

Ik gebruik deze regex:

((https?:)?//)?(([\d\w]|%[a-fA-f\d]{2,2})+(:([\d\w]|%[a-fA-f\d]{2,2})+)?@)?([\d\w][-\d\w]{0,253}[\d\w]\.)+[\w]{2,63}(:[\d]+)?(/([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)*(\?(&?([-+_~.\d\w]|%[a-fA-f\d]{2,2})=?)*)?(#([-+_~.\d\w]|%[a-fA-f\d]{2,2})*)?

Om beide te ondersteunen:

http://stackoverflow.com
https://stackoverflow.com

En:

//stackoverflow.com

Antwoord 21

Hier is een kant-en-klare Java-versie van de Android-broncode. Dit is de beste die ik heb gevonden.

public static final Matcher WEB = Pattern.compile(new StringBuilder()         
.append("((?:(http|https|Http|Https|rtsp|Rtsp):")           
.append("\\/\\/(?:(?:[a-zA-Z0-9\\$\\-\\_\\.\\+\\!\\*\\'\\(\\)")             
.append("\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,64}(?:\\:(?:[a-zA-Z0-9\\$\\-\\_")             
.append("\\.\\+\\!\\*\\'\\(\\)\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,25})?\\@)?)?")             
.append("((?:(?:[a-zA-Z0-9][a-zA-Z0-9\\-]{0,64}\\.)+")  // named host              
.append("(?:")  // plus top level domain             
.append("(?:aero|arpa|asia|a[cdefgilmnoqrstuwxz])")             
.append("|(?:biz|b[abdefghijmnorstvwyz])")             
.append("|(?:cat|com|coop|c[acdfghiklmnoruvxyz])")             
.append("|d[ejkmoz]")             
.append("|(?:edu|e[cegrstu])")             
.append("|f[ijkmor]")             
.append("|(?:gov|g[abdefghilmnpqrstuwy])")             
.append("|h[kmnrtu]")             
.append("|(?:info|int|i[delmnoqrst])")             
.append("|(?:jobs|j[emop])")             
.append("|k[eghimnrwyz]")             
.append("|l[abcikrstuvy]")             
.append("|(?:mil|mobi|museum|m[acdghklmnopqrstuvwxyz])")             
.append("|(?:name|net|n[acefgilopruz])")             
.append("|(?:org|om)")             
.append("|(?:pro|p[aefghklmnrstwy])")             
.append("|qa")             
.append("|r[eouw]")             
.append("|s[abcdeghijklmnortuvyz]")             
.append("|(?:tel|travel|t[cdfghjklmnoprtvwz])")             
.append("|u[agkmsyz]")             
.append("|v[aceginu]")             
.append("|w[fs]")             
.append("|y[etu]")             
.append("|z[amw]))")             
.append("|(?:(?:25[0-5]|2[0-4]") // or ip address                         
.append("[0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9])\\.(?:25[0-5]|2[0-4][0-9]")               
.append("|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(?:25[0-5]|2[0-4][0-9]|[0-1]")             
.append("[0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(?:25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}")             
.append("|[1-9][0-9]|[0-9])))")             
.append("(?:\\:\\d{1,5})?)") // plus option port number               
.append("(\\/(?:(?:[a-zA-Z0-9\\;\\/\\?\\:\\@\\&\\=\\#\\~") // plus option query params             
.append("\\-\\.\\+\\!\\*\\'\\(\\)\\,\\_])|(?:\\%[a-fA-F0-9]{2}))*)?")             
.append("(?:\\b|$)").toString()         
).matcher("");

Antwoord 22

Voor Python is dit de daadwerkelijke URL-validerende regex die wordt gebruikt in Django 1.5.1:

import re
regex = re.compile(
    r'^(?:http|ftp)s?://' # http:// or https://
    r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' # domain...
    r'localhost|' # localhost...
    r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}|' # ...or ipv4
    r'\[?[A-F0-9]*:[A-F0-9:]+\]?)' # ...or ipv6
    r'(?::\d+)?' # optional port
    r'(?:/?|[/?]\S+)$', re.IGNORECASE)

Dit doet zowel ipv4- en ipv6-adressen als poorten en GET-parameters.

Gevonden in de code hier, regel 44 .


Antwoord 23

Deze werkt voor mij heel goed. (https?|ftp)://(www\d?|[a-zA-Z0-9]+)?\.[a-zA-Z0-9-]+(\:|\.)([a-zA-Z0-9.]+|(\d+)?)([/?:].*)?


Antwoord 24

Ik hoop dat het nuttig voor je is…

^(http|https):\/\/+[\www\d]+\.[\w]+(\/[\w\d]+)?

25

Voor het gemak is hier een one-liner regexp voor URL’s die ook overeenkomen met localhost waar u meer kans hebt om havens te hebben dan .comof vergelijkbaar.

(http(s)?:\/\/.)?(www\.)?[-a-zA-Z0-9@:%._\+~#=]{2,256}(\.[a-z]{2,6}|:[0-9]{3,4})\b([-a-zA-Z0-9@:%_\+.~#?&\/\/=]*)

26

Ik vond de volgende regex voor URL’s, succesvol getest met 500+ URL’s :

/\b(?:(?:https?|ftp):\/\/)(?:\S+(?::\S*)?@)?(?:(?!10(?:\.\d{1,3}){3})(?!127(?:\.\d{1,3}){3})(?!169\.254(?:\.\d{1,3}){2})(?!192\.168(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\x{00a1}-\x{ffff}0-9]+-?)*[a-z\x{00a1}-\x{ffff}0-9]+)(?:\.(?:[a-z\x{00a1}-\x{ffff}0-9]+-?)*[a-z\x{00a1}-\x{ffff}0-9]+)*(?:\.(?:[a-z\x{00a1}-\x{ffff}]{2,})))(?::\d{2,5})?(?:\/[^\s]*)?\b/gi

Ik weet dat het er lelijk uitziet, maar het goede is dat het werkt. 🙂

Uitleg en demo met 581 willekeurige URL’s op regex101.

Bron: op zoek naar de perfecte URL-validatie Regex


27

Als u overeenkomt met een URL zijn er verschillende optie en is afhankelijk van uw vereiste.
hieronder zijn er maar weinig.

_(^|[\s.:;?\-\]<\(])(https?://[-\w;/?:@&=+$\|\_.!~*\|'()\[\]%#,☺]+[\w/#](\(\))?)(?=$|[\s',\|\(\).:;?\-\[\]>\)])_i
#\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))#iS

En er is een link die u meer dan 10 verschillende variaties van validatie voor URL geeft.

https://mathiasbynens.be/demo/url-regex


28

Ik heb geprobeerd mijn versie van URL te formuleren. Mijn vereiste was om instanties in een reeks te vangen waar mogelijke URL CSE.UOM.AC.MU – meldt dat dit niet wordt voorafgegaan door HTTP of WWW

String regularExpression = "((((ht{2}ps?://)?)((w{3}\\.)?))?)[^.&&[a-zA-Z0-9]][a-zA-Z0-9.-]+[^.&&[a-zA-Z0-9]](\\.[a-zA-Z]{2,3})";
assertTrue("www.google.com".matches(regularExpression));
assertTrue("www.google.co.uk".matches(regularExpression));
assertTrue("http://www.google.com".matches(regularExpression));
assertTrue("http://www.google.co.uk".matches(regularExpression));
assertTrue("https://www.google.com".matches(regularExpression));
assertTrue("https://www.google.co.uk".matches(regularExpression));
assertTrue("google.com".matches(regularExpression));
assertTrue("google.co.uk".matches(regularExpression));
assertTrue("google.mu".matches(regularExpression));
assertTrue("mes.intnet.mu".matches(regularExpression));
assertTrue("cse.uom.ac.mu".matches(regularExpression));
//cannot contain 2 '.' after www
assertFalse("www..dr.google".matches(regularExpression));
//cannot contain 2 '.' just before com
assertFalse("www.dr.google..com".matches(regularExpression));
// to test case where url www must be followed with a '.'
assertFalse("www:google.com".matches(regularExpression));
// to test case where url www must be followed with a '.'
//assertFalse("http://wwwe.google.com".matches(regularExpression));
// to test case where www must be preceded with a '.'
assertFalse("https://[email protected]".matches(regularExpression));

29

Wat is er mis met gewone en eenvoudige filter_validate_url?

$url = "http://www.example.com";
if(!filter_var($url, FILTER_VALIDATE_URL))
 {
 echo "URL is not valid";
 }
else
 {
 echo "URL is valid";
 }

Ik weet het niet de vraag precies, maar het deed het werk voor mij toen ik de URL’s moest valideren, dus dacht dat het nuttig zou zijn voor anderen die deze post tegenkomen op zoek naar hetzelfde bericht

Other episodes