Regex-patroon in de functie SQL Replace?

Ik wil elke markering tussen twee delen van het nummer vervangen door bovenstaande regex, maar het lijkt niet te werken. Ik weet niet zeker of het de regex-syntaxis is die verkeerd is, want ik heb een eenvoudigere geprobeerd, zoals '%[^0-9]%', alleen om te testen, maar het werkte ook niet. Weet iemand hoe ik dit kan bereiken?


Antwoord 1, autoriteit 100%

U kunt PATINDEXgebruiken
om de eerste index van het patroon (tekenreeks) te vinden. Gebruik vervolgens STUFFom een andere tekenreeks in het overeenkomende patroon(tekenreeks) te stoppen.

Loop door elke rij. Vervang elk illegaal karakter door wat je wilt. Vervang in uw geval niet-numeriek door spatie. De binnenste lus is als je meer dan één ongeldig teken in een huidige cel hebt, die van de lus.

DECLARE @counter int
SET @counter = 0
WHILE(@counter < (SELECT MAX(ID_COLUMN) FROM Table))
BEGIN  
    WHILE 1 = 1
    BEGIN
        DECLARE @RetVal varchar(50)
        SET @RetVal =  (SELECT Column = STUFF(Column, PATINDEX('%[^0-9.]%', Column),1, '')
        FROM Table
        WHERE ID_COLUMN = @counter)
        IF(@RetVal IS NOT NULL)       
          UPDATE Table SET
          Column = @RetVal
          WHERE ID_COLUMN = @counter
        ELSE
            break
    END
    SET @counter = @counter + 1
END

Let op: dit gaat echter langzaam! Het hebben van een varchar-kolom kan van invloed zijn. Dus het gebruik van LTRIM RTRIM kan een beetje helpen. Hoe dan ook, het is traag.

Krediet gaat naar ditStackOverFlow-antwoord.

BEWERKEN
Krediet gaat ook naar @srutzky

Bewerken (door @tmdean)
In plaats van een rij tegelijkertijd te doen, kan dit antwoord worden aangepast aan een meer ingestelde oplossing. Het toont nog steeds de max van het aantal niet-numerieke tekens in een enkele rij, dus het is niet ideaal, maar ik denk dat het in de meeste situaties acceptabel moet zijn.

WHILE 1 = 1 BEGIN
    WITH q AS
        (SELECT ID_Column, PATINDEX('%[^0-9.]%', Column) AS n
        FROM Table)
    UPDATE Table
    SET Column = STUFF(Column, q.n, 1, '')
    FROM q
    WHERE Table.ID_Column = q.ID_Column AND q.n != 0;
    IF @@ROWCOUNT = 0 BREAK;
END;

U kunt ook de efficiëntie vrij veel verbeteren als u een bitkolom in de tabel behoudt die aangeeft of het veld is geschrobd. (Null vertegenwoordigt “onbekend” in mijn voorbeeld en moet de kolominformatie zijn.)

DECLARE @done bit = 0;
WHILE @done = 0 BEGIN
    WITH q AS
        (SELECT ID_Column, PATINDEX('%[^0-9.]%', Column) AS n
        FROM Table
        WHERE COALESCE(Scrubbed_Column, 0) = 0)
    UPDATE Table
    SET Column = STUFF(Column, q.n, 1, ''),
        Scrubbed_Column = 0
    FROM q
    WHERE Table.ID_Column = q.ID_Column AND q.n != 0;
    IF @@ROWCOUNT = 0 SET @done = 1;
    -- if Scrubbed_Column is still NULL, then the PATINDEX
    -- must have given 0
    UPDATE table
    SET Scrubbed_Column = CASE
        WHEN Scrubbed_Column IS NULL THEN 1
        ELSE NULLIF(Scrubbed_Column, 0)
    END;
END;

Als u uw schema niet wilt wijzigen, is dit eenvoudig aan te passen aan het opslaan van intermediaire resultaten in een variabele met de gewaardeerde tabel die aan het einde op de werkelijke tabel wordt toegepast.


Antwoord 2, Autoriteit 44%

In plaats van het gevonden teken te verwijderen op zijn enige positie, zou het gebruik van Replace(Column, BadFoundCharacter, '')aanzienlijk sneller kunnen zijn. Bovendien, in plaats van alleen het ene slechte teken dat hierna in elke kolom wordt gevonden te vervangen, vervangt dit alle gevonden tekens.

WHILE 1 = 1 BEGIN
    UPDATE dbo.YourTable
    SET Column = Replace(Column, Substring(Column, PatIndex('%[^0-9.-]%', Column), 1), '')
    WHERE Column LIKE '%[^0-9.-]%'
    If @@RowCount = 0 BREAK;
END;

Ik ben ervan overtuigd dat dit beter zal werken dan het geaccepteerde antwoord, al was het maar omdat het minder bewerkingen uitvoert. Er zijn andere manieren die misschien ook sneller zijn, maar ik heb nu geen tijd om die te verkennen.


Antwoord 3, autoriteit 38%

In algemene zin ondersteunt SQL Server geen reguliere expressies en kunt u ze niet gebruiken in de native T-SQL-code.

Je zou een CLR-functie kunnen schrijven om dat te doen. Zie bijvoorbeeld hier.


Antwoord 4, autoriteit 8%

Voor wie op zoek is naar een performante en gemakkelijke oplossing en bereid is CLR in te schakelen:

create database TestSQLFunctions
go
use TestSQLFunctions
go
alter database TestSQLFunctions set trustworthy on
EXEC sp_configure 'clr enabled', 1
RECONFIGURE WITH OVERRIDE
go
CREATE ASSEMBLY [SQLFunctions]
AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE
go
CREATE FUNCTION RegexReplace(
    @input nvarchar(max),
    @pattern nvarchar(max),
    @replacement nvarchar(max)
) RETURNS nvarchar  (max)
AS EXTERNAL NAME SQLFunctions.[SQLFunctions.Regex].Replace; 
go
-- outputs This is a test 
select dbo.RegexReplace('This is a test 12345','[0-9]','')

Inhoud van de DLL:


Antwoord 5, autoriteit 6%

Ik kwam dit bericht tegen toen ik op zoek was naar iets anders, maar ik dacht dat ik een oplossing zou noemen die ik gebruik die veel efficiënter is – en die eigenlijk de standaardimplementatie zou moeten zijn van elke functie bij gebruik met een op een set gebaseerde query – die moet worden gebruikt een kruis toegepaste tabelfunctie. Het lijkt erop dat het onderwerp nog steeds actief is, dus hopelijk is dit nuttig voor iemand.

Voorbeeld van runtime op een paar van de antwoorden tot nu toe gebaseerd op het uitvoeren van recursieve set-gebaseerde query’s of scalaire functie, gebaseerd op 1m rijen testset die de tekens verwijdert uit een willekeurige newid, varieert van 34s tot 2m05s voor de WHILE-lusvoorbeelden en van 1m3s tot {forever} voor de functievoorbeelden.

Het gebruik van een tabelfunctie met kruiselings toepassen bereikt hetzelfde doel in 10s. Mogelijk moet u het aanpassen aan uw behoeften, zoals de maximale lengte die het aankan.

Functie:

CREATE FUNCTION [dbo].[RemoveChars](@InputUnit VARCHAR(40))
RETURNS TABLE
AS
RETURN
    (
        WITH Numbers_prep(Number) AS
            (
                SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
            )
        ,Numbers(Number) AS
            (
                SELECT TOP (ISNULL(LEN(@InputUnit),0))
                    row_number() OVER (ORDER BY (SELECT NULL))
                FROM Numbers_prep a
                    CROSS JOIN Numbers_prep b
            )
        SELECT
            OutputUnit
        FROM
            (
                SELECT
                    substring(@InputUnit,Number,1)
                FROM  Numbers
                WHERE substring(@InputUnit,Number,1) like '%[0-9]%'
                ORDER BY Number
                FOR XML PATH('')
            ) Sub(OutputUnit)
    )

Gebruik:

UPDATE t
SET column = o.OutputUnit
FROM ##t t
CROSS APPLY [dbo].[RemoveChars](t.column) o

Antwoord 6, autoriteit 6%

Hier is een functie die ik heb geschreven om dit te bereiken op basis van de eerdere antwoorden.

CREATE FUNCTION dbo.RepetitiveReplace
(
    @P_String VARCHAR(MAX),
    @P_Pattern VARCHAR(MAX),
    @P_ReplaceString VARCHAR(MAX),
    @P_ReplaceLength INT = 1
)
RETURNS VARCHAR(MAX)
BEGIN
    DECLARE @Index INT;
    -- Get starting point of pattern
    SET @Index = PATINDEX(@P_Pattern, @P_String);
    while @Index > 0
    begin
        --replace matching charactger at index
        SET @P_String = STUFF(@P_String, PATINDEX(@P_Pattern, @P_String), @P_ReplaceLength, @P_ReplaceString);
        SET @Index = PATINDEX(@P_Pattern, @P_String);
    end
    RETURN @P_String;
END;

Gist

Bewerken:

Oorspronkelijk had ik hier een recursieve functie die niet goed werkt met de sql-server, omdat deze een limiet van 32 nesting-niveaus heeft, wat zou resulteren in een fout zoals hieronder wanneer u probeert om 32+ vervangingen met de functie te maken. In plaats van te proberen een wijziging op serverniveau aan te brengen om meer nesten toe te staan (wat gevaarlijk kan zijn, zoals het toestaan van oneindige lussen), is het veel logischer om over te schakelen naar een while-lus.

Maximaal opgeslagen procedure-, functie-, trigger- of weergavenestniveau overschreden (limiet 32).


Antwoord 7, autoriteit 3%

Het kan handig zijn om de oplossing in een SQL-functie te verpakken als u deze opnieuw wilt gebruiken.
Ik doe het zelfs op celniveau, daarom plaats ik dit als een ander antwoord:

CREATE FUNCTION [dbo].[fnReplaceInvalidChars] (@string VARCHAR(300))
RETURNS VARCHAR(300)
BEGIN
    DECLARE @str VARCHAR(300) = @string;
    DECLARE @Pattern VARCHAR (20) = '%[^a-zA-Z0-9]%';
    DECLARE @Len INT;
    SELECT @Len = LEN(@String); 
    WHILE @Len > 0 
    BEGIN
        SET @Len = @Len - 1;
        IF (PATINDEX(@Pattern,@str) > 0)
            BEGIN
                SELECT @str = STUFF(@str, PATINDEX(@Pattern,@str),1,'');    
            END
        ELSE
        BEGIN
            BREAK;
        END
    END     
    RETURN @str
END

Antwoord 8, autoriteit 3%

Ik heb deze functie gemaakt om een tekenreeks op te schonen die niet-numerieke tekens in een tijdveld bevat. De tijd bevatte vraagtekens wanneer ze de minuten niet hebben toegevoegd, zoiets als deze 20:??. Functie loopt door elk teken en vervangt de ? met een 0 :

CREATE FUNCTION [dbo].[CleanTime]
(
    -- Add the parameters for the function here
    @intime nvarchar(10) 
)
RETURNS nvarchar(5)
AS
BEGIN
    -- Declare the return variable here
    DECLARE @ResultVar nvarchar(5)
    DECLARE @char char(1)
    -- Add the T-SQL statements to compute the return value here
    DECLARE @i int = 1
    WHILE @i <= LEN(@intime)
    BEGIN
    SELECT @char =  CASE WHEN substring(@intime,@i,1) like '%[0-9:]%' THEN substring(@intime,@i,1) ELSE '0' END
    SELECT @ResultVar = concat(@ResultVar,@char)   
    set @i  = @i + 1       
    END;
    -- Return the result of the function
    RETURN @ResultVar
END

Antwoord 9, Autoriteit 3%

Ik denk dat deze oplossing sneller en eenvoudig is. Ik gebruik altijd CTE / Recursive Baguus terwijl het zo traag is op MSSQL.
Ik gebruik het in projecten die ik werk met en grote databases.

/*
Function:           dbo.kSql_ReplaceRegExp
Create Date:        20.02.2021
Author:             Karcan Ozbal
Description:        The given string value will be replaced according to the given regexp/pattern.
Parameter(s):       @Value       : Value/Text to REPLACE.
                    @RegExp      : The regexp/pattern to be used for REPLACE operation.
Usage:              select dbo.kSql_ReplaceRegExp('2T3EST5','%[0-9]%')
Output:             'TEST'
*/
ALTER FUNCTION [dbo].[kSql_ReplaceRegExp](
    @Value nvarchar(max),
    @RegExp nvarchar(50)
)
RETURNS nvarchar(max)
AS
BEGIN
    DECLARE @Result nvarchar(max)
    ;WITH CTE AS (
        SELECT NUM = 1, VALUE = @Value, IDX = PATINDEX(@RegExp, @Value)
        UNION ALL
        SELECT NUM + 1, VALUE = REPLACE(VALUE, SUBSTRING(VALUE,IDX,1),''), IDX = PATINDEX(@RegExp, REPLACE(VALUE, SUBSTRING(VALUE,IDX,1),'')) 
        FROM CTE
        WHERE IDX > 0
    )
    SELECT TOP(1) @Result = VALUE 
    FROM CTE 
    ORDER BY NUM DESC
    OPTION (maxrecursion 0)
    RETURN @Result
END

Antwoord 10, Autoriteit 2%

Als u dit alleen doet voor een parameter die in een opgeslagen procedure komt, kunt u het volgende gebruiken:

declare @badIndex int
set @badIndex = PatIndex('%[^0-9]%', @Param)
while @badIndex > 0
    set @Param = Replace(@Param, Substring(@Param, @badIndex, 1), '')
    set @badIndex = PatIndex('%[^0-9]%', @Param)

Antwoord 11

Ik denk dat een eenvoudiger en snellere aanpak wordt geïntegreerd door elk karakter van het alfabet:

DECLARE @i int
SET @i = 0
WHILE(@i < 256)
BEGIN  
    IF char(@i) NOT IN ('0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '.')      
      UPDATE Table SET Column = replace(Column, char(@i), '')
    SET @i = @i + 1
END

Antwoord 12

Ik dacht dat dit duidelijker was:

ALTER FUNCTION [dbo].[func_ReplaceChars](
    @Value nvarchar(max),
    @Chars nvarchar(50)
)
RETURNS nvarchar(max)
AS
BEGIN
    DECLARE @cLen int = len(@Chars);
    DECLARE @curChar int = 0;
    WHILE @curChar<@cLen
    BEGIN
        set @Value = replace(@Value,substring(@Chars,@curChar,1),'');
        set @curChar = @curChar + 1;
    END;
    RETURN @Value
END

Other episodes