SQL 字符串函数如何实现复杂分割?

PostgreSQL使用regexp_split_to_table支持正则分隔,SQL Server通过REPLACE归一化后用STRING_SPLIT拆分,MySQL可用递归CTE或正则替换配合统一分隔符处理复杂字符串分割。

在 SQL 中处理字符串分割时,标准函数往往只能应对简单场景,比如按单个字符拆分。但实际应用中常遇到复杂分隔需求,例如使用多个字符、正则模式或嵌套符号作为分隔符。不同数据库系统提供了不同的方法来实现复杂字符串分割,下面介绍几种主流方案。

使用内置高级函数(如 PostgreSQL 的 regexp_split_to_table)

PostgreSQL 提供了强大的正则表达式支持,可以直接用正则模式进行分割。

示例:

将字符串按“;”或“,”或空格多个分隔符拆分:

SELECT regexp_split_to_table('apple;banana,orange and grape', '[;\s,]+');

结果会逐行返回:apple、banana、orange、and、grape。

说明:[;\s,]+ 是一个正则表达式,匹配分号、逗号或空白字符的任意组合。

SQL Server 中使用 STRING_SPLIT 与自定义逻辑结合

SQL Server 2016+ 提供了 STRING_SPLIT 函数,但它只支持单字符分隔符。要实现复杂分割,可以先预处理字符串。

例如,将多种分隔符统一替换为单一字符:

DECLARE @input NVARCHAR(MAX) = 'apple;banana,orange|grape';
WITH normalized AS (
  SELECT REPLACE(REPLACE(@input, ';', ','), '|', ',') AS cleaned
)
SELECT value FROM normalized CROSS APPLY STRING_SPLIT(cleaned, ',');

这样就能把多种分隔符归一化后拆分。

MySQL 实现多分隔符拆分(需借助数字表或递归 CTE)

MySQL 原生不提供直接的 split 函数,但可通过递归 CTE 模拟。

示例:按“;”和“,”拆分:

WITH RECURSIVE split_data(str, part, rest) AS (
  SELECT '', CONCAT('apple;banana,orange;grape', ';'), ''
  UNION ALL
  SELECT
    SUBSTRING_INDEX(SUBSTRING_INDEX(rest, ';', 1), ',', 1),
    str,
    TRIM(LEADING FROM SUBSTRING(rest, LENGTH(SUBSTRING_INDEX(rest, ';', 1)) + 2)))
  WHERE rest != ''
)
SELECT part FROM split_data WHERE part != '';

更优做法是先用正则替换(MySQL 8.0+ 支持)将所有分隔符转为统一字符,再分割。

通用技巧:预处理 + 标准函数

无论哪种数据库,一个实用思路是:先将复杂分隔符标准化

操作步骤:

  • 使用 REPLACE 或 REGEXP_REPLACE 将多种分隔符替换为统一字符(如逗号)
  • 调用标准拆分函数(如 STRING_SPLIT 或 regexp_split_to_table)
  • 去空值和前后空格

这种方法兼容性强,易于维护。

基本上就这些。根据不同数据库的能力选择合适方式,关键是把“复杂”变“简单”。