SQL字符串关键字格式化:Go语言中实现SQL语句自动美化排版的正确实践

在go中对sql字符串按关键字(如select、from、where、and等)进行缩进与换行美化,不能依赖简单字符串分割或正则替换;应基于语法解析器实现语义级格式化,避免误判注释、字符串字面量或嵌套结构。

对SQL语句进行格式化(即“美化”或“pretty-printing”)看似是简单的文本处理问题,实则涉及完整的词法与语法分析。例如,将:

select col1, col2, col3 from foo where col1 > 1000 and col2 < 2000

转换为:

SELECT col1, col2, col3 
FROM foo 
WHERE col1 > 1000 
    AND col2 < 2000

若仅用 strings.Split() 或正则匹配 (?i)\b(select|from|where|and|or|begin|end)\b 并插入换行/缩进,会面临多重陷阱:

  • ✅ 关键字大小写不敏感,但需统一转为大写(如 SELECT);
  • ❌ 无法区分 SQL 关键字与普通标识符(如列名 select_id 中的 select);
  • ❌ 无法跳过字符串字面量(如 'SELECT * FROM users')或注释(-- SELECT ignored);
  • ❌ 无法处理嵌套结构(如 BEGIN ... BEGIN ... SELECT ... END ... END),导致缩进层级错误;
  • ❌ 无法识别括号配对、子查询边界,进而影响 AND/OR 的对齐逻辑。

因此,正解是使用成熟的 SQL 解析器,而非文本启发式处理

推荐方案:使用 vitess/go/vt/sqlparser(已迁移至 github.com/vitessio/vitess/go/vt/sqlparser)

该库是 Vitess 项目的核心 SQL 解析器,支持完整 ANSI SQL(含 MySQL 方言),可准确构建 AST(抽象语法树)。虽然其默认不提供格式化输出,但可通过遍历 AST 实现可控美化:

package main

import (
    "fmt"
    "strings"

    "github.com/vitessio/vitess/go/vt/sqlparser"
)

func formatSQL(sql string) string {
    stmt, err := sqlparser.Parse(sql)
    if err != nil {
        return "parse error: " + err.Error()
    }

    var b strings.Builder
    indent := 0
    formatNode(stmt, &b, indent)
    return b.String()
}

func formatNode(node sqlparser.SQLNode, b *strings.Builder, indent int) {
    switch n := node.(type) {
    case *sqlparser.Select:
        b.WriteString(strings.Repeat("  ", indent))
        b.WriteString("SELECT ")
        // 此处需递归处理 SelectExprs、From、Where 等字段...
        // (实际实现需完整遍历 AST 各节点类型)
    default:
        // 简化示意:回退到原始 SQL(生产环境需补全所有节点类型)
        b.WriteString(sqlparser.String(node))
    }
}

func main() {
    sql := "select col1, col2 from foo where col1 > 1000 and col2 < 2000"
    fmt.Println(formatSQL(sql))
}
⚠️ 注意:上述代码仅为结构示意。vitess/sqlparser 不内置格式化器,需自行实现 formatNode 的完整分支(覆盖 *sqlparser.Where, *sqlparser.AndExpr, *sqlparser.ParenBoolExpr, *sqlparser.Begin, *sqlparser.End 等数十种节点),并维护缩进栈(如 BEGIN → indent+1,END → indent-1)。

更轻量替代方案(适用于简单场景)

若仅需基础关键字换行+大写,且能接受一定误报率(如无嵌套、无字符串/注释干扰),可采用安全预处理 + 关键字映射:

func simpleFormat(sql string) string {
    // 先转义字符串字

面量和注释(简化版,生产环境需用 lexer) cleaned := sqlparser.RemoveComments(sqlparser.NewStringTokenizer(sql)) // 定义关键字及其换行缩进规则 keywords := []struct { pattern string prefix string // 换行后前置空格(如 "\n " 表示缩进2空格) upper bool }{ {"select", "\n", true}, {"from", "\n ", true}, {"where", "\n ", true}, {"and", "\n ", true}, {"or", "\n ", true}, {"begin", "\n", true}, {"end", "\n", true}, } result := cleaned for _, kw := range keywords { re := regexp.MustCompile(`(?i)\b` + regexp.QuoteMeta(kw.pattern) + `\b`) repl := func(s string) string { m := strings.TrimSpace(s) if kw.upper { m = strings.ToUpper(m) } return kw.prefix + m } result = re.ReplaceAllStringFunc(result, repl) } return strings.TrimSpace(result) }

⚠️ 此方法仅作原型验证或日志调试使用,不可用于用户输入或复杂 SQL。

总结

  • 不要手写正则/分割逻辑处理 SQL 格式化:语法边界模糊,极易出错;
  • 首选基于 AST 的解析器:vitess/go/vt/sqlparser 是 Go 生态最成熟选择,虽需扩展格式化逻辑,但健壮性与可维护性远超文本处理;
  • 若项目已有 SQL 解析需求(如权限校验、重写、审计),格式化可作为 AST 遍历的副产品自然实现;
  • 对嵌套控制流(BEGIN/END)、子查询、CTE 等高级特性,唯有语法树能保证缩进语义正确。

真正的 SQL 格式化,本质是编译器前端问题——交给解析器,而非字符串。