欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

golang正则之命名分组方式

程序员文章站 2022-03-03 11:43:24
正则中有分组这个功能,在golang中也可以使用命名分组。一次匹配的情况场景还原如下:有一行文本,格式为:姓名 年龄 邮箱地址请将其转换为一个map代码实现如下:str := `alice 20 al...

正则中有分组这个功能,在golang中也可以使用命名分组。

一次匹配的情况

场景还原如下:

有一行文本,格式为:姓名 年龄 邮箱地址

请将其转换为一个map

代码实现如下:

str := `alice 20 alice@gmail.com`
// 使用命名分组,显得更清晰
re := regexp.mustcompile(`(?p<name>[a-za-z]+)\s+(?p<age>\d+)\s+(?p<email>\w+@\w+(?:\.\w+)+)`)
match := re.findstringsubmatch(str)
groupnames := re.subexpnames()
fmt.printf("%v, %v, %d, %d\n", match, groupnames, len(match), len(groupnames))
result := make(map[string]string)
// 转换为map
for i, name := range groupnames {
    if i != 0 && name != "" { // 第一个分组为空(也就是整个匹配)
        result[name] = match[i]
    }
}
prettyresult, _ := json.marshalindent(result, "", "  ")
fmt.printf("%s\n", prettyresult)

输出为:

[alice 20 alice@gmail.com alice 20 alice@gmail.com], [ name age email], 4, 4
{
  "age": "20",
  "email": "alice@gmail.com",
  "name": "alice"
}

注意 [ name age email]有4个元素, 第一个为""。

多次匹配的情况

接上面的例子,实现一个更贴近现实的需求:

有一个文件, 内容大致如下:

alice 20 alice@gmail.com
bob 25 bob@outlook.com
gerrylon 26 gerrylon@github.com
...
更多内容

和上面一样, 不过这次转出来是一个slice of map, 也就是多个map。

代码如下:

// 文件内容直接用字符串表示
usersstr := `
    alice 20 alice@gmail.com
    bob 25 bob@outlook.com
    gerrylon 26 gerrylon@github.com
`
userre := regexp.mustcompile(`(?p<name>[a-za-z]+)\s+(?p<age>\d+)\s+(?p<email>\w+@\w+(?:\.\w+)+)`)
// 这里要用findallstringsubmatch,找到所有的匹配
users := userre.findallstringsubmatch(usersstr, -1)
groupnames := userre.subexpnames()
var result []map[string]string // slice of map
// 循环所有行
for _, user := range users {
    m := make(map[string]string)
    // 对每一行生成一个map
    for j, name := range groupnames {
        if j != 0 && name != "" {
            m[name] = strings.trimspace(user[j])
        }
    }
    result = append(result, m)
}
prettyresult, _ := json.marshalindent(result, "", "  ")
fmt.println(string(prettyresult))

输出为:

[
  {
    "age": "20",
    "email": "alice@gmail.com",
    "name": "alice"
  },
  {
    "age": "25",
    "email": "bob@outlook.com",
    "name": "bob"
  },
  {
    "age": "26",
    "email": "gerrylon@github.com",
    "name": "gerrylon"
  }
]

总结

使用命名分组可以使正则表示的意义更清晰。

转换为map更加符合人类的阅读习惯,不过比一般的根据索引取分组值麻烦一些。

补充:golang 正则分组匹配多个值

看代码吧~

import (
   "encoding/json"
   "fmt"
   "regexp"
)
str := `9x_xx:995:88`  // `9x_xx:995`
// 使用命名分组,一次匹配多个值
re := regexp.mustcompile(`(?p<fname>\w+):+(?p<mod>[1-9]*):*(?p<strlen>[0-9]*)`)
match := re.findstringsubmatch(str)
groupnames := re.subexpnames()
fmt.printf("%v, %v, %d, %d\n", match, groupnames, len(match), len(groupnames))
 
result := make(map[string]string)
if len(match) == len(groupnames) {
   // 转换为map
   for i, name := range groupnames {
      if i != 0 && name != "" { // 第一个分组为空(也就是整个匹配)
         result[name] = match[i]
      }
   }
}
prettyresult, _ := json.marshalindent(result, "", "  ") 
fmt.printf("%s\n", prettyresult)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。