golang 将字符串拆分为n-gram,按空格分隔

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了golang 将字符串拆分为n-gram,按空格分隔相关的知识,希望对你有一定的参考价值。

func SplitToNGrams(s string, n []int) []string {
	words := strings.Fields(s)
	var tokens []string
	for cursor, _ := range words {
		for _, ni := range n {
			// get suffix of length ni in words back from ni position in words array
			if cursor+ni <= len(words) {
				tokens = append(tokens, strings.Join(words[cursor:cursor+ni], "•"))
			}
		}
	}
	return tokens
}

Golang 分割字符串

文章目录


在开发过程中,很多时候我们有分割字符串的需求,即把一个字符串按照某种分割符进行切割。

在 Go 语言中,分割字符串我们可以分为几种情况,分别为:

  • 按空格分割
  • 按字符分割
  • 按字符串分割

下面分别讲解使用 Golang 如何实现不同方式的字符串分割。

1.按空格分割

ss := strings.Fields(s)

示例:

package main

import (
	"fmt"
	"strings"
)

func main() 
	fmt.Printf("Fields are: %q", strings.Fields("  foo bar  baz   "))

输出:

Fields are: ["foo" "bar" "baz"]

2.按字符/字符串分割

ss := strings.Split(s, sep)

可以指定一个字符串作为分隔符,可以指定单个字符作为分隔符,因为单个字符也是一个字符串。

示例:

package main

import (
	"fmt"
	"strings"
)

func main() 
	fmt.Printf("%q\\n", strings.Split("a,b,c", ","))
	fmt.Printf("%q\\n", strings.Split("a man a plan a canal panama", "a "))
	fmt.Printf("%q\\n", strings.Split(" xyz ", ""))
	fmt.Printf("%q\\n", strings.Split("", ","))

输出:

["a" "b" "c"]
["" "man " "plan " "canal panama"]
[" " "x" "y" "z" " "]
[""]

注意,如果待分割串为空串,strings.Split 将返回包含一个空串的切片。

如果希望返回 nil 切片,可以做一下封装。

func Split(s, sep string) []string 
	if s == "" 
		return nil
	
	return strings.Split(s, sep)

3.按多个字符分割

标准库 strings 包中有一个函数 FieldsFunc 可以指定多个字符为分隔符。

ss := strings.FieldsFunc(s,f func(rune) bool)

示例:

package main

import (
	"fmt"
	"strings"
	"unicode"
)

func main() 
	f := func(c rune) bool 
		return !unicode.IsLetter(c) && !unicode.IsNumber(c)
	
	fmt.Printf("Fields are: %q", strings.FieldsFunc("  foo1;bar2,baz3...", f))

输出:

Fields are: ["foo1" "bar2" "baz3"]

4.按多个字符串分割

截至 Go 1.20,标准库暂未供支持多个字符串作为分隔符的分割函数。但是,我们可以基于 strings.Split 编写一个函数来实现这个功能。

// SplitSeps splits string into substring slice by multiple string separators.
// If you want to specify multiple string separators by regexp,
// please refer to `func (*Regexp) Split` in standard library regexp package.
func SplitSeps(s string, seps ...string) []string 
	if len(seps) == 0 
		return []strings
	

	result := strings.Split(s, seps[0])
	for _, sep := range seps[1:] 
		var temp []string
		for _, r := range result 
			temp = append(temp, strings.Split(r, sep)...)
		
		result = temp
	
	return result

示例:

package main

import (
	"fmt"
	"strings"
)

func main() 
	fmt.Printf("%q\\n", SplitSeps("foo,bar,baz", []string","...))
	fmt.Printf("%q\\n", SplitSeps("foo,bar|baz", []string",", "|"...))
	fmt.Printf("%q\\n", SplitSeps("foo,bar|baz qux", []string",", "|", " "...))
	fmt.Printf("%q\\n", SplitSeps("foo,bar|bazSEPqux", []string",", "|", "SEP"...))
	fmt.Printf("%q\\n", SplitSeps("foo,bar|baz", []string...))
	fmt.Printf("%q\\n", SplitSeps(" xyz", []string""...))

输出:

["foo" "bar" "baz"]
["foo" "bar" "baz"]
["foo" "bar" "baz" "qux"]
["foo" "bar" "baz" "qux"]
["foo,bar|baz"]
[" " "x" "y" "z"]

5.其他分割函数

除了文中提及的标准库函数,你可能还会用到下面这几个函数来控制字符串的分割方式。

  • strings.SplitN
func strings.SplitN(s, sep string, n int) []string

该函数与 Split 函数类似,但是可以指定分割后的最大子字符串个数 n,如果 n 为正数,则最多分割成 n 个子字符串;如果 n 为负数,则不限制子字符串个数。例如:

str := "hello,world,how,are,you"
words := strings.SplitN(str, ",", 2)
fmt.Println(words) // ["hello", "world,how,are,you"]
  • strings.SplitAfter
func SplitAfter(s, sep string) []string

该函数将字符串 s 按照分割符 sep 分割成多个子字符串,并返回一个字符串切片。不同于 Split 函数的是,SplitAfter 函数会在分割符之后分割,例如:

str := "hello,world,how,are,you"
words := strings.SplitAfter(str, ",")
fmt.Println(words) // ["hello,", "world,", "how,", "are,", "you"]
  • strings.SplitAfterN
func SplitAfterN(s, sep string, n int) []string

该函数与 SplitAfter 函数类似,但是可以指定分割后的最大子字符串个数 n。如果 n 为负数,则不限制子字符串个数。例如:

str := "hello,world,how,are,you"
words := strings.SplitAfterN(str, ",", 2)
fmt.Println(words) // ["hello,", "world,how,are,you"]

6.go-huge-util

借助 Golang 标准库提供的相关函数,分割字符串还是比较方便的。

文中提及的两个函数,已放置 Github 开源工具库 go-huge-util,大家可使用 go mod 方式 import 然后使用。

import "github.com/dablelv/go-huge-util/str"

// Split 如果待分割串为空串,返回 nil 切片而非包含一个空串的切片。
str.Split(s, sep string) []string

// SplitSeps 通过多个字符串分隔符将字符串分割为字符串切片。
str.SplitSeps(s string, seps []string) []string

go-huge-util 除了类型转换,还有很多其他实用函数,如加解密、zip 解压缩等,欢迎大家使用、Star、Issue 和 Pull Request。


参考文献

strings - Go Packages
8 ways to split a string in Go (Golang) - GOSAMPLES
github.com/dablelv/go-huge-util
OpenAI ChatGPT

以上是关于golang 将字符串拆分为n-gram,按空格分隔的主要内容,如果未能解决你的问题,请参考以下文章

用空格(或任何字符)将文本单元格拆分为任意数量的单词,重复单词

java里一段字符串按照空格拆分,然后再按逗号拆分怎么写

在 Python 中,如何将字符串拆分为多个整数?

C - 将字符串拆分为字符串数组

golang 字符串转map?

Python:按分隔符列表拆分字符串