如何在 Golang 中更快地进行 api 调用?

Posted

技术标签:

【中文标题】如何在 Golang 中更快地进行 api 调用?【英文标题】:How to make an api call faster in Golang? 【发布时间】:2022-01-09 23:51:31 【问题描述】:

我正在尝试使用公司的 api 将一堆文件上传到他们提供的存储服务。 (基本上到我的帐户)。我有很多文件,比如 40-50 之类的。 我得到了文件的完整路径并使用了os.Open,这样我就可以通过 io.Reader。我确实尝试在没有goroutines 的情况下使用client.Files.Upload(),但上传它们花了很多时间并决定使用goroutines。这是我尝试过的实现。当我运行程序时,它只会上传一个文件,该文件是最小的文件或等待很长时间的文件。它有什么问题?难道不是每次 for 循环运行它都会创建一个 goroutine 继续其循环并为每个 file 创建一个?如何使用goroutines 使其尽可能快?

var filePaths []string
var wg sync.WaitGroup

// fills the string of slice with fullpath of files.
func fill() 
    filepath.Walk(rootpath, func(path string, info os.FileInfo, err error) error 
        if !info.IsDir() 
            filePaths = append(filePaths, path)
        
        if err != nil 
            fmt.Println("ERROR:", err)
        
        return nil
    )


func main() 
    fill()

    tokenSource := oauth2.StaticTokenSource(&oauth2.TokenAccessToken: token)
    oauthClient := oauth2.NewClient(context.TODO(), tokenSource)
    client := putio.NewClient(oauthClient)

    for _, path := range filePaths 
        wg.Add(1)

        go func() 
            defer wg.Done()

            f, err := os.Open(path)
            if err != nil 
                log.Println("err:OPEN", err)
            

            upload, err := client.Files.Upload(context.TODO(), f, path, 0)
            if err != nil 
                log.Println("error uploading file:", err)
            
            fmt.Println(upload)
        ()
    
    wg.Wait()


【问题讨论】:

在循环内部执行path := path(复制字符串)go func() ... 上方的某处。或者你可以做go func(path string) ... (path)。并查看此FAQ 以获得解释。 ...顺便说一句,您的错误“处理”不足。 如果网络或存储带宽是限制因素,同时上传所有文件不会为您带来更多带宽(尽管多个流可能在一定程度上有所帮助,但您应该确定那是什么,并且限制并发) 【参考方案1】:

考虑这样的工作池模式:https://go.dev/play/p/p6SErj3L6Yc

在这个示例应用程序中,我已取出 API 调用并仅列出文件名。这使它可以在操场上工作。

启动了固定数量的工作 goroutine。我们将使用一个频道来分发他们的工作,我们将关闭频道以传达工作的结束。这个数字可以是 1 个或 1000 个例程,或者更多。应根据您的 putio API 可以合理地预期支持多少并发 API 操作来选择数量。 pathschan string 我们将用于此目的。 工作人员range 通过paths 频道接收要上传的新文件路径
package main

import (
    "fmt"
    "os"
    "path/filepath"
    "sync"
)

func main() 
    paths := make(chan string)
    var wg = new(sync.WaitGroup)
    for i := 0; i < 10; i++ 
        wg.Add(1)
        go worker(paths, wg)
    
    if err := filepath.Walk("/usr", func(path string, info os.FileInfo, err error) error 
        if err != nil 
            return fmt.Errorf("Failed to walk directory: %T %w", err, err)
        
        if info.IsDir() 
            return nil
        
        paths <- path
        return nil
    ); err != nil 
        panic(fmt.Errorf("failed Walk: %w", err))
    
    close(paths)
    wg.Wait()


func worker(paths <-chan string, wg *sync.WaitGroup) 
    defer wg.Done()
    for path := range paths 
        // do upload.
        fmt.Println(path)
    

这种模式可以处理无限量的文件,而无需在处理之前将整个列表加载到内存中。如您所见,这并没有使代码更复杂——实际上,它更简单。

当我运行程序时,它只会上传一个文件

函数字面量继承了定义它们的范围。这就是为什么我们的代码只列出了一个路径 - for 循环中的 path 变量范围被共享给每个 go 例程,所以当该变量发生变化时,所有例程都会接受更改。

避免使用函数字面量,除非你真的想要继承作用域。在全局范围内定义的函数不继承任何范围,您必须将所有相关变量传递给这些函数。这是一件好事 - 它使函数更易于理解,并使变量“所有权”转换更加明确。

os.Walk 参数是使用函数字面量的适当情况;它的参数由os.Walk 定义,因此定义范围是访问其他值的一种方式 - 例如paths 通道,在我们的例子中。

说到范围,应该避免使用全局变量,除非它们的使用范围是真正的全局变量。更喜欢在函数之间传递变量而不是共享全局变量。同样,这使变量所有权变得明确,并且易于理解哪些函数可以访问和不访问哪些变量。您的等待组和您的 filePaths 都没有任何理由成为全球性的。

            f, err := os.Open(path)

不要忘记关闭您打开的任何文件。当您处理 40 或 50 个文件时,让所有打开的文件句柄堆积起来直到程序结束并不是那么糟糕,但它是您程序中的一个定时炸弹,当文件数量超过 @987654333 时它就会爆炸@ 允许打开的文件。因为函数执行大大超出了需要打开文件的部分,defer 在这种情况下没有意义。上传文件后我会使用明确的f.Close()

【讨论】:

谢谢。假设 API 预计支持 100 个并发操作,如果我将工作 goroutine 的数量更改为 100,这会使整个过程更快吗?考虑到我们要上传 50 个文件?或者我应该将工作 goroutine 的数量更改为要上传的文件数量? 50 个工人 50 个文件? 将worker数设置为并发操作数——即使在channel上收到0条消息,worker也能正常工作。 你的意思是API支持的并发操作数吗?如果我不知道确切的数字怎么办? 总之,是的。 API 上同时或每秒操作的限制可能是并发的实际限制。可能还有其他一些限制 - 这取决于 API 行为、带宽、文件大小。 会更快吗?如果文件远大于您的互联网带宽,那么性能瓶颈是您的互联网连接,即使一个文件也足以饱和它,同时运行多个上传也无济于事。与带宽相比,文件越小,延迟影响性能就越多,并发提高性能的机会就越大。对于非常小的文件,100 个同时上传的速度可能与 1 个最大文件的上传速度差不多。

以上是关于如何在 Golang 中更快地进行 api 调用?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 selenium 中更快地从动态网站读取数据

C++-Python 互操作:更快地编组数据

用大片字符串理解Golang内存管理

如何在golang中为包含通道、filewalk和api调用的程序编写单元测试?

在golang中进行集成测试时如何模拟外部http请求api

如何可靠地进行 API 调用?