将多个 CSV 文件从文件夹导入 SQL Server

Posted 2023-02-22

技术标签:

【中文标题】将多个 CSV 文件从文件夹导入 SQL Server【英文标题】：Import Multiple CSV Files to SQL Server from a Folder 【发布时间】：2013-04-11 04:13:04 【问题描述】：

我有一个名为“Dump”的文件夹。该文件夹包含各种 .CSV 文件。文件夹位置是'C:\Dump'

我想将这些文件的内容导入 SQL Server。我想要粗略的代码以及适当的 cmets，以便我理解它。

我尝试了一些在网上找到的代码。但出于某种奇怪的原因，它们对我来说并没有完全解决。

我想要的步骤是

第 1 步：将文件夹中的所有文件名复制到表中

第 2 步：遍历表并使用批量插入从文件中复制数据。

请有人帮我解决这个问题。提前非常感谢:)

【问题讨论】：

【参考方案1】：

    --BULK INSERT MULTIPLE FILES From a Folder 

    --a table to loop thru filenames drop table ALLFILENAMES
    CREATE TABLE ALLFILENAMES(WHICHPATH VARCHAR(255),WHICHFILE varchar(255))

    --some variables
    declare @filename varchar(255),
            @path     varchar(255),
            @sql      varchar(8000),
            @cmd      varchar(1000)


    --get the list of files to process:
    SET @path = 'C:\Dump\'
    SET @cmd = 'dir ' + @path + '*.csv /b'
    INSERT INTO  ALLFILENAMES(WHICHFILE)
    EXEC Master..xp_cmdShell @cmd
    UPDATE ALLFILENAMES SET WHICHPATH = @path where WHICHPATH is null


    --cursor loop
    declare c1 cursor for SELECT WHICHPATH,WHICHFILE FROM ALLFILENAMES where WHICHFILE like '%.csv%'
    open c1
    fetch next from c1 into @path,@filename
    While @@fetch_status <> -1
      begin
      --bulk insert won't take a variable name, so make a sql and execute it instead:
       set @sql = 'BULK INSERT Temp FROM ''' + @path + @filename + ''' '
           + '     WITH ( 
                   FIELDTERMINATOR = '','', 
                   ROWTERMINATOR = ''\n'', 
                   FIRSTROW = 2 
                ) '
    print @sql
    exec (@sql)

      fetch next from c1 into @path,@filename
      end
    close c1
    deallocate c1


    --Extras

    --delete from ALLFILENAMES where WHICHFILE is NULL
    --select * from ALLFILENAMES
    --drop table ALLFILENAMES

【讨论】：

在尝试批量插入时，您是如何解决 Invalid object name 'Temp' 错误的？ 'Temp' 必须是您要插入的表的名称，它必须存在！ @Mvision 也许你可以帮我解决这个问题 :) ***.com/questions/32862789/… 运行这个，我的 ALLFILENAMES 表只有 2 条记录。 “访问被拒绝。”和NULL。知道是什么原因造成的或如何解决吗？【参考方案2】：

这将为每个文件提供单独的表格。

--BULK INSERT MULTIPLE FILES From a Folder 
drop table allfilenames
--a table to loop thru filenames drop table ALLFILENAMES
CREATE TABLE ALLFILENAMES(WHICHPATH VARCHAR(255),WHICHFILE varchar(255))

--some variables
declare @filename varchar(255),
        @path     varchar(255),
        @sql      varchar(8000),
        @cmd      varchar(1000)


--get the list of files to process:
SET @path = 'D:\Benihana\backup_csv_benihana_20191128032207_part_1\'
SET @cmd = 'dir ' + @path + '*.csv /b'
INSERT INTO  ALLFILENAMES(WHICHFILE)
EXEC Master..xp_cmdShell @cmd
UPDATE ALLFILENAMES SET WHICHPATH = @path where WHICHPATH is null

delete from ALLFILENAMES where  WHICHFILE is null
--SELECT replace(whichfile,'.csv',''),* FROM dbo.ALLFILENAMES


--cursor loop
declare c1 cursor for SELECT WHICHPATH,WHICHFILE FROM ALLFILENAMES where WHICHFILE like '%.csv%' order by WHICHFILE desc
open c1
fetch next from c1 into @path,@filename
While @@fetch_status <> -1
  begin
  --bulk insert won't take a variable name, so make a sql and execute it instead:
   set @sql = 

   'select * into '+ Replace(@filename, '.csv','')+'
    from openrowset(''MSDASQL''
    ,''Driver=Microsoft Access Text Driver (*.txt, *.csv)''
    ,''select * from '+@Path+@filename+''')' 


print @sql
exec (@sql)

  fetch next from c1 into @path,@filename
  end
close c1
deallocate c1

【讨论】：

【参考方案3】：

对于第1步也许你可以看看：

http://www.sql-server-performance.com/forum/threads/copying-filenames-to-sql-table.11546/

或

How to list files inside a folder with SQL Server

然后是第 2 步

How to cast variables in T-SQL for bulk insert?

HTH

【讨论】：

感谢您的帮助。但我最终得到了一个代码。 :) @SarangArd 你是怎么做到的？可以提供代码吗？【参考方案4】：

您可能需要先启用 xp_cmdshell：

sp_configure 'show advanced options', '1'
RECONFIGURE
go

sp_configure 'xp_cmdshell', '1' 
RECONFIGURE
go

而且，要启用 ad_hoc，

sp_configure 'show advanced options', 1;
RECONFIGURE;
GO

sp_configure 'Ad Hoc Distributed Queries', 1;
RECONFIGURE;
GO

【讨论】：

【参考方案5】：

为了解决第1步，xp_dirtree也可以用来列出所有文件和文件夹。

请记住，它是一个未记录的函数。必须考虑安全预防措施。故意制作的文件名可能是入侵媒介。

【讨论】：

【参考方案6】：

在 python 中，您可以使用d6tstack，这让这变得简单

import d6tstack
import glob

c = d6tstack.combine_csv.CombinerCSV(glob.glob('*.csv'))
c.to_mssql_combine('mssql+pymssql://usr:pwd@localhost/db', 'tablename')

见SQL examples。它还处理data schema changes，创建表并允许您预处理数据。它利用BULK INSERT，所以应该一样快。

【讨论】：

【参考方案7】：

要扩展 SarangArd 的答案，如果您的文件名与表名匹配，您可以将 temp 替换为以下内容。

' + Left(@filename, Len(@filename)-4) + '

【讨论】：

【参考方案8】：

此代码将为每个导入的 CSV 文件创建一个新表。最好从 CSV 文件填充空数据库。

CREATE TABLE ALLFILENAMES
(
             WHICHPATH VARCHAR(255)
            ,WHICHFILE VARCHAR(255)
)

DECLARE @filename VARCHAR(255),
        @path     VARCHAR(255),
        @sql      VARCHAR(8000),
        @cmd      VARCHAR(1000)

SET @path = 'L:\DATA\SOURCE\CSV\'  --PATH TO YOUR CSV FILES (CHANGE TO YOUR PATH)
SET @cmd = 'dir ' + @path + '*.csv /b'

INSERT INTO ALLFILENAMES(WHICHFILE)
EXEC Master..xp_cmdShell @cmd

UPDATE ALLFILENAMES
  SET WHICHPATH = @path
WHERE WHICHPATH IS NULL

DECLARE c1 CURSOR
FOR SELECT WHICHPATH
          ,WHICHFILE
    FROM ALLFILENAMES
    WHERE WHICHFILE LIKE '%.csv%'

OPEN c1

FETCH NEXT FROM c1 INTO @path,
                        @filename

WHILE @@fetch_status <> -1
BEGIN
    CREATE TABLE #Header
    (
                 HeadString NVARCHAR(MAX)
    )
    DECLARE @Columns NVARCHAR(MAX) = ''
    DECLARE @Query NVARCHAR(MAX) = ''
    DECLARE @QUERY2 NVARCHAR(MAX) = ''
    DECLARE @HeaderQuery NVARCHAR(MAX) = ''

    SELECT @HeaderQuery = @HeaderQuery + 'bulk insert #Header from ''' + @path + @filename + '''  
        with(firstrow=1,lastrow=1)'
    EXEC (@HeaderQuery)

    SELECT @Columns = (SELECT QUOTENAME(value) + ' nvarchar(max)' + ','
                       FROM #Header
                            CROSS APPLY STRING_SPLIT(HeadString,',') FOR xml PATH(''))
    IF ISNULL(@Columns,'') <> ''
    BEGIN
        SET @Columns = LEFT(@Columns,LEN(@Columns) - 1)

        SELECT @Query = @Query + 'CREATE TABLE ' + Replace(@filename,'.csv','') + ' (' + replace(@Columns,'"','') + ')'
        PRINT @Query
        EXEC (@QUERY)
    END

    SELECT @QUERY2 = @QUERY2 + 'bulk insert ' + replace(Replace(@filename,'.csv',''),'.TPS','') + ' from ''' + @path + @filename + '''  
        with(firstrow=2,FORMAT=''csv'',FIELDTERMINATOR='','',ROWTERMINATOR=''\n'')'
    EXEC (@QUERY2)

    DROP TABLE #Header
    FETCH NEXT FROM c1 INTO @path,
                            @filename
END

CLOSE c1

DEALLOCATE c1

【讨论】：

以上是关于将多个 CSV 文件从文件夹导入 SQL Server的主要内容，如果未能解决你的问题，请参考以下文章

从 D3 中的多个 csv 文件导入数据

将 CSV 数据从共享文件夹路径导入 Azure SQL 数据库

将 CSV 文件导入 SQL Server

将多个CSV文件导入具有相同名称的变量

使用 SQL Developer 将 CSV 文件导入 Oracle

自动将 CSV 导入 SQL Server 2008 R2