将多个 CSV 文件从文件夹导入 SQL Server
Posted
技术标签:
【中文标题】将多个 CSV 文件从文件夹导入 SQL Server【英文标题】:Import Multiple CSV Files to SQL Server from a Folder 【发布时间】:2013-04-11 04:13:04 【问题描述】:我有一个名为“Dump”的文件夹。该文件夹包含各种 .CSV 文件。 文件夹位置是'C:\Dump'
我想将这些文件的内容导入 SQL Server。 我想要粗略的代码以及适当的 cmets,以便我理解它。
我尝试了一些在网上找到的代码。但出于某种奇怪的原因,它们对我来说并没有完全解决。
我想要的步骤是
第 1 步:将文件夹中的所有文件名复制到表中
第 2 步:遍历表并使用批量插入从文件中复制数据。
请有人帮我解决这个问题。提前非常感谢:)
【问题讨论】:
【参考方案1】: --BULK INSERT MULTIPLE FILES From a Folder
--a table to loop thru filenames drop table ALLFILENAMES
CREATE TABLE ALLFILENAMES(WHICHPATH VARCHAR(255),WHICHFILE varchar(255))
--some variables
declare @filename varchar(255),
@path varchar(255),
@sql varchar(8000),
@cmd varchar(1000)
--get the list of files to process:
SET @path = 'C:\Dump\'
SET @cmd = 'dir ' + @path + '*.csv /b'
INSERT INTO ALLFILENAMES(WHICHFILE)
EXEC Master..xp_cmdShell @cmd
UPDATE ALLFILENAMES SET WHICHPATH = @path where WHICHPATH is null
--cursor loop
declare c1 cursor for SELECT WHICHPATH,WHICHFILE FROM ALLFILENAMES where WHICHFILE like '%.csv%'
open c1
fetch next from c1 into @path,@filename
While @@fetch_status <> -1
begin
--bulk insert won't take a variable name, so make a sql and execute it instead:
set @sql = 'BULK INSERT Temp FROM ''' + @path + @filename + ''' '
+ ' WITH (
FIELDTERMINATOR = '','',
ROWTERMINATOR = ''\n'',
FIRSTROW = 2
) '
print @sql
exec (@sql)
fetch next from c1 into @path,@filename
end
close c1
deallocate c1
--Extras
--delete from ALLFILENAMES where WHICHFILE is NULL
--select * from ALLFILENAMES
--drop table ALLFILENAMES
【讨论】:
在尝试批量插入时,您是如何解决 Invalid object name 'Temp' 错误的? 'Temp' 必须是您要插入的表的名称,它必须存在! @Mvision 也许你可以帮我解决这个问题 :) ***.com/questions/32862789/… 运行这个,我的 ALLFILENAMES 表只有 2 条记录。 “访问被拒绝。”和NULL。知道是什么原因造成的或如何解决吗?【参考方案2】:这将为每个文件提供单独的表格。
--BULK INSERT MULTIPLE FILES From a Folder
drop table allfilenames
--a table to loop thru filenames drop table ALLFILENAMES
CREATE TABLE ALLFILENAMES(WHICHPATH VARCHAR(255),WHICHFILE varchar(255))
--some variables
declare @filename varchar(255),
@path varchar(255),
@sql varchar(8000),
@cmd varchar(1000)
--get the list of files to process:
SET @path = 'D:\Benihana\backup_csv_benihana_20191128032207_part_1\'
SET @cmd = 'dir ' + @path + '*.csv /b'
INSERT INTO ALLFILENAMES(WHICHFILE)
EXEC Master..xp_cmdShell @cmd
UPDATE ALLFILENAMES SET WHICHPATH = @path where WHICHPATH is null
delete from ALLFILENAMES where WHICHFILE is null
--SELECT replace(whichfile,'.csv',''),* FROM dbo.ALLFILENAMES
--cursor loop
declare c1 cursor for SELECT WHICHPATH,WHICHFILE FROM ALLFILENAMES where WHICHFILE like '%.csv%' order by WHICHFILE desc
open c1
fetch next from c1 into @path,@filename
While @@fetch_status <> -1
begin
--bulk insert won't take a variable name, so make a sql and execute it instead:
set @sql =
'select * into '+ Replace(@filename, '.csv','')+'
from openrowset(''MSDASQL''
,''Driver=Microsoft Access Text Driver (*.txt, *.csv)''
,''select * from '+@Path+@filename+''')'
print @sql
exec (@sql)
fetch next from c1 into @path,@filename
end
close c1
deallocate c1
【讨论】:
【参考方案3】:对于第1步也许你可以看看:
http://www.sql-server-performance.com/forum/threads/copying-filenames-to-sql-table.11546/
或
How to list files inside a folder with SQL Server
然后是第 2 步
How to cast variables in T-SQL for bulk insert?
HTH
【讨论】:
感谢您的帮助。但我最终得到了一个代码。 :) @SarangArd 你是怎么做到的?可以提供代码吗?【参考方案4】:您可能需要先启用 xp_cmdshell:
sp_configure 'show advanced options', '1'
RECONFIGURE
go
sp_configure 'xp_cmdshell', '1'
RECONFIGURE
go
而且,要启用 ad_hoc,
sp_configure 'show advanced options', 1;
RECONFIGURE;
GO
sp_configure 'Ad Hoc Distributed Queries', 1;
RECONFIGURE;
GO
【讨论】:
【参考方案5】:为了解决第1步,xp_dirtree也可以用来列出所有文件和文件夹。
请记住,它是一个未记录的函数。必须考虑安全预防措施。故意制作的文件名可能是入侵媒介。
【讨论】:
【参考方案6】:在 python 中,您可以使用d6tstack,这让这变得简单
import d6tstack
import glob
c = d6tstack.combine_csv.CombinerCSV(glob.glob('*.csv'))
c.to_mssql_combine('mssql+pymssql://usr:pwd@localhost/db', 'tablename')
见SQL examples。它还处理data schema changes,创建表并允许您预处理数据。它利用BULK INSERT
,所以应该一样快。
【讨论】:
【参考方案7】:要扩展 SarangArd 的答案,如果您的文件名与表名匹配,您可以将 temp 替换为以下内容。
' + Left(@filename, Len(@filename)-4) + '
【讨论】:
【参考方案8】:此代码将为每个导入的 CSV 文件创建一个新表。 最好从 CSV 文件填充空数据库。
CREATE TABLE ALLFILENAMES
(
WHICHPATH VARCHAR(255)
,WHICHFILE VARCHAR(255)
)
DECLARE @filename VARCHAR(255),
@path VARCHAR(255),
@sql VARCHAR(8000),
@cmd VARCHAR(1000)
SET @path = 'L:\DATA\SOURCE\CSV\' --PATH TO YOUR CSV FILES (CHANGE TO YOUR PATH)
SET @cmd = 'dir ' + @path + '*.csv /b'
INSERT INTO ALLFILENAMES(WHICHFILE)
EXEC Master..xp_cmdShell @cmd
UPDATE ALLFILENAMES
SET WHICHPATH = @path
WHERE WHICHPATH IS NULL
DECLARE c1 CURSOR
FOR SELECT WHICHPATH
,WHICHFILE
FROM ALLFILENAMES
WHERE WHICHFILE LIKE '%.csv%'
OPEN c1
FETCH NEXT FROM c1 INTO @path,
@filename
WHILE @@fetch_status <> -1
BEGIN
CREATE TABLE #Header
(
HeadString NVARCHAR(MAX)
)
DECLARE @Columns NVARCHAR(MAX) = ''
DECLARE @Query NVARCHAR(MAX) = ''
DECLARE @QUERY2 NVARCHAR(MAX) = ''
DECLARE @HeaderQuery NVARCHAR(MAX) = ''
SELECT @HeaderQuery = @HeaderQuery + 'bulk insert #Header from ''' + @path + @filename + '''
with(firstrow=1,lastrow=1)'
EXEC (@HeaderQuery)
SELECT @Columns = (SELECT QUOTENAME(value) + ' nvarchar(max)' + ','
FROM #Header
CROSS APPLY STRING_SPLIT(HeadString,',') FOR xml PATH(''))
IF ISNULL(@Columns,'') <> ''
BEGIN
SET @Columns = LEFT(@Columns,LEN(@Columns) - 1)
SELECT @Query = @Query + 'CREATE TABLE ' + Replace(@filename,'.csv','') + ' (' + replace(@Columns,'"','') + ')'
PRINT @Query
EXEC (@QUERY)
END
SELECT @QUERY2 = @QUERY2 + 'bulk insert ' + replace(Replace(@filename,'.csv',''),'.TPS','') + ' from ''' + @path + @filename + '''
with(firstrow=2,FORMAT=''csv'',FIELDTERMINATOR='','',ROWTERMINATOR=''\n'')'
EXEC (@QUERY2)
DROP TABLE #Header
FETCH NEXT FROM c1 INTO @path,
@filename
END
CLOSE c1
DEALLOCATE c1
【讨论】:
以上是关于将多个 CSV 文件从文件夹导入 SQL Server的主要内容,如果未能解决你的问题,请参考以下文章
将 CSV 数据从共享文件夹路径导入 Azure SQL 数据库