使用 Excel OleDb 在 SHEET ORDER 中获取工作表名称

Posted

技术标签:

【中文标题】使用 Excel OleDb 在 SHEET ORDER 中获取工作表名称【英文标题】:Using Excel OleDb to get sheet names IN SHEET ORDER 【发布时间】:2009-07-22 11:42:32 【问题描述】:

我正在使用 OleDb 从包含许多工作表的 Excel 工作簿中读取数据。

我需要阅读工作表名称,但我需要按照它们在电子表格中定义的顺序;所以如果我有一个看起来像这样的文件;

|_____|_____|____|____|____|____|____|____|____|
|_____|_____|____|____|____|____|____|____|____|
|_____|_____|____|____|____|____|____|____|____|
\__GERMANY__/\__UK__/\__IRELAND__/

那我需要拿到字典

1="GERMANY", 
2="UK", 
3="IRELAND"

我尝试过使用OleDbConnection.GetOleDbSchemaTable(),这给了我姓名列表,但它按字母顺序对它们进行排序。 alpha 排序意味着我不知道特定名称对应的工作表编号。所以我明白了;

GERMANY, IRELAND, UK

这改变了UKIRELAND 的顺序。

我需要对它进行排序的原因是我必须让用户按名称或索引选择一系列数据;他们可以要求“从德国到爱尔兰的所有数据”或“从表 1 到表 3 的数据”。

任何想法将不胜感激。

如果我可以使用办公室互操作类,这将很简单。不幸的是,我不能,因为互操作类在非交互式环境(如 Windows 服务和 ASP.NET 站点)中不能可靠地工作,所以我需要使用 OLEDB。

【问题讨论】:

您正在阅读哪个版本的 Excel 文件? 哇,你是怎么画出来的,你是怎么有耐心画出来的 @АртёмЦарионов - 它们是表格的竖线 (|) 和下划线 (_) 行,以及制表符的反斜杠和正斜杠 (\/)。将其复制到文本编辑器中,您会看到。 【参考方案1】:

您不能只循环从 0 到 Count of names -1 的工作表吗?这样你就应该以正确的顺序获得它们。

编辑

我通过 cmets 注意到,对于使用 Interop 类来检索工作表名称存在很多问题。因此,这里是一个使用 OLEDB 检索它们的示例:

/// <summary>
/// This method retrieves the excel sheet names from 
/// an excel workbook.
/// </summary>
/// <param name="excelFile">The excel file.</param>
/// <returns>String[]</returns>
private String[] GetExcelSheetNames(string excelFile)

    OleDbConnection objConn = null;
    System.Data.DataTable dt = null;

    try
    
        // Connection String. Change the excel file to the file you
        // will search.
        String connString = "Provider=Microsoft.Jet.OLEDB.4.0;" + 
          "Data Source=" + excelFile + ";Extended Properties=Excel 8.0;";
        // Create connection object by using the preceding connection string.
        objConn = new OleDbConnection(connString);
        // Open connection with the database.
        objConn.Open();
        // Get the data table containg the schema guid.
        dt = objConn.GetOleDbSchemaTable(OleDbSchemaGuid.Tables, null);

        if(dt == null)
        
           return null;
        

        String[] excelSheets = new String[dt.Rows.Count];
        int i = 0;

        // Add the sheet name to the string array.
        foreach(DataRow row in dt.Rows)
        
           excelSheets[i] = row["TABLE_NAME"].ToString();
           i++;
        

        // Loop through all of the sheets if you want too...
        for(int j=0; j < excelSheets.Length; j++)
        
            // Query each excel sheet.
        

        return excelSheets;
   
   catch(Exception ex)
   
       return null;
   
   finally
   
      // Clean up.
      if(objConn != null)
      
          objConn.Close();
          objConn.Dispose();
      
      if(dt != null)
      
          dt.Dispose();
      
   

从 CodeProject 上的Article 中提取。

【讨论】:

这是我想看到的代码!如何查询“第 N 张”和张数? 嗨,詹姆斯。这几乎是我最初的问题——虽然 GetOleDbSchemaTable() 方法获取名称,但行号与工作簿表号不对应。因此,如果第 4 表在字母表中排在第一位,那么它就是第 0 行。 不回答发帖者的问题(他希望按 Excel 中出现的顺序) @Samuel 我不认为它直接解决了 OP 的问题,但是,它似乎帮助了很多其他有类似问题的人。 不解决 OP 的问题,这是我来找的。 (我总是发布不赞成票的原因。)【参考方案2】:

由于上述代码不包括提取 Excel 2007 工作表名称列表的过程,以下代码也适用于 Excel(97-2003) 和 Excel 2007:

public List<string> ListSheetInExcel(string filePath)

   OleDbConnectionStringBuilder sbConnection = new OleDbConnectionStringBuilder();
   String strExtendedProperties = String.Empty;
   sbConnection.DataSource = filePath;
   if (Path.GetExtension(filePath).Equals(".xls"))//for 97-03 Excel file
   
      sbConnection.Provider = "Microsoft.Jet.OLEDB.4.0";
      strExtendedProperties = "Excel 8.0;HDR=Yes;IMEX=1";//HDR=ColumnHeader,IMEX=InterMixed
   
   else if (Path.GetExtension(filePath).Equals(".xlsx"))  //for 2007 Excel file
   
      sbConnection.Provider = "Microsoft.ACE.OLEDB.12.0";
      strExtendedProperties = "Excel 12.0;HDR=Yes;IMEX=1";
   
   sbConnection.Add("Extended Properties",strExtendedProperties);
   List<string> listSheet = new List<string>();
   using (OleDbConnection conn = new OleDbConnection(sbConnection.ToString()))
   
     conn.Open();
     DataTable dtSheet = conn.GetOleDbSchemaTable(OleDbSchemaGuid.Tables, null);         
     foreach (DataRow drSheet in dtSheet.Rows)
     
        if (drSheet["TABLE_NAME"].ToString().Contains("$"))//checks whether row contains '_xlnm#_FilterDatabase' or sheet name(i.e. sheet name always ends with $ sign)
        
             listSheet.Add(drSheet["TABLE_NAME"].ToString());
         
     
  
 return listSheet;

以上函数返回工作表列表,特别是两种 excel 类型(97,2003,2007)的 excel 文件。

【讨论】:

此代码不会按照它们在 Excel 中出现的顺序返回工作表【参考方案3】:

在实际的 MSDN 文档中找不到这个,但论坛中的一位版主说

恐怕 OLEDB 不会像在 Excel 中那样保留工作表顺序

Excel Sheet Names in Sheet Order

似乎这是一个足够普遍的要求,会有一个体面的解决方法。

【讨论】:

然而这确实直接回答了,它确实节省了大量不必要的尝试时间。【参考方案4】:

这是简短、快速、安全且可用的...

public static List<string> ToExcelsSheetList(string excelFilePath)

    List<string> sheets = new List<string>();
    using (OleDbConnection connection = 
            new OleDbConnection((excelFilePath.TrimEnd().ToLower().EndsWith("x")) 
            ? "Provider=Microsoft.ACE.OLEDB.12.0;Data Source='" + excelFilePath + "';" + "Extended Properties='Excel 12.0 Xml;HDR=YES;'"
            : "provider=Microsoft.Jet.OLEDB.4.0;Data Source='" + excelFilePath + "';Extended Properties=Excel 8.0;"))
    
        connection.Open();
        DataTable dt = connection.GetOleDbSchemaTable(OleDbSchemaGuid.Tables, null);
        foreach (DataRow drSheet in dt.Rows)
            if (drSheet["TABLE_NAME"].ToString().Contains("$"))
            
                string s = drSheet["TABLE_NAME"].ToString();
                sheets.Add(s.StartsWith("'")?s.Substring(1, s.Length - 3): s.Substring(0, s.Length - 1));
            
        connection.Close();
    
    return sheets;

【讨论】:

不能“开箱即用”。 exceladdress - 这是什么? 不回答实际问题。它只返回所有表格,但不按顺序返回。【参考方案5】:

另一种方式:

xls(x) 文件只是存储在 *.zip 容器中的 *.xml 文件的集合。 解压 docProps 文件夹中的“app.xml”文件。

<?xml version="1.0" encoding="UTF-8" standalone="true"?>
-<Properties xmlns:vt="http://schemas.openxmlformats.org/officeDocument/2006/docPropsVTypes" xmlns="http://schemas.openxmlformats.org/officeDocument/2006/extended-properties">
<TotalTime>0</TotalTime>
<Application>Microsoft Excel</Application>
<DocSecurity>0</DocSecurity>
<ScaleCrop>false</ScaleCrop>
-<HeadingPairs>
  -<vt:vector baseType="variant" size="2">
    -<vt:variant>
      <vt:lpstr>Arbeitsblätter</vt:lpstr>
    </vt:variant>
    -<vt:variant>
      <vt:i4>4</vt:i4>
    </vt:variant>
  </vt:vector>
</HeadingPairs>
-<TitlesOfParts>
  -<vt:vector baseType="lpstr" size="4">
    <vt:lpstr>Tabelle3</vt:lpstr>
    <vt:lpstr>Tabelle4</vt:lpstr>
    <vt:lpstr>Tabelle1</vt:lpstr>
    <vt:lpstr>Tabelle2</vt:lpstr>
  </vt:vector>
</TitlesOfParts>
<Company/>
<LinksUpToDate>false</LinksUpToDate>
<SharedDoc>false</SharedDoc>
<HyperlinksChanged>false</HyperlinksChanged>
<AppVersion>14.0300</AppVersion>
</Properties>

该文件是德语文件(Arbeitsblätter = 工作表)。 表名(Tabelle3 等)的顺序正确。你只需要阅读这些标签;)

问候

【讨论】:

这适用于 xlsx 文件,但不适用于 xls 文件。它们没有相同的结构。你知道如何从 xls 文件中提取相同的数据吗?【参考方案6】:

我使用@kraeppy (https://***.com/a/19930386/2617732) 的答案中提供的信息创建了以下函数。这需要使用 .net framework v4.5 并且需要引用 System.IO.Compression。这仅适用于 xlsx 文件,不适用于较旧的 xls 文件。

    using System.IO.Compression;
    using System.Xml;
    using System.Xml.Linq;

    static IEnumerable<string> GetWorksheetNamesOrdered(string fileName)
    
        //open the excel file
        using (FileStream data = new FileStream(fileName, FileMode.Open))
        
            //unzip
            ZipArchive archive = new ZipArchive(data);

            //select the correct file from the archive
            ZipArchiveEntry appxmlFile = archive.Entries.SingleOrDefault(e => e.FullName == "docProps/app.xml");

            //read the xml
            XDocument xdoc = XDocument.Load(appxmlFile.Open());

            //find the titles element
            XElement titlesElement = xdoc.Descendants().Where(e => e.Name.LocalName == "TitlesOfParts").Single();

            //extract the worksheet names
            return titlesElement
                .Elements().Where(e => e.Name.LocalName == "vector").Single()
                .Elements().Where(e => e.Name.LocalName == "lpstr")
                .Select(e => e.Value);
        
    

【讨论】:

【参考方案7】:

我喜欢@deathApril 将工作表命名为 1_Germany、2_UK、3_IRELAND 的想法。我还收到了您的问题,要对数百张纸进行重命名。如果重命名工作表名称没有问题,则可以使用此宏为您完成。重命名所有工作表名称只需不到几秒钟的时间。不幸的是,ODBC、OLEDB 按 asc 返回工作表名称顺序。没有替代品。您必须使用 COM 或重命名您的姓名才能按顺序排列。

Sub Macro1()
'
' Macro1 Macro
'

'
Dim i As Integer
For i = 1 To Sheets.Count
 Dim prefix As String
 prefix = i
 If Len(prefix) < 4 Then
  prefix = "000"
 ElseIf Len(prefix) < 3 Then
  prefix = "00"
 ElseIf Len(prefix) < 2 Then
  prefix = "0"
 End If
 Dim sheetName As String
 sheetName = Sheets(i).Name
 Dim names
 names = Split(sheetName, "-")
 If (UBound(names) > 0) And IsNumeric(names(0)) Then
  'do nothing
 Else
  Sheets(i).Name = prefix & i & "-" & Sheets(i).Name
 End If
Next

End Sub

更新: 在阅读了@SidHoland 关于 BIFF 的评论后,一个想法闪过。以下步骤可以通过代码完成。不知道您是否真的想这样做以按相同顺序获取工作表名称。如果您需要帮助来通过代码执行此操作,请告诉我。

1. Consider XLSX as a zip file. Rename *.xlsx into *.zip
2. Unzip
3. Go to unzipped folder root and open /docprops/app.xml
4. This xml contains the sheet name in the same order of what you see.
5. Parse the xml and get the sheet names

更新: 另一种解决方案 - NPOI 在这里可能会有所帮助 http://npoi.codeplex.com/

 FileStream file = new FileStream(@"yourexcelfilename", FileMode.Open, FileAccess.Read);

      HSSFWorkbook  hssfworkbook = new HSSFWorkbook(file);
        for (int i = 0; i < hssfworkbook.NumberOfSheets; i++)
        
            Console.WriteLine(hssfworkbook.GetSheetName(i));
        
        file.Close();

此解决方案适用于 xls。我没有尝试 xlsx。

谢谢,

埃森

【讨论】:

您没有重命名工作表或仅使用 COM,因为我的回答表明您可以使用 DAO。我认为可能还有一种方法可以通过reading the BIFF 检索它们,但我仍在调查中。 @SidHolland:DAO 是一个 COM 组件。在 Server 2008 中使用 COM 组件是一个问题,因此 Steve 选择了 ADO.NET 我的大脑并没有认为 DAO 是一个 COM 组件,尽管必须将它添加为 COM 引用才能使用它。感谢您的指正。您的添加(重命名为 zip 并阅读 XML)是天才。我不知道那会奏效。到目前为止,它是唯一一种无需使用 COM 即可按顺序显示工作表的方法。 +1!【参考方案8】:

这对我有用。从这里被盗:How do you get the name of the first page of an excel workbook?

object opt = System.Reflection.Missing.Value;
Excel.Application app = new Microsoft.Office.Interop.Excel.Application();
Excel.Workbook workbook = app.Workbooks.Open(WorkBookToOpen,
                                         opt, opt, opt, opt, opt, opt, opt,
                                         opt, opt, opt, opt, opt, opt, opt);
Excel.Worksheet worksheet = workbook.Worksheets[1] as Microsoft.Office.Interop.Excel.Worksheet;
string firstSheetName = worksheet.Name;

【讨论】:

嗨。很高兴你有工作代码,但它使用了 Interop 类,它们在服务器上不能可靠地工作;您无法在 Windows Server 2008 上运行此代码。因此您无法在 Web 应用程序或服务器端代码中使用它。这就是我选择 oledb 而不是 Interop 的原因。【参考方案9】:

试试这个。这是按顺序获取工作表名称的代码。

private Dictionary<int, string> GetExcelSheetNames(string fileName)

    Excel.Application _excel = null;
    Excel.Workbook _workBook = null;
    Dictionary<int, string> excelSheets = new Dictionary<int, string>();
    try
    
        object missing = Type.Missing;
        object readOnly = true;
        Excel.XlFileFormat.xlWorkbookNormal
        _excel = new Excel.ApplicationClass();
        _excel.Visible = false;
        _workBook = _excel.Workbooks.Open(fileName, 0, readOnly, 5, missing,
            missing, true, Excel.XlPlatform.xlWindows, "\\t", false, false, 0, true, true, missing);
        if (_workBook != null)
        
            int index = 0;
            foreach (Excel.Worksheet sheet in _workBook.Sheets)
            
                // Can get sheet names in order they are in workbook
                excelSheets.Add(++index, sheet.Name);
            
        
    
    catch (Exception e)
    
        return null;
    
    finally
    
        if (_excel != null)
        

            if (_workBook != null)
                _workBook.Close(false, Type.Missing, Type.Missing);
            _excel.Application.Quit();
        
        _excel = null;
        _workBook = null;
    
    return excelSheets;

【讨论】:

绝对不是编译器! (泽勒Excel.XlFileFormat.xlWorkbookNormal)【参考方案10】:

根据 MSDN,对于 Excel 中的电子表格,它可能无法正常工作,因为 Excel 文件不是真正的数据库。因此,您将无法按照工作簿中的可视化顺序获取工作表名称。

使用互操作根据视觉外观获取工作表名称的代码:

添加对 Microsoft Excel 12.0 对象库的引用。

以下代码将按照存储在工作簿中的实际顺序给出工作表名称,而不是排序后的名称。

示例代码:

using Microsoft.Office.Interop.Excel;

string filename = "C:\\romil.xlsx";

object missing = System.Reflection.Missing.Value;

Microsoft.Office.Interop.Excel.Application excel = new Microsoft.Office.Interop.Excel.Application();

Microsoft.Office.Interop.Excel.Workbook wb =excel.Workbooks.Open(filename,  missing,  missing,  missing,  missing,missing,  missing,  missing,  missing,  missing,  missing,  missing,  missing,  missing,  missing);

ArrayList sheetname = new ArrayList();

foreach (Microsoft.Office.Interop.Excel.Worksheet  sheet in wb.Sheets)

    sheetname.Add(sheet.Name);

【讨论】:

【参考方案11】:

我没有看到任何说明 app.xml 中的顺序保证是工作表顺序的文档。它可能是,但不是根据 OOXML 规范。

另一方面,workbook.xml 文件包含 sheetId 属性,该属性确定顺序 - 从 1 到工作表数。这是根据 OOXML 规范。 workbook.xml 被描述为保存工作表顺序的地方。

因此,我建议在从 XLSX 中提取 workbook.xml 后阅读它。不是 app.xml。代替 docProps/app.xml,使用 xl/workbook.xml 并查看元素,如下所示 -

`

<workbook xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships">
  <fileVersion appName="xl" lastEdited="5" lowestEdited="5" rupBuild="9303" /> 
  <workbookPr defaultThemeVersion="124226" /> 
- <bookViews>
  <workbookView xWindow="120" yWindow="135" windowWidth="19035" windowHeight="8445" /> 
  </bookViews>
- <sheets>
  <sheet name="By song" sheetId="1" r:id="rId1" /> 
  <sheet name="By actors" sheetId="2" r:id="rId2" /> 
  <sheet name="By pit" sheetId="3" r:id="rId3" /> 
  </sheets>
- <definedNames>
  <definedName name="_xlnm._FilterDatabase" localSheetId="0" hidden="1">'By song'!$A$1:$O$59</definedName> 
  </definedNames>
  <calcPr calcId="145621" /> 
  </workbook>

`

【讨论】:

以上是关于使用 Excel OleDb 在 SHEET ORDER 中获取工作表名称的主要内容,如果未能解决你的问题,请参考以下文章

Python 操作Redis

python爬虫入门----- 阿里巴巴供应商爬虫

Python词典设置默认值小技巧

《python学习手册(第4版)》pdf

Django settings.py 的media路径设置

Python中的赋值,浅拷贝和深拷贝的区别