关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。相关的知识,希望对你有一定的参考价值。

如图所示的文档,
需要把题型、分数、题干、选项、答案、题解 分别存入数据库,但不能丢失格式;
后续需要读取数据库显示到网页上,格式不变
强调:难点在图片的位置、化学、数学公式的显示。

目前只有这么多分,全部贡献出来,如果不够,另行感谢!

Word 转 html 想要保证格式完全不变的话基本没可能,多少都要变些的,特别是图片的处理。
公式显示我认为不是什么问题,你可以测试看看文档另存为,另存为htm文件后公式已经变成图片了(通过word插入的公式)。

我认为你的问题的核心是怎么去匹配各个元素(题干、选项之类的),先将Word文件另存为htm文件,然后分析各个元素,正则提取元素内容吧,格式能不要就尽量不要了,以后放到页面浏览时统一制定格式还好处理些,实在不行就在取题目元素时将转换后的htm样式定义保存下来统一处理。

总之,问题铁定是可以解决的,看你怎么处理了,另外,office2007的文档信息可以通过 xml 处理,那样应该要好办很多,结合 htm 看看吧。追问

我导出xml分析了,垃圾样式一大堆,公式显示有问题,比如上面化学公式 “等号上的光” 就不见了!

参考技术A 可以讲 整个word 以二进制流的形式存入数据库吗?如果行的话 你再告诉我!追问

不行,需要提取按字段存储,比如 题型、分值、答案等,是要在不同的字段的

追答

哥们这个 有点难了!

追问

是很难呀,要不我就不在这里求教了,困扰一星期了,一直没有解决,我现在只能单独提出文字,另存图片,但是无法定位图片在文字段中的位置,还有化学公式啥的,搞不定呀

C语言编写一个程序从特定的文件中提取特定的字符串。

用C语言,编写一个程序要求: 从一个文本文档中:如1.txt(比如内容是....44353we5423/trans=“agdegewdsasdwer”...2344wewe....)提取字符串为/trans=“后面的内容既agdegewdsasdwer,并将这段文字输入到另一个文件中如2.txt。
另外还有一个要求,这一大段文字上面还有其他文字,包括换行符等等,我写的程序遇到换行符既 /0 就自己停止了,要求程序也能过滤换行符:
比如:1.txt
【很多空格】fdsfasdfef【换行符】
【很多空格】trans=/"dafdfdsfa【换行符】
。。。。。
【很多空格】 dfasdfasdf【换行符】
【很多空格】 dsfa“
就比如上面要求把trans=””双引号之间的内容提取出来。提取出来的内容,60个字换一行,并输入到2,txt中,回答的好的,继续追加分数

按你追问的要求改了一下。这段代码能把键盘输入的特定字符串后面双引号内的文字提取出来存入XYZ.txt文件中。在提取过程中滤除了源文件中的'\n'和' '。供参考……
#include "stdio.h"//
#include "string.h"//
#include "stdlib.h"//
void main(void)
FILE *pR,*pW;
char CoStr[20],ln,ch,i=0;
if(!(pR=fopen("ABC.txt","r")))
printf("源文件打开失败...");
exit(0);

printf("请输入特定字符串...\nCoStr=");
ln=strlen(gets(CoStr));
do
fseek(pR,-i,SEEK_CUR);
for(i=0;i<ln;i++)
if((ch=getc(pR))!=CoStr[i]) break;
if(ch==EOF)
printf("没有发现特定字符串%s!\n",CoStr);
exit(0);

while(i<ln);

if(!(pW=fopen("XYZ.txt","w")))
printf("创建目标文件失败...");
exit(0);

while((ch=getc(pR))!='"' && ch!=(char)176);
while((ch=getc(pR))!='"' && ch!=(char)177)
if(ch=='\n' || ch==' ') continue;
putc(ch,pW);


fclose(pW);
fclose(pR);
printf("文件已成功建立,名为XYZ.txt\n");
参考技术A 楼上那个试了下没用,这里给楼主写个满足你要求的。
/*程序写了两个函数,FormatFind用于查找目标文本中是否存在trans=/"。。。。"的格式,返回是否找到这种格式,其中变量PfOffset和PfLength用于记录目标文件中匹配内容的文件偏移量和内容长度。能满足屏蔽换行符等其它任何不合法符合,而且内容必须要有"结束才算合法。
FormatPrint函数用于按60个字为一行输出到另一文本中
主函数由于使用了传递参数,所以要求在dos下按格式调用此程序,假设编译后程序名为a.exe,且同一目录下有目标文本,假设为1.txt,拷贝到2.txt中
格式为:dos命令行中,在a.exe的目录下,输入 a 1.txt 2.txt
*/

#include<stdio.h>
#include<windows.h>

char FormatFind(FILE *fpIn,long *PfOffset,long *PfLength);
void FormatPrint(FILE *fpIn,FILE *fpOut,long PfOffset,long PfLength);

void main(int argc, char *argv[])

FILE *fpIn,*fpOut;
long PfOffset = 0,PfLength = 0;

if(argc == 3)//满足main函数输入格式

if( (fpIn = fopen(argv[1],"r")) == NULL)//原文件打开成功,即文件存在

printf("文件不存在");
exit(0);

fpOut = fopen(argv[2],"w");

printf("开始查找...\n");
if( FormatFind(fpIn,&PfOffset,&PfLength) )//查找格式匹配的内容是否存在

printf("文本中发现匹配内容,内容长度为%ld字节\n",PfLength);
printf("开始拷贝...\n");
FormatPrint(fpIn,fpOut,PfOffset,PfLength);//将格式匹配内容存盘
printf("拷贝完成,存放在%s文件中\n",argv[2]);

else

printf("文本中没有匹配内容");

fclose(fpIn);
fclose(fpOut);

else//不满足main函数输入格式

printf("命令错误");


#define MATCH0WORD 0
#define MATCH1WORD 1
#define MATCH2WORD 2
#define MATCH3WORD 3
#define MATCH4WORD 4
#define MATCH5WORD 5
#define MATCH6WORD 6
#define MATCH7WORD 7
#define MATCHCHECK 99
#define MATCHEND 100
char FormatFind(FILE *fpIn,long *PfOffset,long *PfLength)

char ch;
char match = MATCH0WORD;
*PfLength = 0;

while(feof(fpIn) == 0)

ch = getc(fpIn);
switch(match)
//trans=/"
case MATCH0WORD:
if(ch == 't')
match = MATCH1WORD;
break;
case MATCH1WORD:
if(ch == 'r')
match = MATCH2WORD;
else
match = MATCH0WORD;
break;
case MATCH2WORD:
if(ch == 'a')
match = MATCH3WORD;
else
match = MATCH0WORD;
break;
case MATCH3WORD:
if(ch == 'n')
match = MATCH4WORD;
else
match = MATCH0WORD;
break;
case MATCH4WORD:
if(ch == 's')
match = MATCH5WORD;
else
match = MATCH0WORD;
break;
case MATCH5WORD:
if(ch == '=')
match = MATCH6WORD;
else
match = MATCH0WORD;
break;
case MATCH6WORD:
if(ch == '/')
match = MATCH7WORD;
else
match = MATCH0WORD;
break;
case MATCH7WORD:
if(ch == '\"')
match = MATCHCHECK;
else
match = MATCH0WORD;
break;
case MATCHCHECK:
*PfOffset = ftell(fpIn) - 1;
match = MATCHEND;
break;
case MATCHEND:
(*PfLength)++;
if(ch == '\"')
return 1;


return 0;

#define RowNum 60
void FormatPrint(FILE *fpIn,FILE *fpOut,long PfOffset,long PfLength)

char ch;
long i = 0;
fseek(fpIn,PfOffset,SEEK_SET);
while(PfLength > 0)

ch = getc(fpIn);
putc(ch,fpOut);
i++;
if( (i % RowNum) == 0 )

putc('\n',fpOut);

PfLength--;

追问

恩!非常不错,可是我的头文件校验失败。我还特定跑去CSDN下载了全部的头文件还是失败!求教你是用哪个C版本,我是tubor C++ 3.0

参考技术B 提取/trans=“后面的内容既agdegewdsasdwer表达不够清楚,/trans=“后面的内容除了agdegewdsasdwer还有...2344wewe....你是以什么为界限的??追问

以双引号为界,比如/trans=""既提取双引号之间的字符,另外还有一个要求,这一大段文字上面还有其他文字,包括换行符等等,我写的程序遇到换行符既 /0 就自己停止了,要求程序也能过滤换行符:
比如:1.txt
【很多空格】fdsfasdfef【换行符】
【很多空格】trans=/"dafdfdsfa【换行符】
【很多空格】 dfasdfasdf【换行符】
【很多空格】 dsfa“
就比如上面要求把trans=””双引号之间的内容提取出来。

以上是关于关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。的主要内容,如果未能解决你的问题,请参考以下文章

怎么把word2016中,大量图片里的文字提取出来?

我想用poi解析word文档,文档的内容基本是若干个标题,每个标题下面跟一段内容,内容包括文字图片表格

C# 提取Word中插入的多媒体文件(视频音频)

关于C#委托 有个显示样式的功能,用委托怎么做

WORD2010插入题注时如果加入章节号?总是提示“ 错误!文档中没有指定样式的文字。”

在Word里,设置成标题的文字,更改正文后它的段落格式也跟着变了,为啥?谢谢