关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。相关的知识,希望对你有一定的参考价值。
如图所示的文档,
需要把题型、分数、题干、选项、答案、题解 分别存入数据库,但不能丢失格式;
后续需要读取数据库显示到网页上,格式不变
强调:难点在图片的位置、化学、数学公式的显示。
目前只有这么多分,全部贡献出来,如果不够,另行感谢!
公式显示我认为不是什么问题,你可以测试看看文档另存为,另存为htm文件后公式已经变成图片了(通过word插入的公式)。
我认为你的问题的核心是怎么去匹配各个元素(题干、选项之类的),先将Word文件另存为htm文件,然后分析各个元素,正则提取元素内容吧,格式能不要就尽量不要了,以后放到页面浏览时统一制定格式还好处理些,实在不行就在取题目元素时将转换后的htm样式定义保存下来统一处理。
总之,问题铁定是可以解决的,看你怎么处理了,另外,office2007的文档信息可以通过 xml 处理,那样应该要好办很多,结合 htm 看看吧。追问
我导出xml分析了,垃圾样式一大堆,公式显示有问题,比如上面化学公式 “等号上的光” 就不见了!
参考技术A 可以讲 整个word 以二进制流的形式存入数据库吗?如果行的话 你再告诉我!追问不行,需要提取按字段存储,比如 题型、分值、答案等,是要在不同的字段的
追答哥们这个 有点难了!
追问是很难呀,要不我就不在这里求教了,困扰一星期了,一直没有解决,我现在只能单独提出文字,另存图片,但是无法定位图片在文字段中的位置,还有化学公式啥的,搞不定呀
C语言编写一个程序从特定的文件中提取特定的字符串。
用C语言,编写一个程序要求: 从一个文本文档中:如1.txt(比如内容是....44353we5423/trans=“agdegewdsasdwer”...2344wewe....)提取字符串为/trans=“后面的内容既agdegewdsasdwer,并将这段文字输入到另一个文件中如2.txt。
另外还有一个要求,这一大段文字上面还有其他文字,包括换行符等等,我写的程序遇到换行符既 /0 就自己停止了,要求程序也能过滤换行符:
比如:1.txt
【很多空格】fdsfasdfef【换行符】
【很多空格】trans=/"dafdfdsfa【换行符】
。。。。。
【很多空格】 dfasdfasdf【换行符】
【很多空格】 dsfa“
就比如上面要求把trans=””双引号之间的内容提取出来。提取出来的内容,60个字换一行,并输入到2,txt中,回答的好的,继续追加分数
#include "stdio.h"//
#include "string.h"//
#include "stdlib.h"//
void main(void)
FILE *pR,*pW;
char CoStr[20],ln,ch,i=0;
if(!(pR=fopen("ABC.txt","r")))
printf("源文件打开失败...");
exit(0);
printf("请输入特定字符串...\nCoStr=");
ln=strlen(gets(CoStr));
do
fseek(pR,-i,SEEK_CUR);
for(i=0;i<ln;i++)
if((ch=getc(pR))!=CoStr[i]) break;
if(ch==EOF)
printf("没有发现特定字符串%s!\n",CoStr);
exit(0);
while(i<ln);
if(!(pW=fopen("XYZ.txt","w")))
printf("创建目标文件失败...");
exit(0);
while((ch=getc(pR))!='"' && ch!=(char)176);
while((ch=getc(pR))!='"' && ch!=(char)177)
if(ch=='\n' || ch==' ') continue;
putc(ch,pW);
fclose(pW);
fclose(pR);
printf("文件已成功建立,名为XYZ.txt\n");
参考技术A 楼上那个试了下没用,这里给楼主写个满足你要求的。
/*程序写了两个函数,FormatFind用于查找目标文本中是否存在trans=/"。。。。"的格式,返回是否找到这种格式,其中变量PfOffset和PfLength用于记录目标文件中匹配内容的文件偏移量和内容长度。能满足屏蔽换行符等其它任何不合法符合,而且内容必须要有"结束才算合法。
FormatPrint函数用于按60个字为一行输出到另一文本中
主函数由于使用了传递参数,所以要求在dos下按格式调用此程序,假设编译后程序名为a.exe,且同一目录下有目标文本,假设为1.txt,拷贝到2.txt中
格式为:dos命令行中,在a.exe的目录下,输入 a 1.txt 2.txt
*/
#include<stdio.h>
#include<windows.h>
char FormatFind(FILE *fpIn,long *PfOffset,long *PfLength);
void FormatPrint(FILE *fpIn,FILE *fpOut,long PfOffset,long PfLength);
void main(int argc, char *argv[])
FILE *fpIn,*fpOut;
long PfOffset = 0,PfLength = 0;
if(argc == 3)//满足main函数输入格式
if( (fpIn = fopen(argv[1],"r")) == NULL)//原文件打开成功,即文件存在
printf("文件不存在");
exit(0);
fpOut = fopen(argv[2],"w");
printf("开始查找...\n");
if( FormatFind(fpIn,&PfOffset,&PfLength) )//查找格式匹配的内容是否存在
printf("文本中发现匹配内容,内容长度为%ld字节\n",PfLength);
printf("开始拷贝...\n");
FormatPrint(fpIn,fpOut,PfOffset,PfLength);//将格式匹配内容存盘
printf("拷贝完成,存放在%s文件中\n",argv[2]);
else
printf("文本中没有匹配内容");
fclose(fpIn);
fclose(fpOut);
else//不满足main函数输入格式
printf("命令错误");
#define MATCH0WORD 0
#define MATCH1WORD 1
#define MATCH2WORD 2
#define MATCH3WORD 3
#define MATCH4WORD 4
#define MATCH5WORD 5
#define MATCH6WORD 6
#define MATCH7WORD 7
#define MATCHCHECK 99
#define MATCHEND 100
char FormatFind(FILE *fpIn,long *PfOffset,long *PfLength)
char ch;
char match = MATCH0WORD;
*PfLength = 0;
while(feof(fpIn) == 0)
ch = getc(fpIn);
switch(match)
//trans=/"
case MATCH0WORD:
if(ch == 't')
match = MATCH1WORD;
break;
case MATCH1WORD:
if(ch == 'r')
match = MATCH2WORD;
else
match = MATCH0WORD;
break;
case MATCH2WORD:
if(ch == 'a')
match = MATCH3WORD;
else
match = MATCH0WORD;
break;
case MATCH3WORD:
if(ch == 'n')
match = MATCH4WORD;
else
match = MATCH0WORD;
break;
case MATCH4WORD:
if(ch == 's')
match = MATCH5WORD;
else
match = MATCH0WORD;
break;
case MATCH5WORD:
if(ch == '=')
match = MATCH6WORD;
else
match = MATCH0WORD;
break;
case MATCH6WORD:
if(ch == '/')
match = MATCH7WORD;
else
match = MATCH0WORD;
break;
case MATCH7WORD:
if(ch == '\"')
match = MATCHCHECK;
else
match = MATCH0WORD;
break;
case MATCHCHECK:
*PfOffset = ftell(fpIn) - 1;
match = MATCHEND;
break;
case MATCHEND:
(*PfLength)++;
if(ch == '\"')
return 1;
return 0;
#define RowNum 60
void FormatPrint(FILE *fpIn,FILE *fpOut,long PfOffset,long PfLength)
char ch;
long i = 0;
fseek(fpIn,PfOffset,SEEK_SET);
while(PfLength > 0)
ch = getc(fpIn);
putc(ch,fpOut);
i++;
if( (i % RowNum) == 0 )
putc('\n',fpOut);
PfLength--;
追问
恩!非常不错,可是我的头文件校验失败。我还特定跑去CSDN下载了全部的头文件还是失败!求教你是用哪个C版本,我是tubor C++ 3.0
参考技术B 提取/trans=“后面的内容既agdegewdsasdwer表达不够清楚,/trans=“后面的内容除了agdegewdsasdwer还有...2344wewe....你是以什么为界限的??追问以双引号为界,比如/trans=""既提取双引号之间的字符,另外还有一个要求,这一大段文字上面还有其他文字,包括换行符等等,我写的程序遇到换行符既 /0 就自己停止了,要求程序也能过滤换行符:
比如:1.txt
【很多空格】fdsfasdfef【换行符】
【很多空格】trans=/"dafdfdsfa【换行符】
【很多空格】 dfasdfasdf【换行符】
【很多空格】 dsfa“
就比如上面要求把trans=””双引号之间的内容提取出来。
以上是关于关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。的主要内容,如果未能解决你的问题,请参考以下文章
我想用poi解析word文档,文档的内容基本是若干个标题,每个标题下面跟一段内容,内容包括文字图片表格