从不断更新的文件中读取

Posted

技术标签:

【中文标题】从不断更新的文件中读取【英文标题】:Read from a file that is continuously being updated 【发布时间】:2013-05-19 12:01:36 【问题描述】:

我正在编写一些 C 代码来处理文件中的一些数据,但我刚刚了解到该文件将被不断添加(大约 1 次/秒,也许更快)。所以我想知道如何在添加文件时继续读取文件。然后当我走到最后,等到下一行被添加,然后处理它。然后再次等待,然后处理,依此类推。我有类似的东西:

while(1)
    fgets(line, sizeof(line), file);
    while(line == NULL)
       //wait ?  then try to read again?
    
    //tokenize line and do my stuff here

我以为我可以使用 inotify,但我对此无能为力。有人有什么建议吗?

【问题讨论】:

整行可能还没有写完,所以您可能需要继续阅读,直到找到\n。除非您需要更高级的内容,否则我会等待一段时间并尝试再次阅读。 最好与参与进程建立适当的共享内存情况,以允许适当的同步。您甚至可以将实际文件内存映射到每个进程中。 因此,首先文件包含我需要立即处理的 46k 行,然后文件将以大约 1 行/秒的速度更新。所以我做了我的while循环,然后最终我到达了一个点,fgets只是得到一个空行。因此,如果我在那里等待,然后手动在文件中添加一个新行并保存它 fgets 如何读取新输入的行?我想我有点困惑。 您的内部循环不应测试 line 是否为空。它应该更像:while (fgets(line, sizeof(line), file) != 0) process(line); ...nanosleep?...; clearerr(file);(然后将围绕while (1) 循环进行下一次尝试读取。 您可以关闭并重新打开文件并寻找之前遇到 EOF 时所在的位置,但我提到的 clearerr(file); 会清除流中的 EOF 和错误位,以便它会尝试读取文件中的更多数据(无需您关闭并重新打开并重新定位文件中的当前位置)。 【参考方案1】:

最有效的方式是使用inotify,直接的方式是直接使用read()系统调用。

使用inotify

以下代码可能会给你一些帮助,它在 Debian 7.0、GCC 4.7 上运行良好:

/*This is the sample program to notify us for the file creation and file deletion takes place in “/tmp/test_inotify” file*/
// Modified from: http://www.thegeekstuff.com/2010/04/inotify-c-program-example/
#include <stdio.h>
#include <stdlib.h>
#include <errno.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/inotify.h>

#define EVENT_SIZE  ( sizeof (struct inotify_event) )
#define EVENT_BUF_LEN     ( 1024 * ( EVENT_SIZE + 16 ) )

int main( )

  int length, i = 0;
  int fd;
  int wd;
  char buffer[EVENT_BUF_LEN];

  /*creating the INOTIFY instance*/
  fd = inotify_init();
  /*checking for error*/
  if ( fd < 0 ) 
    perror( "inotify_init error" );
  

  /* adding the “/tmp/test_inotify” test into watch list. Here, 
   * the suggestion is to validate the existence of the 
   * directory before adding into monitoring list.
   */
  wd = inotify_add_watch( fd, "/tmp/test_inotify", IN_CREATE | IN_DELETE | IN_ACCESS | IN_MODIFY | IN_OPEN );

  /* read to determine the event change happens on “/tmp/test_inotify” file. 
   * Actually this read blocks until the change event occurs
   */ 
  length = read( fd, buffer, EVENT_BUF_LEN ); 
  /* checking for error */
  if ( length < 0 ) 
    perror( "read" );
    

  /* actually read return the list of change events happens. 
   *  Here, read the change event one by one and process it accordingly.
   */
  while ( i < length ) 
    struct inotify_event *event = ( struct inotify_event * ) &buffer[ i ];
    if( event->len == 0) 
      // For a single file watching, the event->name is empty, and event->len = 0
      printf(" Single file watching event happened\n");
     else if ( event->len ) 
      if ( event->mask & IN_CREATE ) 
        if ( event->mask & IN_ISDIR ) 
          printf( "New directory %s created.\n", event->name );
         else 
          printf( "New file %s created.\n", event->name );
        
       else if ( event->mask & IN_DELETE ) 
        if ( event->mask & IN_ISDIR ) 
          printf( "Directory %s deleted.\n", event->name );
         else 
          printf( "File %s deleted.\n", event->name );
        
       else if( event->mask & IN_ACCESS ) 
        if ( event->mask & IN_ISDIR ) 
          printf( "Directory %s accessed.\n", event->name );
         else 
      printf(" File %s accessed. \n", event->name );
        
       else if( event->mask & IN_MODIFY ) 
        if ( event->mask & IN_ISDIR ) 
          printf( "Directory %s modified.\n", event->name );
         else 
      printf(" File %s modified. \n", event->name );
        
       else if( event->mask & IN_OPEN ) 
        if ( event->mask & IN_ISDIR ) 
          printf( "Directory %s opened.\n", event->name );
         else 
      printf(" File %s opened. \n", event->name );
        
       else 
    printf( "Directory or File is accessed by other mode\n");
      
    
    i += EVENT_SIZE + event->len;
  

  /* removing the “/tmp/test_inotify” directory from the watch list. */
  inotify_rm_watch( fd, wd );

  /* closing the INOTIFY instance */
  close( fd );


运行上述程序时。您可以通过创建一个名为 /tmp/test_inotify 的文件或目录来测试它。

详细解释可以看here

使用read系统调用

如果文件已打开,并且已读取到当前文件大小的末尾。 read() 系统调用将返回 0。如果稍后某个作者将N 字节写入此文件,那么read() 将只返回min(N, buffersize)

所以它适用于您的情况。以下是代码示例。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>

typedef int FD ;

int main() 
  FD filed = open("/tmp/test_inotify", O_RDWR );
  char buf[128];

  if( !filed ) 
    printf("Openfile error\n");
    exit(-1);
  

  int nbytes;
  while(1) 
    nbytes = read(filed, buf, 16);
    printf("read %d bytes from file.\n", nbytes);
    if(nbytes > 0) 
      split_buffer_by_newline(buf); // split buffer by new line.
    
    sleep(1);
  
  return 0;

参考

感谢 Jonathan Leffler 的评论 http://www.thegeekstuff.com/2010/04/inotify-c-program-example/

【讨论】:

read() 在普通文件上的问题是当读取位置在文件末尾时它立即返回 0。因此,在尝试新的读取之前,您必须进行某种等待。这与在管道、套接字或 FIFO 上读取形成对比,后者将阻塞等待更多数据到达。 inotify 信息可能是处理它的最佳方式。那个或循环然后睡觉...... 您似乎包含了来自您所链接网站的大量内容。包括一些是可以的,只要你给出适当的归属(就像你在这里一样),但把它作为你的答案通常是不合适的。请考虑尝试添加更多您自己的内容? (我知道您现在正在编辑它,而且似乎正在这样做。) 感谢您的评论,下次我会尝试发布自己的答案。下面是这个答案的解释: 1.虽然代码是从参考中复制的,但是原始代码不起作用,我已经修改和更新了大约20%的代码。 2. 我将对此答案进行改进并添加新内容。 这种方法如何用于外部命令?例如需要监视几秒钟后打印一些东西的外部命令输出 感谢@KunLing 发帖。我试过发布的例子。我已更改为我的本地机器路径。当我创建新文件时,只有在创建日志文件后它才会出现。我正在尝试直接验证文件创建列表。【参考方案2】:
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
int
main()


    char            ch;
    FILE           *fp;
    long int        nbytes_read = 0;
    char            str       [128];
    int             j = 0;
    int             first_time = 1;
    memset(str, '\0', 128);
    fp = fopen("file.txt", "r");
    while (1) 
            if (first_time != 1) 
                    fp = fopen("file.txt", "r");
                    fseek(fp, nbytes_read, SEEK_SET);
                    sleep(10);

            
            if (fp != NULL) 
                    while ((ch = fgetc(fp)) != EOF) 
                            if (ch == '\n') 
                                    str[j++] = ch;
                                    printf("%s", str);
                                    memset(str, '\0', 128);
                                    j = 0;
                             else 
                                    str[j++] = ch;
                            
                            nbytes_read++;


                    
                    //printf("%ld\n", nbytes_read);
                    first_time = 0;
            
            fclose(fp);
    
    return 0;

【讨论】:

虽然此代码可以回答问题,但提供有关其解决问题的方式和原因的信息可提高其长期价值【参考方案3】:

您可以使用select()fileno(file) 作为文件描述符。 select 将在超时(如果您设置超时)或您可以从文件中读取时返回。

【讨论】:

POSIX 中select() 的定义说:与常规文件关联的文件描述符对于准备读取、准备写入和错误条件应始终选择 true。跨度> 【参考方案4】:

使用select 可能是一个不错的选择,但如果您不想使用它,可以在读取值之前添加一小段毫秒的睡眠。

【讨论】:

POSIX 中select() 的定义说:与常规文件关联的文件描述符应始终为准备读取、准备写入和错误条件选择true。跨度>

以上是关于从不断更新的文件中读取的主要内容,如果未能解决你的问题,请参考以下文章

从不断变化的目录中复制文件和文件夹[关闭]

从不同文件发送数据的简单 perl 程序

从不工作的文件中读取字符串 C++

如何从不同于网络的本地文件中读取 InputStream 对象(通过 Amazon S3)?

Nginx 从不正确的根目录读取站点文件

FIFO:一个进程从不从管道中读取