用C语言编写的这个链表程序可以运行,但是在运行中查找不到给定值的节点, 求高手帮忙改一下,谢谢
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用C语言编写的这个链表程序可以运行,但是在运行中查找不到给定值的节点, 求高手帮忙改一下,谢谢相关的知识,希望对你有一定的参考价值。
#include <stdio.h>
#include <stdlib.h>
#include <malloc.h>
typedef struct linknode
char data;
struct linknode *next;
Mynode;
void menu()
printf("本代码实现链表的如下几个基本功能,请选择对应的功能选项进行相应操作:\n");
printf("1.创建链表\n");
printf("2.查找字符\n");
printf("3.删除字符\n");
printf("4.插入字符\n");
printf("5.显示所有字符\n");
printf("0.退出程序\n");
void Create()
Mynode *p,*head,*s;
char x;
head=(Mynode *)malloc(sizeof(Mynode));
p=head;
while(1)
fflush(stdin);
scanf("%c",&x);
if(x!='#')
s=(Mynode *)malloc(sizeof(Mynode));
s->data=x;
p->next=s;
p=s;
else
break;
p->next=NULL;
p=head;
head=head->next;
free(p);
void find(head,x)
Mynode *head;
Mynode *p;
int i=1;
p=head;
printf("输入要查找的字符。");
fflush(stdin);
scanf("%c",&x);
while(p!=NULL&&p->data!=x)
p=p->next;
i++;
if(p!=NULL)
printf("结点位于第%d位\n",i);
else
printf("无此结点\n");
void delete(head,x)
Mynode *head;
char x;
Mynode *p,*q;
printf("输入要删除的字符。");
fflush(stdin);
scanf("%c",&x);
if(head==NULL)
printf("链表下溢");
if(head->data==x)
p=head;
head=head->next;
free(p);
else
q=head;p=head->next;
while(p!=NULL&&p->data!=x)
if(p->data!=x)
q=p;
p=p->next;
if(p!=NULL)
q->next=p->next;
free(p);
else
printf("结点未找到.\n");
void insert(head,i,x)
Mynode *head;
int i;
char x;
Mynode *s,*p;
int j;
printf("输入要插入的字符。");
fflush(stdin);
scanf("%c",&x);
printf("输入插入位置。");
fflush(stdin);
scanf("%d",&i);
s=(Mynode *)malloc(sizeof(Mynode));
s->data=x;
if(i==0)
s->next=head;
head=s;
else
p=head;j=1;
while(p!=NULL&&j<i)
j++;
p=p->next;
if(p!=NULL)
s->next=p->next;
p->next=s;
else
printf("结点未找到.\n");
void showall(head)
Mynode *head;
Mynode *p;
p=head;
while(p!=NULL)
printf("%c",p->data);
p=p->next;
void main()
char c;
int choice;
menu();
printf("本代码实现链表的几个基本功能,请选择对应的功能选项进行相应操作:");
fflush(stdin);
scanf("%d",&choice);
while(1)
switch(choice)
case 1:
printf("请依次输入链表的字符序列,结束请输入'#'\n");
Create();
break;
case 2:
find();
while(1)
printf("是否继续? y/n?");
fflush(stdin);
scanf("%c",&c);
if(c=='y')
find();
else
break;
break;
case 3:
delete();
showall();
while(1)
printf("是否继续? y/n?");
fflush(stdin);
scanf("%c",&c);
if(c=='y')
delete();
showall();
else
break;
break;
case 4:
insert();
showall();
while(1)
printf("是否继续? y/n?");
fflush(stdin);
scanf("%c",&c);
if(c=='y')
insert();
showall();
else break;
break;
case 5:
showall();
break;
case 0:
exit(0);
menu();
printf("本代码实现链表的几个基本功能,请选择对应的功能选项进行相应操作:");
fflush(stdin);
scanf("%d",&choice);
【1】mian函数中引用的几个函数,如insert();showall();函数中没有放入参数,编译器是不能编译通过的。
【2】创建链表的函数没有返回链表头指针,各种查找,删除功能是无用武之地的。
【3】自己注意带头结点的链表与不带头结点的操作方式。
【4】代码修改如下,可以正确运行。
#include <stdio.h>
#include <stdlib.h>
#include <malloc.h>
typedef struct linknode
char data;
struct linknode *next;
Mynode;
void menu();
Mynode * Create();
void find(Mynode *head,char x);
Mynode * mydelete(Mynode *head,char x);
Mynode * insert(Mynode *head,char x);
void showall(Mynode *head);
void main()
char c;
int choice;
Mynode *head=NULL;
menu();
printf("本代码实现链表的几个基本功能,请选择对应的功能选项进行相应操作:");
fflush(stdin);
scanf("%d",&choice);
while(1)
switch(choice)
case 1:
printf("请依次输入链表的字符序列,结束请输入'#'\n");
head = Create();
break;
case 2:
while(1)
printf("是否继续? y/n?");
fflush(stdin);
scanf("%c",&c);
if(c=='y')
find(head,c);
else
break;
break;
case 3:
while(1)
printf("是否继续? y/n?");
fflush(stdin);
scanf("%c",&c);
if(c=='y')
mydelete(head,c);
showall(head);
else
break;
break;
case 4:
while(1)
printf("是否继续? y/n?");
fflush(stdin);
scanf("%c",&c);
if(c=='y')
insert(head,c);
showall(head);
else
break;
break;
case 5:
showall(head);
break;
case 0:
exit(0);
menu();
printf("本代码实现链表的几个基本功能,请选择对应的功能选项进行相应操作:");
fflush(stdin);
scanf("%d",&choice);
void menu()
printf("本代码实现链表的如下几个基本功能,请选择对应的功能选项进行相应操作:\n");
printf("1.创建链表\n");
printf("2.查找字符\n");
printf("3.删除字符\n");
printf("4.插入字符\n");
printf("5.显示所有字符\n");
printf("0.退出程序\n");
Mynode * Create()
Mynode *p,*head,*s;
char x;
head=(Mynode *)malloc(sizeof(Mynode));
head->next = NULL;
p=head;
fflush(stdin);
while(1)
// fflush(stdin);
scanf("%c",&x);
if(x!='#')
s=(Mynode *)malloc(sizeof(Mynode));
s->data=x;
p->next=s;
p=s;
else
break;
p->next=NULL;
return head;
void find(Mynode *head,char x)
Mynode *p;
int i=1;
p=head->next;
printf("输入要查找的字符。");
fflush(stdin);
scanf("%c",&x);
while(p!=NULL&&p->data!=x)
p=p->next;
i++;
if(p!=NULL)
printf("结点位于第%d位\n",i);
else
printf("无此结点\n");
Mynode * mydelete(Mynode *head,char x)
Mynode *p,*q;
printf("输入要删除的字符。");
fflush(stdin);
scanf("%c",&x);
if(head==NULL)
printf("链表下溢");
q=head;
p=head->next;
while(p!=NULL&&p->data!=x)
if(p->data!=x)
q=p;
p=p->next;
if(p!=NULL)
q->next=p->next;
free(p);
else
printf("结点未找到.\n");
return head;
Mynode * insert(Mynode *head,char x)
Mynode *s,*p;
int j,i=0;
printf("输入要插入的字符。");
fflush(stdin);
scanf("%c",&x);
printf("输入插入位置。");
fflush(stdin);
scanf("%d",&i);
s=(Mynode *)malloc(sizeof(Mynode));
s->data=x;
s->next = NULL;
p=head;
j=1;
while(p->next!=NULL&&j<i)
j++;
p=p->next;
s->next = p->next;
p->next=s;
return head;
void showall(Mynode *head)
Mynode *p;
p=head->next;
while(p!=NULL)
printf("%c ",p->data);
p=p->next;
printf("\n");
参考技术A 楼主,程序太长,看的眼晕,自己写了个,跟你的功能差不多的,你参考下吧,带密码验证的。
#include<stdio.h>
#include<stdlib.h>
#define LEN sizeof(struct student)
int m=0,n=0;
typedef struct student
int num;
float score;
struct student *next;
student;
struct student * fir(struct student *head)
void tool(void);
void switc(struct student *head);
char ch[20]="hades123";
char str[20];
printf("please enter key:\n");
gets(str);
n=n+1;
if(strcmp(ch,str)!=0)
printf("error\n");
if(n<3)
fir(head);
else
return head;
else
printf("恭喜\n");
tool();
switc(head);
return head;
void pri(struct student *head)
struct student *p1;
p1=head;
if(p1->num==NULL)
printf("链表为空,请先创建链表\n");
else
while(p1!=NULL)
printf("num:%d score:%5.1f\n",p1->num,p1->score);
p1=p1->next;
void tool(void)
printf(" * * * * * * * * * * * * * * * * * * * * *\n");
printf(" * 1.创建 *\n");
printf(" * 2.插入 *\n");
printf(" * 3.查找 *\n");
printf(" * 4.删除 *\n");
printf(" * 5.输出 *\n");
printf(" * * * * * * * * * * * * * * * * * * * * *\n");
void switc(struct student *head)
void find(struct student *head);
struct student * del(struct student*head);
struct student *add(struct student *head);
struct student * creat(void);
int n;
scanf("%d",&n);
switch(n)
case 1:head=creat(),system("cls"),tool(),switc(head);break;
case 2:head=add(head),tool(),switc(head);break;
case 3:find(head),tool(),switc(head);break;
case 4:head=del(head),tool(),switc(head);break;
case 5:system("cls"),pri(head),tool(),switc(head);break;
default:system("cls"),printf("error\n"),tool(),switc(head);
void find(struct student *head)
void num(struct student *head);
void score(struct student *head);
int n;
struct student *p1;
p1=head;
if(p1->num==NULL)
printf("链表为空,请先创建链表\n");
else
printf("num值查询请按1,score值查询请按2\n");
scanf("%d",&n);
if(n==1||n==2)
switch(n)
case 1:num(head);break;
case 2:score(head);break;
default:printf("未找到有关该同学的信息!\n");
else
find(head);
void num(struct student *head)
struct student *p1;
int numa;
p1=head;
printf("please enter num:");
scanf("%d",&numa);
while(numa!=p1->num&&p1->next!=NULL)
p1=p1->next;
if(numa==p1->num)
printf("%d %5.1f\n",p1->num,p1->score);
else
printf("未找到相关信息!\n");
void score(struct student *head)
struct student *p1;
float scorea;
p1=head;
//
printf("请输入score值:");
scanf("%f",&scorea);
while(scorea!=p1->score&&p1->next!=NULL)
p1=p1->next;
if(scorea==p1->score)
printf("%d %5.1f\n",p1->num,p1->score);
else
printf("未找到相关信息!\n");
struct student * del(struct student*head)//没有问题
struct student *p1,*p2;
int num;
struct student *p3;
p3=head;
if(p3->num==NULL)
printf("链表为空,请先创建链表\n");
else
printf("请输入要删除的学生的num值:");
scanf("%d",&num);
p1=head;
while(num!=p1->num&&p1->next!=NULL)
p2=p1;
p1=p1->next;
if(num==p1->num)
if(p1==head)
head=p1->next;
else
p2->next=p1->next;
printf("删除的学生的num值为%d,score为%5.1f\n",p1->num,p1->score);
else printf("error\n");
return head;
struct student * addQ(struct student*head)
struct student *p1,*p2,*p3;
int num;
p3=(struct student *)malloc(LEN);
printf("请输入需要插入的数据num:");
scanf("%d",&p3->num);
printf("score:");
scanf("%f",&p3->score);
printf("请输入一个num值,以上输入的数据会插入到此num值所对应的位置之前:");
scanf("%d",&num);
p1=head;
while(num!=p1->num&&p1->next!=NULL)
p2=p1;
p1=p1->next;
if(num==p1->num)
if(p1==head)
p3->next=p1;
head=p3;
else
p3->next=p1;
p2->next=p3;
else
printf("the num not been found\n");
p1=head;
return head;
struct student * addH(struct student*head)
struct student*p1,*p2,*p3;
/*if(head==NULL)
printf("\n***空链表***\n");
goto end;
*/
int num;
p3=(struct student*)malloc(LEN);
printf("请输入需要插入的数据num:");
scanf("%d",&p3->num);
printf("请输入需要插入的score:");
scanf("%f",&p3->score);
printf("请输入一个num值,以上输入的数据会插入到此num值所对应的位置之后:");
scanf("%d",&num);
p1=head;
while(num!=p1->num&&p1->next!=NULL)
p2=p1;
p1=p1->next;
if(num==p1->num)
if(p1->next!=NULL)
p2=p1->next;//为什么讲p1->next换成p1+1就会错误??
p1->next=p3;
p3->next=p2;
else
p1->next=p3;
p3->next=NULL;
else
printf("the num not beeen found\n");
p1=head;
while(p1!=NULL)
printf("%d %5.1f\n",p1->num,p1->score);
p1=p1->next;
return head;
struct student *add(struct student *head)
int n;
struct student *p1;
p1=head;
if(p1->num==NULL)
printf("链表为空,请先创建链表\n");
else
printf("节点前插入请按1,节点后插入请按2\n");
scanf("%d",&n);
if(n==1||n==2)
switch(n)
case 1:head=addQ(head);break;
case 2:head=addH(head);
else
add(head);
return head;
struct student * creat(void)
int n;
struct student *head;
struct student *p1,*p2;
m=m+1;
if(m==1)
printf("请先输入所有num和score的值:\n当有num值为0,score为任意值时输入完成\n");
n=0; p1=p2=(struct student *)malloc(LEN);
printf("num:");
scanf("%d",&p1->num);
printf("score:");
scanf("%f",&p1->score);
head=NULL;
while(p1->num!=0)
n=n+1;
if(n==1)
head=p1;
else
p2->next=p1;
p2=p1;
p1=(struct student*)malloc(LEN);
printf("num:");
scanf("%d",&p1->num);
printf("score:");
scanf("%f",&p1->score);
p2->next=NULL;
return head;
else
printf("已创建过链表\n");
return head;
int main()
struct student *head;
head = (student *)malloc(LEN);
head->num= NULL;
printf("key:hades123\n");
printf("三次错误自动退出程序\n");
fir(head);
return 0;
如何快速地编写和运行一个属于自己的MapReduce例子程序
大数据的时代, 到处张嘴闭嘴都是Hadoop, MapReduce, 不跟上时代怎么行? 可是对一个hadoop的新手, 写一个属于自己的MapReduce程序还是小有点难度的, 需要建立一个maven项目, 还要搞清楚各种库的依赖, 再加上编译运行, 基本上头大两圈了吧。 这也使得很多只是想简单了解一下MapReduce的人望而却步。本文会教你如何用最快最简单的方法编写和运行一个属于自己的MapReduce程序, let\'s go!
首先有两个前提:
1. 有一个已经可以运行的hadoop 集群(也可以是伪分布系统), 上面的hdfs和mapreduce工作正常 (这个真的是最基本的了, 不再累述, 不会的请参考 http://hadoop.apache.org/docs/current/)
2. 集群上安装了JDK (编译运行时会用到)
正式开始
1. 首先登入hadoop 集群里面的一个节点, 创建一个java源文件, 偷懒起见, 基本盗用官方的word count (因为本文的目的是教会你如何快编写和运行一个MapReduce程序, 而不是如何写好一个功能齐全的MapReduce程序)
内容如下:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class myword
public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens())
word.set(itr.nextToken());
context.write(word, one);
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable>
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException
int sum = 0;
for (IntWritable val : values)
sum += val.get();
result.set(sum);
context.write(key, result);
public static void main(String[] args) throws Exception
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2)
System.err.println(\'Usage: wordcount <in> <out>\');
System.exit(2);
Job job = new Job(conf, \'word count\');
job.setJarByClass(myword.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
与官方版本相比, 主要做了两处修改
1) 为了简单起见,去掉了开头的 package org.apache.hadoop.examples;
2) 将类名从 WordCount 改为 myword, 以体现是我们自己的工作成果 :)
2. 拿到hadoop 运行的class path, 主要为编译所用
运行命令
hadoop classpath
保存打出的结果,本文用的hadoop 版本是Pivotal 公司的Pivotal hadoop, 例子:
/etc/gphd/hadoop/conf:/usr/lib/gphd/hadoop/lib/*:/usr/lib/gphd/hadoop/.//*:/usr/lib/gphd/hadoop-hdfs/./:/usr/lib/gphd/hadoop-hdfs/lib/*:/usr/lib/gphd/hadoop-hdfs/.//*:/usr/lib/gphd/hadoop-yarn/lib/*:/usr/lib/gphd/hadoop-yarn/.//*:/usr/lib/gphd/hadoop-mapreduce/lib/*:/usr/lib/gphd/hadoop-mapreduce/.//*::/etc/gphd/pxf/conf::/usr/lib/gphd/pxf/pxf-core.jar:/usr/lib/gphd/pxf/pxf-api.jar:/usr/lib/gphd/publicstage:/usr/lib/gphd/gfxd/lib/gemfirexd.jar::/usr/lib/gphd/zookeeper/zookeeper.jar:/usr/lib/gphd/hbase/lib/hbase-common.jar:/usr/lib/gphd/hbase/lib/hbase-protocol.jar:/usr/lib/gphd/hbase/lib/hbase-client.jar:/usr/lib/gphd/hbase/lib/hbase-thrift.jar:/usr/lib/gphd/hbase/lib/htrace-core-2.01.jar:/etc/gphd/hbase/conf::/usr/lib/gphd/hive/lib/hive-service.jar:/usr/lib/gphd/hive/lib/libthrift-0.9.0.jar:/usr/lib/gphd/hive/lib/hive-metastore.jar:/usr/lib/gphd/hive/lib/libfb303-0.9.0.jar:/usr/lib/gphd/hive/lib/hive-common.jar:/usr/lib/gphd/hive/lib/hive-exec.jar:/usr/lib/gphd/hive/lib/postgresql-jdbc.jar:/etc/gphd/hive/conf::/usr/lib/gphd/sm-plugins/*:
3. 编译
运行命令
javac -classpath xxx ./myword.java
xxx部分就是上一步里面取到的class path
运行完此命令后, 当前目录下会生成一些.class 文件, 例如:
myword.class myword$IntSumReducer.class myword$TokenizerMapper.class
4. 将class文件打包成.jar文件
运行命令
jar -cvf myword.jar ./*.class
至此, 目标jar 文件成功生成
5. 准备一些文本文件, 上传到hdfs, 以做word count的input
例子:
随意创建一些文本文件, 保存到mapred_test 文件夹
运行命令
hadoop fs -put ./mapred_test/
确保此文件夹成功上传到hdfs 当前用户根目录下
6. 运行我们的程序
运行命令
hadoop jar ./myword.jar myword mapred_test output
顺利的话, 此命令会正常进行, 一个MapReduce job 会开始工作, 输出的结果会保存在 hdfs 当前用户根目录下的output 文件夹里面。
至此大功告成!
如果还需要更多的功能, 我们可以修改前面的源文件以达到一个真正有用的MapReduce job。
但是原理大同小异, 练手的话, 基本够了。
一个抛砖引玉的简单例子, 欢迎板砖。
转载 参考技术A
可以只用一行代码来运行MapReduce作业:JobClient.runJon(conf),Job作业运行时参与的四个实体:
1.JobClient 写代码,配置作业,提交作业。
2.JobTracker:初始化作业,分配作业,协调作业运行。这是一个java程序,主类是JobTracker。
3.TaskTracker:运行作业划分后的任务,即分配数据分配上执行Map或Reduce任务。
4.HDFS:保存作业数据、配置信息等,保存作业结果。
Map/Reduce 作业总体执行流程:
代码编写 ----> 作业配置 ----> 作业提交 ----> Map任务分配和执行 ----> 处理中间结果 ----> Reduce任务分配与执行 ----> 输出结果
而对于每个作业的执行,又包含:
输入准备 ----> 任务执行 ----> 输出结果
作业提交JobClient:
JobClient的runJob方法产生一个Jobclient实例并调用其submitJob方法,然后runJob开始循环吗,并在循环中调用getTaskCompetionEvents方法,获得TaskCompletionEvent实例,每秒轮询作业进度(后面有介绍进度和状态更新),把进度写到控制台,作业完成后显示作业计数器,若失败,则把错误记录到控制台。
submitJob方法作业提交的过程:
1.向JobTracker请求一个新的JobId。
2.检查作业相关路径,如果路径不正确就会返回错误。
3.计算作业输入分片及其划分信息。
4.将作业运行需要的资源(jar文件、配置文件等)复制到Shared HDFS,并
复制多个副本(参数控制,默认值为10)供tasktracker访问,也会将计算的分片复制到HDFS。
5.调用JobTracker对象的submitJob()方法来真正提交作业,告诉JobTracker作业准备执行。
作业的初始化JobTracker:
JobTracker收到submitJob方法调用后,会把调用放入到一个内部队列,由作业调度器(Job scheduler)进行调度并对其初始化。Job初始化即创建一个作业对象。
当作业被调度后,JobTracker会创建一个代表这个作业的JobInProgress对象,并将任务和记录信息封装在这个对象中,以便跟踪任务状态和进程。
初始化过程就是JobInProgress对象的initTasks方法进行初始化的。
初始化步骤:
1.从HDFS中读取作业对应的job.split信息,为后面的初始化做好准备。
2.创建并初始化map和reduce任务。根据数据分片信息中的个数确定map task的个数,然后为每个map task生成一个TaskInProgress对象来处理数据分片,先将其放入nonRunningMapCache,以便JobTracker分配任务的时候使用。接下来根据JobConf中的mapred.reduce.tasks属性利用setNumReduceTasks()方法设置reduce task的数量,然后同map task创建方式。
3.最后就是创建两个初始化task,进行map和reduce的初始化。
任务的分配JobTracker:
消息传递HeartBeat: tasktracker运行一个简单循环定期发送心跳(heartbeat)给JobTracker。由心跳告知JobTracker自己是否存活,同时作为消息通道传递其它信息(请求新task)。作为心跳的一部分,tasktracker会指明自己是否已准备好运行新的任务,如果是,jobtracker会分配它一个任务。
分配任务所属于的作业:在Jobtracker分配任务前需先确定任务所在的作业。后面会介绍到各种作业调度算法,默认是一个FIFO的作业调度。
分配Map和Reduce任务:tasktracker有固定数量的任务槽,一个tasktracker可以同时运行多个Map和Reduce任务,但其准确的数量由tasktracker的核的数量和内存大小决定。默认调度器会先填满Map任务槽,再填Reduce任务槽。jobtracker会选择距离离分片文件最近的tasktracker,最理想情况下,任务是数据本地化(data-local)的,当然也可以是机架本地化(rack-local),如果不是本地化的,那么他们就需要从其他机架上检索数据。Reduce任务分配很简单,jobtracker会简单的从待运行的reduce任务列表中选取下一个来执行,不用考虑数据本地化。
任务的执行TaskTracker:
TaskTracker收到新任务后,就要在本地运行任务了,运行任务的第一步就是通过localizedJob将任务本地化所需要的注入配置、数据、程序等信息进行本地化。
1.本地化数据:从共享文件系统将job.split 、job.jar (在分布式缓存中)复制本地,将job配置信息写入job.xml。
2.新建本地工作目录:tasktracker会加压job.jar文件到本工作目录。
3.调用launchTaskForJob方法发布任务(其中会新建TaskRunner实例运行任务),如果是Map任务就启用MapTaskRunner,对于Reduce就是ReduceTaskRunner。
在这之后,TaskRunner会启用一个新的JVM来运行每个Map/Reduce任务,防止程序原因而导致tasktracker崩溃,但不同任务间重用JVM还是可以的,后续会讲到任务JVM重用。
对于单个Map,任务执行的简单流程是:
1.分配任务执行参数
2.在Child临时文件中添加map任务信息(Child是运行Map和Reduce任务的主进程)
3.配置log文件夹,配置map任务的通信和输出参数
4.读取input split,生成RecordReader读取数据
5.为Map生成MapRunnable,依次从RecordReader中接收数据,并调用Map函数进行处理。
6.最后将map函数的输出调用collect收集到MapOutputBuffer(参数控制其大小)中。
Streaming和Pipes:
Streaming和Pipes都运行特殊的Map和Reduce任务,目的是运行用户提供的可执行程序并与之通信。
Streaming:使用标准输入输出Streaming与进程进行通信。
Pipes:用来监听套接字,会发送一个端口号给C++程序,两者便可建立链接。
进度和状态更新:
一个作业和它的任务都有状态(status),其中包括:运行成功失败状态、Map/Reduce进度、作业计数器值、状态消息。
状态消息与客户端的通信:
1.对于Map任务Progress的追踪:progress是已经处理完的输入所占的比例。
2.对于Reduce:稍复杂,reduce任务分三个阶段(每个阶段占1/3),复制、排序和Reduce处理,若reduce已执行一半的输入的话,那么任务进度便是1/3+1/3+1/6=5/6。
3.任务计数器:任务有一组计数器,负责对任务运行各个事件进行计数。
4.任务进度报告:如果任务报告了进度,便会设置一个标记以表明状态将被发送到tasktracker。有一个独立线程每隔三秒检查一次此标记,如果已设置,则告知tasktracker当前状态。
5.tasktracker进度报告:tasktracker会每隔5秒(这个心跳是由集群大小决定,集群越大时间会越长)发送heartbeat到jobtracker,并且tasktracker运行的所有状态都会在调用中被发送到jobtracker。
6.jobtracker合并各任务报告:产生一个表明所有运行作业机器所含任务状态的全局视图。
前面提到的JobClient就是通过每秒查询JobTracker来接收最新状态,而且客户端JobClient的getJob方法可以得到一个RunningJob的实例,其包含了作业的所以状态信息。
作业的完成:
当jobtracker收到作业最后一个任务已完成的通知后,便把作业状态设置成成功。JobClient查询状态时,便知道任务已成功完成,于是JobClient打印一条消息告知用户,然后从runJob方法返回。
如果jobtracker有相应设置,也会发送一个Http作业通知给客户端,希望收到回调指令的客户端可以通过job.end.notification.url属性来进行设置。
jobtracker情况作业的工作状态,指示tasktracker也清空作业的工作状态,如删除中间输出。
失败
实际情况下,用户的代码存在软件错误进程会崩溃,机器也会产生故障,但Hadoop能很好的应对这些故障并完成作业。
1.任务失败
子任务异常:如Map/Reduce任务中的用户代码抛出异常,子任务JVM进程会在退出前向父进程tasktracker发送错误报告,错误被记录用户日志。tasktracker会将此次task attempt标记为tailed,并释放这个任务槽运行另外一个任务。
子进程JVM突然退出:可能由于JVM bug导致用户代码造成的某些特殊原因导致JVM退出,这种情况下,tasktracker会注意到进程已经退出,并将此次尝试标记为failed。
任务挂起:一旦tasktracker注意一段时间没有收到进度更新,便会将任务标记为failed,JVM子进程将被自动杀死。任务失败间隔时间通常为10分钟,可以以作业或者集群为基础设置过期时间,参数为mapred.task.timeout。注意:如果参数值设置为0,则挂起的任务永远不会释放掉它的任务槽,随着时间的推移会降低整个集群的效率。
任务失败尝试次数:jobtracker得知一个tasktracker失败后,它会重新调度该任务执行,当然,jobtracker会尝试避免重新调度失败过的tasktracker任务。如果一个任务尝试次数超过4次,它将不再被重试。这个值是可以设置的,对于Map任务,参数是mapred.map.max.attempts,对于reduce任务,则由mapred.reduce.max.attempts属性控制。如果次数超过限制,整个作业都会失败。当然,有时我们不希望少数几个任务失败就终止运行的整个作业,因为即使有些任务失败,作业的一些结果可能还是有用的,这种情况下,可以为作业设置在不触发作业失败情况下的允许任务失败的最大百分比,Map任务和Reduce任务可以独立控制,参数为mapred.max.map.failures.percent 和mapred.max.reduce.failures.percent。
任务尝试中止(kill):任务终止和任务失败不同,task attempt可以中止是因为他是一个推测副本或因为它所处的tasktracker失败,导致jobtracker将它上面的所有task attempt标记为killed。被终止的task attempt不会被计入任务运行尝试次数,因为尝试中止并不是任务的错。
2.tasktracker失败
tasktracker由于崩溃或者运行过慢而失败,他将停止向jobtracker发送心跳(或很少发送心跳)。jobtracker注意已停止发送心跳的tasktracker(过期时间由参数mapred.tasktracker.expiry.interval设置,单位毫秒),并将它从等待调度的tasktracker池中移除。如果是未完成的作业,jobtracker会安排次tasktracker上已经运行成功的Map任务重新运行,因为此时reduce任务已无法访问(中间输出存放在失败的tasktracker的本地文件系统上)。
即使tasktracker没有失败,也有可能被jobtracker列入黑名单。如果tasktracker上面的失败任务数量远远高于集群的平均失败任务次数,他就会被列入黑名单,被列入黑名单的tasktracker可以通过重启从jobtracker黑名单中移除。
3.jobtracker失败
老版本的JobTracker失败属于单点故障,这种情况下作业注定失败。
作业调度:
早期作业调度FIFO:按作业提交顺序先进先出。可以设置优先级,通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法制定优先级(优先级别:VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW)。注意FIFO调度算法不支持抢占(preemption),所以高优先级作业仍然会被那些已经开始的长时间运行的低优先级作业所阻塞。
Fair Scheduler:目标是让每个用户公平地共享集群能力。当集群存在很多作业时,空闲的任务槽会以”让每个用户共享集群“的方式进行分配。默认每个用户都有自己的作业池。FairScheduler支持抢占,所以,如果一个池在特定的一段时间未得到公平地资源共享,它会终止池中得到过多的资源任务,以便把任务槽让给资源不足的池。FairScheduler是一个后续模块,使用它需要将其jar文件放在Hadoop的类路径下。可以通过参数map.red.jobtracker.taskScheduler属性配置(值为org.apache.hadoop.mapred.FairScheduler)
Capacity Scheduler:
集群由很多队列组成,每个队列都有一个分配能力,这一点与FairScheduler类似,只不过在每个队列内部,作业根据FIFO方式进行调度。本质上说,Capacity Scheduler允许用户或组织为每个用户模拟一个独立使用FIFO的集群。
shuffle和排序:
MapReduce确保每个Reducer的输入都是按键排序的。系统执行排序的过程-将map输出作为输入传给reducer的过程称为shuffle。shuffle属于不断被优化和改进的代码库的一部分,从许多方面来看,shuffle是MapReduce的心脏。
整个shuffle的流程应该是这样:
map结果划分partition 排序sort 分割spill 合并同一划分 合并同一划分 合并结果排序 reduce处理 输出
Map端:
写入缓冲区:Map函数的输出,是由collector处理的,它并不是简单的将结果写到磁盘。它利用缓冲的方式写到内存,并处于效率的考虑进行预排序。每个map都有一个环形的内存缓冲区,用于任务输出,默认缓冲区大小为100MB(由参数io.sort.mb调整),一旦缓冲区内容达到阈值(默认0.8),后台进程边开始把内容写到磁盘(spill),在写磁盘过程中,map输出继续被写到缓冲区,但如果缓冲区被填满,map会阻塞知道写磁盘过程完成。写磁盘将按照轮询方式写到mapred.local.dir属性制定的作业特定子目录中。
写出缓冲区:collect将缓冲区的内容写出时,会调用sortAndSpill函数,这个函数作用主要是创建spill文件,按照key值对数据进行排序,按照划分将数据写入文件,如果配置了combiner类,会先调用combineAndSpill函数再写文件。sortAndSpill每被调用一次,就会写一个spill文件。
合并所有Map的spill文件:TaskTracker会在每个map任务结束后对所有map产生的spill文件进行merge,merge规则是根据分区将各个spill文件中数据同一分区中的数据合并在一起,并写入到一个已分区且排序的map输出文件中。待唯一的已分区且已排序的map输出文件写入最后一条记录后,map端的shuffle阶段就结束了。
在写磁盘前,线程首先根据数据最终要传递到的reducer把数据划分成响应的分区(partition),在每个分区中,后台线程按键进行内排序,如果有一个combiner,它会在排序后的输出上运行。
内存达到溢出写的阈值时,就会新建一个溢出写文件,因为map任务完成其最后一个输出记录之后,会有几个溢出写文件。在任务完成前,溢出写文件会被合并成一个已分区且已排序的输出文件。配置属性io.sort.facor控制一次最多能合并多少流,默认值是10。
如果已经指定combiner,并且写次数至少为3(通过min.mum.spills.for.combine设置)时,则combiner就会在输出文件写到磁盘之前运行。运行combiner的意义在于使map输出更紧凑,舍得写到本地磁盘和传给reducer的数据更少。
写磁盘时压缩:写磁盘时压缩会让写的速度更快,节约磁盘空间,并且减少传给reducer的数据量。默认情况下,输出是不压缩的,但可以通过设置mapred.compress.map.output值为true,就可以启用压缩。使用的压缩库是由mapred.map.output.compression.codec制定。
reducer获得文件分区的工作线程:reducer通过http方式得到输出文件的分区,用于文件分区的工作线程数量由tracker.http.threads属性指定,此设置针对的是每个tasktracker,而不是每个map任务槽。默认值为40,在大型集群上此值可以根据需要而增加。
Reduce端:
复制阶段:reduce会定期向JobTracker获取map的输出位置,一旦拿到输出位置,reduce就会从对应的TaskTracker上复制map输出到本地(如果map输出很小,则会被复制到TaskTracker节点的内存中,否则会被让如磁盘),而不会等到所有map任务结束(当然这个也有参数控制)。
合并阶段:从各个TaskTracker上复制的map输出文件(无论在磁盘还是内存)进行整合,并维持数据原来的顺序。
Reduce阶段:从合并的文件中顺序拿出一条数据进行reduce函数处理,然后将结果输出到本地HDFS。
Map的输出文件位于运行map任务的tasktracker的本地磁盘,现在,tasktracker要为分区文件运行reduce任务。每个任务完成时间可能不同,但是只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段(copy phase)。reduce任务有少量复制线程,因此能够并行取得map输出。默认值是5个线程,可以通过mapred.reduce.parallel.copies属性设置。
Reducer如何得知从哪个tasktracker获得map输出:map任务完成后会通知其父tasktracker状态已更新,tasktracker进而通知(通过heart beat)jobtracker。因此,JobTracker就知道map输出和tasktracker之间的映射关系,reducer中的一个线程定期询问jobtracker以便获知map输出位置。由于reducer有可能失败,因此tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们,相反他会等待jobtracker告示它可以删除map输出时才删除,这是作业完成后最后执行的。
如果map输出很小,则会被直接复制到reduce tasktracker的内存缓冲区(大小由mapred.job.shuffle.input.buffer.percent控制,占堆空间的百分比),否则,map输出被复制到磁盘。一旦内存缓冲区达到阈值大小(由mapred.iob.shuffle.merge.percent)
或达到map输出阈值大小(mapred.inmem.threadhold),则合并后溢出写到磁盘中。
随着磁盘上副本增多,后台线程会将他们合并为更大的、排好序的文件。注意:为了合并,压缩的map输出必须在内存中被解压缩。
排序阶段:复制阶段完成后,reduce任务会进入排序阶段,更确切的说是合并阶段,这个阶段将合并map输出,维持其顺序排列。合并是循环进行的,由合并因子决定每次合并的输出文件数量。但让有可能会产生中间文件。
reduce阶段:在最后reduce阶段,会直接把排序好的文件输入reduce函数,不会对中间文件进行再合并,最后的合并即可来自内存,也可来自磁盘。此阶段的输出会直接写到文件系统,一般为hdfs。
细节:这里合并是并非平均合并,比如有40个文件,合并因子为10,我们并不是每趟合并10个,合并四趟。而是第一趟合并4个,后三趟合并10,在最后一趟中4个已合并的文件和余下6个未合并会直接并入reduce。
以上是关于用C语言编写的这个链表程序可以运行,但是在运行中查找不到给定值的节点, 求高手帮忙改一下,谢谢的主要内容,如果未能解决你的问题,请参考以下文章
用c语言链表编写一个学生信息系统程序,要求输出学生的学号,姓名,性别,还有三门课比如语,数,外的成绩
用Microsoft Visual Stdio2015编写C语言的问题