从数据集输出艺术家

Posted 杨鑫newlfe

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从数据集输出艺术家相关的知识,希望对你有一定的参考价值。

<strong><span style="font-size:18px;">/***
 * @author YangXin
 * @info 从数据集输出艺术家
 * 为了生成Last.fm数据集的特征向量,我们部署两个MapReduce作业。
 * 第一个作业以词典的形式生成独立的艺术家列表,第二个作业利用生成的词典来产生向量。
 */
package unitTwelve;

import java.io.IOException;
import java.util.regex.Pattern;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class DictionaryMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	private Pattern splitter;
	protected void map(LongWritable key, Text line, Context context) throws IOException, InterruptedException{
		String[] fields = splitter.split(line.toString());
		if(fields.length < 4){
			context.getCounter("Map", "LinesWithErrors").increment(1);
			return;
		}
		String artist = fields[1];
		context.write(new Text(artist), new IntWritable(0));
	}
	
	protected void setup(Context context) throws IOException, InterruptedException{
		super.setup(context);
		splitter = Pattern.compile("<sep>");
	}
}
</span></strong>

以上是关于从数据集输出艺术家的主要内容,如果未能解决你的问题,请参考以下文章

将此数据集作为 mongoDB 中的用户模式对象数组返回

使用空数据集的Spark SQL连接会导致更大的输出文件大小

如何php调用oracle存储过程返回的是一个结果集,该怎么从php页面中吧数据循环输出呀

r语言如何输出数据集过长,导致输出截断,怎么解决这个问题

我无法从亚马逊网络服务下载数据集 [关闭]

TensorFlow数据集——数据集的基本使用方法