Alpha冲刺-第二天
Posted lwdl
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Alpha冲刺-第二天相关的知识,希望对你有一定的参考价值。
1.1 今日完成任务情况以及遇到的问题。
完成任务情况
杜世康:实现弹幕的异步,批量存储,经测试,服务器的Jenkins服务,Tomcat服务启动时,在单个任务的爬取下,阿里云服务器(CPU 1核 内存 2G 固态磁盘 40G)的CPU使用率维持在10%上下,数据库写操作维持1 Count/s,入网0.8kb/s。增强后的程序应该能够完成弹幕文本的存储,如下图所示:
- 刘丹,李玉莹:经过细致分析,最终确定了弹幕文本有价值的分析方向。即弹幕整体样本的情感分析,词频分析,关键字分析等有价值的分析维度。
- 曹莹雯,尹楠: 了解到目前中文分词,比较权威的中科院开发的NLPIR/ICTCLAS分词系统非常适合我们团队的分析方向
王静雅 :完成弹幕管理中的弹幕列表功能,如下图,并撰写Alpha冲刺博文
遇到的问题
在弹幕存储后,对于弹幕的分词前,垃圾弹幕如何有效的过滤是个问题,比较常见的垃圾弹幕主要如下两种:
- 单个词,但又不是褒贬类的词汇:“的”、“一”等;各类标点符号或是特殊符号:“!!!!!!!!!!”、“。。。。。”、“◆△◇←〓☆”、“!@#$%”等;全部都是数字的词汇:“6666666666”、“233333333333”
淫秽色情、不文明用语,如“卧槽”、“SB”、“草泥马”等。
1.2 明天任务安排
- 杜世康:垃圾弹幕的过滤处理
- 刘丹,李玉莹:平台主播管理功能实现
- 曹莹雯,尹楠: 研究NLPIR/ICTCLAS分词系统的Java API如何调用
- 王静雅:完成系统管理中的管理员管理,并撰写明日Alpha冲刺博文
1.3 成员贡献时间
任务 | 成员 | 任务量 | 完成时间 |
---|---|---|---|
弹幕的异步存储 | 杜世康 | 30% | 4h |
弹幕文本的分析方向 | 刘丹 | 15% | 2h |
弹幕文本的分析方向 | 李玉莹 | 15% | 2h |
NLPIR/ICTCLAS分词系统 | 曹莹雯 | 10% | 2h |
NLPIR/ICTCLAS分词系统 | 尹楠 | 10% | 2h |
完成弹幕管理中的弹幕列表功能与博文撰写 | 王静雅 | 20% | 2h |
1.4 站立会议照片
以上是关于Alpha冲刺-第二天的主要内容,如果未能解决你的问题,请参考以下文章