学霸网站之NABCD

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学霸网站之NABCD相关的知识,希望对你有一定的参考价值。

1.需求(Need)

随着社会的发展,互联网产业得到了飞速的发展,如今,互联网在各个领域都取得了至关重要的作用,随之而来的数量庞大的数据也让我们每个人在学习生活中倍感压力,如何才能在这些数据中找到自己需要的,如何才能更快捷的,更方便的在大海般的数据中找到自己需要的那一部分。这一切的一切,都是在考验IT工作者对于数据处理的能力。

必须需求:

为了使用户使用更加简单,理解更加容易,为此发展出来关键词抽取以及Tagging这些技术。

  • 所谓关键词,百度百科上这么说:特指单个媒体在制作使用索引时,所用到的词汇。是图书馆学中的词汇。关键词搜索是网络搜索索引主要方法之一,就是希望访问者了解的产品、服务和公司等的具体名称用语。而在我们的学霸网站上,就是是为了文献标引工作, 从报告、论文中选取出来用以表示全文主题内容信息的单词或术语。关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词, 也称作关键词自动标引, 在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词可以为文档提供一个简短的概括, 使读者能够在短时间内了解文档的大概内容。关键词还是信息检索系统中对文档进行索引、聚类等操作的基础。

  • 所谓Tag,百度百科上这么定义:Tag在中国并没有统一的中文名称,有的称之为“分类”,也有的称之为“开放分类”或“大众分类”,还有的称之为“标签”。Tag(标签)是一种更为灵活、有趣的日志分类方式,可以为每篇日志添加一个或多个Tag(标签),然后可以看到BlogBus上所有和您使用了相同Tag的日志,并且由此和其他用户产生更多的联系和沟通。由此可见,Tag是一种由用户自定义的、用于描述信息的关键词。Tagging是用户为信息赋予Tag的行为。

杀手功能:

  • 从我们小组对目前项目的了解来看,整个网站中登陆,上传文件,翻译文件等显示界面均由wpf设计编写而成,也就是所谓的客户端,而我们要实现网站的全面网页化。

外围功能:

  • 良好的UI设计

  • 可扩展性:可以无需破坏底层的结构而增强功能

辅助功能

  • 提供一系列皮肤,以便用户更加喜欢
  • 提供背景音乐,以便用户在听觉上得到放松。

2.做法 (Approach)

一、 良好的关键词抽取&Tagging算法有利于提高用户体验

  • 为了使得实现算法尽肯能简单而且效果又好,也就是性价比高。我们沿用去年的算法,采用TF-IDF的方法
  • TFIDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF
    实际上是:TF×IDF,TF 词频(Term Frequency),IDF 反文档频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d中出现的频率。
  • IDF一般为log(N/n),其中, N 为全部文档数, n 表示包含词条 t 的文档数量。为了使反文档频率更加平滑, 我们做了一些优化, 让IDF=log(N/n+0.01) , 其中某一类中包含词条 t 的文档数为 m。
  • IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具有很好的类别区分能力。如果某一类 Ci中包含词条 t 的文档数为 m,而其它类包含 t 的文档总数为 k,显然所有包含 t 的文档数 n=m+k,当 m大的时候,n 也大,按照 IDF 公式得到的 IDF 的值会小,就说明该词条 t 类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是 IDF 的不足之处。
  • Tagging的主要思想是:我们有两种算法,一种是相关信息加权的自适应多标签分类算法,一种是基于TF-IDF关键词抽取后的标签算法。如果时间不是特别紧迫,我们会采用第一种算法,以得到最佳效果。

二、良好的交互是用户极致体验的基础

  • 界面设计是网站带给用户的第一体验,良好的用户设计,会使我们的网站形成无形的价值,用户界面设计的三大原则是:置界面于用户的控制之下;减少用户的记忆负担;保持界面的一致性。因此,我们将遵循这三大原则,设计出好的,便于用户使用的界面。
  • 通过对产品的界面和行为进行交互设计,让产品和它的使用者之间建立一种有机关系,从而可以有效达到使用者的目标,这就是交互设计的目的。无论是个性化界面、音乐版块的设置、问题的分类、问题的反馈等等,都是为了创造更加舒适的用户体验。

3.好处 (Benefit)

  我们的产品受众用户以在校学习的学生为主,为学生群体提供查询相关问题信息的服务,不同于其他面向普通大众的搜索网站,将大量关联性较低的信息简单的铺张给用户,我们的产品会将爬好的文本进行数据处理,获取到有效的关键词和标签Tag,除此之外我们还提供中英对照翻译,这些功能对于学生群体来说更具有现实意义。

  对于我们,我们计划在产品成熟后与教育机构间进行合作,一方面我们可以从教育机构初获得更大量、更有价值的教学资料,一方面我们帮助教育机构在学习网站进行商业推广,基于我们的用户中学生群体占据的高百分比,推广的有效性和成功率将会大大的提高。在于教育结构的合作中形成互利双赢的商业运用模式。

4.竞争 (Competitor)

  当前类似本平台的产品种类繁多,各大主流搜索引擎也都推出了相关的产品,例如比较有名的“百度知道”、“360搜索问答”等等。除了这些搜索巨头,一些主流论坛也推出了相关的搜索服务,相比之下我们的产品技术远不够他们成熟,但是我们也有着自己的竞争优势,使我们有理由相信在另据竞争激烈的市场中分一杯羹。

  一、面向用户群体专一,领域针对性强,专业程度高。

  网站采用会员制,通过账户绑定用户,成为会员的用户多为在校人员或者相关领域的专业人员,在问答和丰富网站内容上将会更有专业参考性和学术严谨性,同时系统内部收录相关的专业信息,为问题的解答提供专业的解答。

  二、产品规模小,易于修改,可塑性高,灵活性强

  相比于目前的搜索引擎巨头,我们的服务群体规模小,针对性强,我们得到的用户反馈反应时间短,反馈速度快,能够快速的对网站的功能和结构存在的问题提供及时有效的解决办法。

  三、辅助功能和个性化设计

  本产品附加辅助功能,例如音乐版块、用户自定义主页背景、个性化皮肤等功能,让用户在网站学习知识的同时,在视觉和听觉上得到放松。

5 . 交付 (Delivery)


  宣传途径依靠学生间宣传为主,以网络宣传为辅。

  首先是打开市场,将网站通过QQ群、微信群、微博等主流网络社交软件上发布出去,先从周围同学开始,推荐尝试使用我们的产品,对于每个注册过的用户,将会根据ID生成专属的邀请码,通过传播邀请码而注册的用户,可以获得一些专属的奖励,而成功发布出邀请信息的用户也会获得正向的奖励反馈机制。学生间通过互相推荐来获得用户量,根据社会计算学的理论,学生的社交圈群体成分比较单一,以其他学生为主,所以这种同学间的相互推荐有效性强,成功率高,传播速度快,发展形式丰富。

  其次是通过和其他网站合作,获取其页面上的广告位,相互宣传达到增大彼此用户量的互利共赢的合作模式。

发布位置:


  我们所做的产品,初步打算先发布在北航内部,以同学为主要成员的QQ群、微信群、微博等社交网络软件上发布,然后发到好友学校的同学群中,将我们的产品推广到其他高校中,扩展用户群体,加快用户量发展速度,再之后计划在CSDN、Github等重要的IT平台上,多多益善,进一步推广我们的产品。

  预计用户:


  通过小组成员的宣传,预计用户人数在500左右。

以上是关于学霸网站之NABCD的主要内容,如果未能解决你的问题,请参考以下文章

XSS攻击入门鹏越·学霸专区

速达之NABCD需求分析

Java课程之团队开发(NABCD需求分析)

清华学霸告诉你一款能取代 Scrapy 的爬虫框架 feapder

学霸数据处理项目之数据处理框架开发者手册

C++从学渣到学霸之了解C++