每日学习记录20230323_Bert视频学习

Posted Molesular Blog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了每日学习记录20230323_Bert视频学习相关的知识,希望对你有一定的参考价值。

20230323:Bert视频学习

B站视频

RNN

这个东西不能并行运算,所以翻译的时候需要用Transformer,这样输出结果是同时被计算出来的.并且Transformer有注意力机制进行并行计算

Transformer

输入如何编码?

输出结果是什么?

Attention的目的?

怎样组合在一起?

Transformer最核心的机制是Self-attention,也就是让计算机关注到有价值的信息.

比如下面两句话:

这里面的it是有不同的指代的,所以这是注意力机制就需要根据上下文来决定it来自哪些词的概率,上图用热图表示.

self-attention如何计算

一共是三个矩阵,实际的含义如上图.

得到每个词的四个矩阵之后,就可以举例一下,比如我想计算第一个词与第一个词和第二个词的关系,就需要计算上图最下面的两个式子的结果,也就是向量之间的内积.内积越大说明向量越相似,越趋于零说明向量越垂直.(内积是上图红线的两个数相乘,再求和).这样就算出来每个词与其他词的相关程度.

上图的下面是softmax的计算过程,假设有三个词的值,然后就要先求\\(e^x\\),也就是一个转化.再用得到的每一个词的结果除所有结果的和.就变成了百分比.

综上所述,上图就是attention计算的过程.

多头机制(multi-headed)

所谓多头机制就是一个x用多组q k v表示, 得到多种特征表达,最后把所有特征拼接在一起,在弄一层全连接 把升高的维度降下来.

上图就是多头机制的表示:多个q k v矩阵输入到attention机制,导致attention也有8个,然后进行concat(拼接),再进入全连接层(Linear),这就是整个的多头机制.

上图就是使用多头机制得到的结果,红线是一个头,绿线是一个头.使用同样的输入,不同的头得到的结果是不一样的.看单个单词,一般跟自己距离近,跟自己附近的词也会相关性很大.

上图是堆叠多层,就是ENCODER重复多次.

上面两个图片是:使用Bert进行阅读理解的计算的过程,输入文章和问题到Bert,然后需要额外训练两个辅助向量,分别表示答案在文章的起始位置和终止位置.因为在训练的过程中,答案是已知的文本,只是需要转化一下变成向量,这样在实际计算的时候就有评判标准了.有了标准,这样再对起始位置单词和文章中的每一个单词做点积,计算相似度得分,对终止位置也做同样的操作,最后得到起始到终止的所有单词,这就是最终的答案.

具体的训练过程有两种,第一是随机mask一些词,第二是判断是否两个句子是连在一起的.

极客时间每日一课

19-04-06(04-07补)

视频大脑:视频内容理解的技术与应用_黄君实

视频时代的来临,视频行业的市场规模,视频大脑的主要场景

视频大脑的技术图谱,视频大脑的平台设计

视频信息流的主要场景

人脸监测定位,智能抠图

经典应用:分类/回归;视频分析的主要内容

Dual-Path Network;速度:multi-path v.s. Multi-fiber

19-04-07(04-08补)

大规模机器学习在视频分析理解中的实践_王涛

互联网视频发展现状,互联网视频发展热点

智能生产——视频标注,文字识别,质量评价,内容评价

深度学习核心算法——代表性网络结构:InceptionV3、MobileNet、Loss损失函数

算法流程,Inception模型分类准确率

预训练迁移模型,单网络模型对比,Focal loss

19-04-08

计算机视觉技术在顺丰物流场景中的应用_张玉双

计算机视觉技术在顺丰物流中的应用

智能运单识别

X光违禁品监测

19-04-09

大数据云的数据交换共享平台的架构探索_李光跃

云的特性

TDC

需求分析和思考,数据交换共享架构初探,数据交换共享架构进阶

认证与权限——Guardian架构,安全与权限

资源控制

19-04-10

微服务——构建持续交付与DevOps架构_陈连平

The world‘s largest public online betting and gaming company

Benefits of CD

Benefits of Microservices

从一个单体大包发布到小粒度微服务上线

Increased number of services

Evolving Interactions/Contracts among Services

test,troubleshooting

Do Microservices Suit Every Situation?

A software system‘s architecture is the set of principal design decisions about the system.

19-04-11

超大规模软件架构自动化度量与演进_吴文胜

商业模式+超大代码规模

架构自动化评估靠谱不靠谱?

实践一:统一的架构度量标准SAI

19-04-12(04-13补)

工程实践中拓展软件架构科研:面向21世纪的竞争前言_Ian Gorton

Building Massive Scale System is difficult

Scalable Software Systems and Architectures

Software Architecture Research

Modernizing IT Stack for Scalability

Query results

Performance Analysis at Scale

以上是关于每日学习记录20230323_Bert视频学习的主要内容,如果未能解决你的问题,请参考以下文章

每日学习记录20230322_Bert安装和使用

每日学习记录20230321_Bert

每日学习记录20230406_bert_and_torch

java学习日记20230323-单例设计模式

每日学习记录20230328_pycharmDebug

TestLink学习——每日例会记录