将自然语言指令用于移动 UI 操作

Posted 雨夜的博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将自然语言指令用于移动 UI 操作相关的知识,希望对你有一定的参考价值。

移动设备提供了无数有助于日常活动的功能。然而,这些功能中的许多功能都不容易被用户发现或访问,迫使用户查找如何执行特定任务——例如,如何在地图中打开交通模式或在 YouTube 中更改通知设置。虽然在网络上搜索这些问题的详细说明是一种选择,但仍由用户按照这些说明逐步操作并通过小型触摸屏浏览 UI 详细信息,这可能既乏味又耗时,并导致可访问性降低。如果可以设计一个计算代理将这些语言指令转化为动作并代表用户自动执行它们会怎样?

在ACL 2020 上发布的“将自然语言指令映射到移动 UI 动作序列”中,我们提出了解决自动动作序列映射问题的第一步,创建了三个新的数据集,用于训练将自然语言指令接地为可执行的深度学习模型移动用户界面操作。这项工作为移动设备上的任务自动化奠定了技术基础,这将减轻通过 UI 细节进行操作的需要,这对于视觉或情境受损的用户可能特别有价值。我们还通过我们的GitHub 存储库开源了我们的模型代码和数据管道,以促进研究社区的进一步发展。

构建语言基础模型

人们经常互相提供指令,以协调共同努力并完成涉及复杂动作序列的任务,例如,按照食谱烤蛋糕,或让朋友带您建立家庭网络。构建能够帮助进行类似交互的计算代理是一个重要的目标,它需要在操作发生的环境中建立真正的语言基础。

这里讨论的学习任务是在给定一组指令、系统从一个屏幕转换到另一个屏幕时产生的一系列屏幕以及这些屏幕上的一组交互元素的情况下预测移动平台的一系列动作。端到端地训练这样的模型需要配对的语言-动作数据,这很难大规模获取。

相反,我们将问题分解为两个连续的步骤:动作短语提取步骤和基础步骤。

动作短语提取步骤使用具有区域注意力的Transformer模型从多步指令中识别操作、对象和参数描述,以表示每个描述短语。区域注意允许模型将指令中的一组相邻单词(一个跨度)作为一个整体来解码描述。

接下来,接地步骤将提取的操作和对象描述与屏幕上的 UI 对象进行匹配。同样,我们使用 Transformer 模型,但在这种情况下,它在上下文中表示 UI 对象并将对象描述作为基础。

结果

为了调查这项任务的可行性和我们方法的有效性,我们构建了三个新数据集来训练和评估我们的模型。第一个数据集包括 187 个用于操作 Pixel 手机的多步英文指令,它们沿着相应的动作屏幕序列,并能够评估自然发生指令的完整任务性能,用于测试端到端的接地质量。对于动作短语提取训练和评估,我们获得了可以从网络上大量找到的英文“how-to”说明,并注释描述每个动作的短语。为了训练接地模型,我们综合生成了 295K 条 UI 动作单步命令,涵盖了来自公共 android UI 语料库的25K 移动 UI 屏幕上的 178K 不同 UI 对象.

具有区域注意力的 Transformer 在预测与地面实况完全匹配的跨度序列方面获得了 85.56% 的准确率。短语提取器和基础模型一起获得了 89.21% 的部分准确率和 70.59% 的完全准确率,以匹配地面实况动作序列,以完成更具挑战性的任务,即将语言指令映射到端到端的可执行动作。我们还评估了 UI 对象的替代方法和表示,例如使用图形卷积网络(GCN) 或前馈网络,并发现那些可以在屏幕上根据上下文来表示对象的那些会导致更好的接地精度。新的数据集、模型和结果为解决将自然语言指令应用于移动 UI 操作这一具有挑战性的问题迈出了重要的第一步。

结论

这项研究以及一般的语言基础是将多阶段指令转换为图形用户界面上的操作的重要步骤。任务自动化在 UI 领域的成功应用有可能显着提高可访问性,其中语言界面可以帮助视障人士使用视觉上预测的界面执行任务。当一个人因手头的任务而无法轻松访问设备时,这对于情境障碍也很重要。

通过将问题解构为动作短语提取和语言基础,任一方面的进展都可以提高整个任务的性能,并减轻对难以大规模收集的语言-动作配对数据集的需求。例如,动作跨度提取与语义角色标记和从文本中提取多个事实相关,并且可以从跨度识别和多任务学习的创新中受益。在之前的基础工作中应用的强化学习可能有助于改进 UI 中基础的样本外预测,并改善隐藏状态表示的直接基础。尽管我们的数据集基于 Android UI,但我们的方法可以普遍应用于其他用户界面平台上的指令基础。



linux之vi,vim命令

vim 是对 vi 的扩展,文中的很多操作是 vi 通用的

vi 是区分大小写的命令的,也就是说 gG 是不同的命令

在不同模式下,快捷键是不一样的 模式分 一般模式 编辑模式 指令模式

一般模式用于文件内部操作,编辑模式用于输入编写等,指令模式用于对文本文件进行操作

常用操作

按键 效果
a,i,r,o,A,I,R,O 进入编辑模式
h,backspace 左移动
l,space 右移动
j 下移动
k 上移动
0, 移动到行首
$ 移动到行末,1$表示当前行的行尾,2$表示当前行的下一行的行尾
b 按照单词向前移动 字首
e 按照单词向后移动 字尾
w 按照单词向后移至次一个字首
H 移动到屏幕最上 非空白字
M 移动到屏幕中央 非空白字
L 移动到屏幕最下 非空白字
G 移动到文档最后一行
gg 移动到文档第一行
v 进入光标模式,配合移动键选中多行
Ctrl+f 向下翻页
Ctrl+b 向上翻页
u 撤销上一次操作
`` 回到上次编辑的位置
dw 删除这个单词后面的内容
dd 删除光标当前行
dG 删除光标后的全部文字
d$ 删除本行光标后面的内容
d0 删除本行光标前面的内容
y 复制当前行,会复制换行符
yy 复制当前行的内容
yyp 复制当前行到下一行,此复制不会放到剪切板中
nyy 复制当前开始的 n 行
p,P,. 粘贴
ddp 当前行和下一行互换位置
J 合并行
Ctrl+r 重复上一次动作
Ctrl+z 暂停并退出
ZZ 保存离开
xp 交换字符后面的交换到前面
~ 更换当前光标位置的大小写,并光标移动到本行右一个位置,直到无法移动

光标详细操作

按键 效果
Ctrl+e 向下滚动
Ctrl+b 向上翻页
b 按照单词向前移动 字首
B 按照单词向前移动 字首 忽略一些标点符号
e 按照单词向后移动 字尾
E 按照单词向后移动 忽略一些标点符号
w 按照单词向后移至次一个字首
W 按照单词向后移至次一个字首 忽略一些标点符号
H 移动到屏幕最上 非空白字
M 移动到屏幕中央 非空白字
L 移动到屏幕最下 非空白字
G 移动到文档最后一行
gg 移动到文档第一行
( 光标到句尾
) 光标到局首
{ 光标到段落开头
} 光标到段落结尾
nG 光标下移动到 n 行的首位
n$ 光标移动到 n 行尾部
n+ 光标下移动 n 行
n- 光标上移动 n 行

查找命令

指令 效果
* 向下查找同样光标的字符
# 向上查找同样光标的字符
/code 查找 code 一样的内容,向后
?code 查找 code 一样的内容,向前
n 查找下一处
N 查找上一处
ma 在光标处做一个名叫 a 的标记 可用 26 个标记 (a~z)
`a 移动到一个标记 a
d`a 删除当前位置到标记 a 之间的内容
:marks 查看所有标记

指令模式

指令 效果
:q 一般退出
:q! 退出不保存
:wq 保存退出
:w filename 另存为 filename
:jumps 历史编辑文档记录
:set nu 设置行号显示
:set nonu 取消行号显示
:set 显示设置参数
:set autoindent 自动缩排,回车与第一个非空格符对齐
:syntax on/off 根据程序语法高亮显示
:set highlight 高亮设置查看
:set hlsearch 查找代码高亮显示
:nohlsearch 暂时关闭高亮显示
:set nohlsearch 永久关闭高亮显示
:set bg=dark 设置暗色调
:set bg=light 设置亮色调

屏幕翻滚

按键 效果
Ctrl+f 向文件尾翻一屏幕
Ctrl+b 向文件首翻一屏幕
Ctrl+d 向文件尾翻半屏幕
Ctrl+u 向文件首翻半屏幕

插入命令

按键 效果
i 在光标前
I 在当前行首
a 在光标后
A 在当前行尾部
o 在当前行下新开一行
O 在当前行上新开一行
r 替换当前字符
R 替换当前行及后面的字符,直到按 esc 为止
s 从当前行开始,以输入的文本替代指定数目的字符
S 删除指定数目的行,并以输入的文本替代
ncw,nCW 修改指定数目 n 的字符
nCC 修改指定数目 n 的行

删除命令

按键 效果
ndw,nDW 删除光标开始及其后 n-1 个字符
dw 删除这个单词后面的内容
dd 删除光标当前行
dG 删除光标后的全部文字
d$ 删除本行光标后面的内容
d0 删除本行光标前面的内容
ndd 删除当前行,以及其后的 n-1 行
x 删除一个字符,光标后
X 删除一个字符,光标前
Ctrl+u 删除输入模式下的输入的文本

多窗口模式

指令 效果
:split 创建新窗口
Ctrl+w 切换窗口
Ctrl-w = 所有窗口一样高
Ctrl-w + 方向键 多窗口视图切换

多文件编辑

指令 效果
:args 列出当前编辑的文件名
:next 打开多文件,使用 n(Next) p(revious) N(ext) 切换
:file 列出当前打开的所有文件

vim 自定义技巧

复制粘贴取消缩进

:set paste
textwidth设置为0
wrapmargin设置为0
set noai
set nosi
softtabstop设置为0
revins重置
ruler重置
showmatch重置
formatoptions使用空值

下面的选项值不变,但却被禁用

lisp
indentexpr
cindent

绑定快捷键来激活 / 取消 paste 模式

:set pastetoggle=<F11>

出现粘贴换行符错位,设置一下 .vimrc

" this can change way of paste words
:set paste
" default tabstop=8
:set tabstop=4
" use keyboard F11 to  change paste mode
:set pastetoggle=<F11>

vim 缩进

5<<
  • Ctrl-Shift-t可以增加当前行的缩进
  • Ctrl-Shift-d则可以减少当前行的缩进
  • 使用0-Ctrl-Shift-d命令,将移除所有缩进

vim tab 缩进

:set tabstop=4
:set softtabstop=4
:set shiftwidth=4
:set expandtab
  • tabstop: 表示一个 tab 显示出来是多少个空格的长度默认 8

  • softtabstop: 表示在编辑模式的时候按退格键的时候退回缩进的长度当使用 expandtab 时特别有用。

  • shiftwidth: 表示每一级缩进的长度一般设置成跟 softtabstop 一样。 当设置成 expandtab 时缩进用空格来表示noexpandtab 则是用制表符表示一个缩进

  • expandtab 选项,用来控制是否将 Tab 转换为空格, 但是这个选项并不会改变已经存在的文本,如果需要应用此设置将所有 Tab 转换为空格,需要执行
:retab!

vim 自动缩进

  • cindent
:set cindent
  • smartindent
:set smartindent
  • autoindent
:set autoindent

显示隐藏符号

  • 默认不显示 :set nolist
  • 显示 :set invlist
" normal is :set nolist | show hide is :set invlist
:set nolist

使用 vim 寄存器

显示所有寄存器内容

:reg

设置 vim 永远显示行号

vi ~/.vimrc
set nu
set nonu
syntax on

vimrc 常用配置

设置行号 set nu
设置自动缩进 set autoindent
设置tab占n个字符 set tabstop=n
设置以空格代替tab(因为有部分场合不允许使用tab) set expandtab
设置缩进字符数为n set shiftwidth=n
设置自动语法高亮 syntax on

原文链接:https://rumenz.com/rumenbiji/linux-vi-vim.html
微信公众号:入门小站

vim 是对 vi 的扩展,文中的很多操作是 vi 通用的

vi 是区分大小写的命令的,也就是说 gG 是不同的命令

在不同模式下,快捷键是不一样的 模式分 一般模式 编辑模式 指令模式

一般模式用于文件内部操作,编辑模式用于输入编写等,指令模式用于对文本文件进行操作

常用操作

按键 效果
a,i,r,o,A,I,R,O 进入编辑模式
h,backspace 左移动
l,space 右移动
j 下移动
k 上移动
0, 移动到行首
$ 移动到行末,1$表示当前行的行尾,2$表示当前行的下一行的行尾
b 按照单词向前移动 字首
e 按照单词向后移动 字尾
w 按照单词向后移至次一个字首
H 移动到屏幕最上 非空白字
M 移动到屏幕中央 非空白字
L 移动到屏幕最下 非空白字
G 移动到文档最后一行
gg 移动到文档第一行
v 进入光标模式,配合移动键选中多行
Ctrl+f 向下翻页
Ctrl+b 向上翻页
u 撤销上一次操作
`` 回到上次编辑的位置
dw 删除这个单词后面的内容
dd 删除光标当前行
dG 删除光标后的全部文字
d$ 删除本行光标后面的内容
d0 删除本行光标前面的内容
y 复制当前行,会复制换行符
yy 复制当前行的内容
yyp 复制当前行到下一行,此复制不会放到剪切板中
nyy 复制当前开始的 n 行
p,P,. 粘贴
ddp 当前行和下一行互换位置
J 合并行
Ctrl+r 重复上一次动作
Ctrl+z 暂停并退出
ZZ 保存离开
xp 交换字符后面的交换到前面
~ 更换当前光标位置的大小写,并光标移动到本行右一个位置,直到无法移动

光标详细操作

按键 效果
Ctrl+e 向下滚动
Ctrl+b 向上翻页
b 按照单词向前移动 字首
B 按照单词向前移动 字首 忽略一些标点符号
e 按照单词向后移动 字尾
E 按照单词向后移动 忽略一些标点符号
w 按照单词向后移至次一个字首
W 按照单词向后移至次一个字首 忽略一些标点符号
H 移动到屏幕最上 非空白字
M 移动到屏幕中央 非空白字
L 移动到屏幕最下 非空白字
G 移动到文档最后一行
gg 移动到文档第一行
( 光标到句尾
) 光标到局首
{ 光标到段落开头
} 光标到段落结尾
nG 光标下移动到 n 行的首位
n$ 光标移动到 n 行尾部
n+ 光标下移动 n 行
n- 光标上移动 n 行

查找命令

指令 效果
* 向下查找同样光标的字符
# 向上查找同样光标的字符
/code 查找 code 一样的内容,向后
?code 查找 code 一样的内容,向前
n 查找下一处
N 查找上一处
ma 在光标处做一个名叫 a 的标记 可用 26 个标记 (a~z)
`a 移动到一个标记 a
d`a 删除当前位置到标记 a 之间的内容
:marks 查看所有标记

指令模式

指令 效果
:q 一般退出
:q! 退出不保存
:wq 保存退出
:w filename 另存为 filename
:jumps 历史编辑文档记录
:set nu 设置行号显示
:set nonu 取消行号显示
:set 显示设置参数
:set autoindent 自动缩排,回车与第一个非空格符对齐
:syntax on/off 根据程序语法高亮显示
:set highlight 高亮设置查看
:set hlsearch 查找代码高亮显示
:nohlsearch 暂时关闭高亮显示
:set nohlsearch 永久关闭高亮显示
:set bg=dark 设置暗色调
:set bg=light 设置亮色调

屏幕翻滚

按键 效果
Ctrl+f 向文件尾翻一屏幕
Ctrl+b 向文件首翻一屏幕
Ctrl+d 向文件尾翻半屏幕
Ctrl+u 向文件首翻半屏幕

插入命令

按键 效果
i 在光标前
I 在当前行首
a 在光标后
A 在当前行尾部
o 在当前行下新开一行
O 在当前行上新开一行
r 替换当前字符
R 替换当前行及后面的字符,直到按 esc 为止
s 从当前行开始,以输入的文本替代指定数目的字符
S 删除指定数目的行,并以输入的文本替代
ncw,nCW 修改指定数目 n 的字符
nCC 修改指定数目 n 的行

删除命令

按键 效果
ndw,nDW 删除光标开始及其后 n-1 个字符
dw 删除这个单词后面的内容
dd 删除光标当前行
dG 删除光标后的全部文字
d$ 删除本行光标后面的内容
d0 删除本行光标前面的内容
ndd 删除当前行,以及其后的 n-1 行
x 删除一个字符,光标后
X 删除一个字符,光标前
Ctrl+u 删除输入模式下的输入的文本

多窗口模式

指令 效果
:split 创建新窗口
Ctrl+w 切换窗口
Ctrl-w = 所有窗口一样高
Ctrl-w + 方向键 多窗口视图切换

多文件编辑

指令 效果
:args 列出当前编辑的文件名
:next 打开多文件,使用 n(Next) p(revious) N(ext) 切换
:file 列出当前打开的所有文件

vim 自定义技巧

复制粘贴取消缩进

:set paste
textwidth设置为0
wrapmargin设置为0
set noai
set nosi
softtabstop设置为0
revins重置
ruler重置
showmatch重置
formatoptions使用空值

下面的选项值不变,但却被禁用

lisp
indentexpr
cindent

绑定快捷键来激活 / 取消 paste 模式

:set pastetoggle=<F11>

出现粘贴换行符错位,设置一下 .vimrc

" this can change way of paste words
:set paste
" default tabstop=8
:set tabstop=4
" use keyboard F11 to  change paste mode
:set pastetoggle=<F11>

vim 缩进

5<<
  • Ctrl-Shift-t可以增加当前行的缩进
  • Ctrl-Shift-d则可以减少当前行的缩进
  • 使用0-Ctrl-Shift-d命令,将移除所有缩进

vim tab 缩进

:set tabstop=4
:set softtabstop=4
:set shiftwidth=4
:set expandtab
  • tabstop: 表示一个 tab 显示出来是多少个空格的长度默认 8

  • softtabstop: 表示在编辑模式的时候按退格键的时候退回缩进的长度当使用 expandtab 时特别有用。

  • shiftwidth: 表示每一级缩进的长度一般设置成跟 softtabstop 一样。 当设置成 expandtab 时缩进用空格来表示noexpandtab 则是用制表符表示一个缩进

  • expandtab 选项,用来控制是否将 Tab 转换为空格, 但是这个选项并不会改变已经存在的文本,如果需要应用此设置将所有 Tab 转换为空格,需要执行
:retab!

vim 自动缩进

  • cindent
:set cindent
  • smartindent
:set smartindent
  • autoindent
:set autoindent

显示隐藏符号

  • 默认不显示 :set nolist
  • 显示 :set invlist
" normal is :set nolist | show hide is :set invlist
:set nolist

使用 vim 寄存器

显示所有寄存器内容

:reg

设置 vim 永远显示行号

vi ~/.vimrc
set nu
set nonu
syntax on

vimrc 常用配置

设置行号 set nu
设置自动缩进 set autoindent
设置tab占n个字符 set tabstop=n
设置以空格代替tab(因为有部分场合不允许使用tab) set expandtab
设置缩进字符数为n set shiftwidth=n
设置自动语法高亮 syntax on

原文链接:https://rumenz.com/rumenbiji/linux-vi-vim.html
微信公众号:入门小站

以上是关于将自然语言指令用于移动 UI 操作的主要内容,如果未能解决你的问题,请参考以下文章

web前端开发面临的挑战主要是都有哪些?

UI自动化测试AutoIT工具使用和robot对象模拟键盘按键操作

C语言中string指令是啥?

汇编语言中,如何将一个单元的内容取反

linux之vi,vim命令

汇编语言中,如何将一个单元的内容取反