编写SHELL脚本,匹配一个网页中的所有链接,并输出到文件,格式为类似http://*.com请高手相助!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了编写SHELL脚本,匹配一个网页中的所有链接,并输出到文件,格式为类似http://*.com请高手相助!相关的知识,希望对你有一定的参考价值。

请高手相助!另外请问,匹配href但又不让其输出到结果中的语句应该怎么写呢?我的意思是将href之后的信息输出出来,请各位高手不吝赐教!

常用指令 grep,sed 是最常用最基本的命令之一

命令语句
grep 'href' file.html|sed 's/^.*href="//'|sed 's/\/".*//'

输出到文件savefile
grep 'href' file.html|sed 's/^.*href="//'|sed 's/\/".*//'>savefile

例如一个file.html网页的source file 文件片段
-----------------------------------------

.
...
.

<li><a href="http://my.opera.com/community/">My Opera</a></li>
<li><a href="http://my.opera.com/chooseopera/blog/">Opera news blog</a></li>
.
.
.

-----------------------------------------

输出:
http://my.opera.com/community
http://my.opera.com/chooseopera/blog

每个网页情况略有不同
把你想处理的网页贴出来比较能够对症下药
参考技术A #!/bin/sh
echo -n "Enter a file or folder name: "
read file
if [ -d $file ]; then
echo "$file is a directory"
elif [ -f $file ]; then
cat $file
else
echo "no file"
fi
参考技术B 扯淡

[一] 编写第一个 Shell 脚本

 

 

什么是 Shell 脚本?

最简单的解释,一个 shell 脚本就是一个包含一系列命令的文件。shell 读取这个文件,然后执行 文件中的所有命令,就好像这些命令已经直接被输入到了命令行中一样。

Shell 有些独特,因为它不仅是一个功能强大的命令行接口,也是一个脚本语言解释器。我们将会看到, 大多数能够在命令行中完成的任务也能够用脚本来实现,同样地,大多数能用脚本实现的操作也能够 在命令行中完成。

虽然我们已经介绍了许多 shell 功能,但只是集中于那些经常直接在命令行中使用的功能。 Shell 也提供了一些通常(但不总是)在编写程序时才使用的功能。

怎样编写一个 Shell 脚本

为了成功地创建和运行一个 shell 脚本,我们需要做三件事情:

  1. 编写一个脚本。 Shell 脚本就是普通的文本文件。所以我们需要一个文本编辑器来书写它们。最好的文本 编辑器都会支持语法高亮,这样我们就能够看到一个脚本关键字的彩色编码视图。语法高亮会帮助我们查看某种常见 错误。为了编写脚本文件,vim,gedit,kate,和许多其它编辑器都是不错的候选者。

  2. 使脚本文件可执行。 系统会相当挑剔不允许任何旧的文本文件被看作是一个程序,并且有充分的理由! 所以我们需要设置脚本文件的权限来允许其可执行。

  3. 把脚本放置到 shell 能够找到的地方 当没有指定可执行文件明确的路径名时,shell 会自动地搜索某些目录, 来查找此可执行文件。为了最大程度的方便,我们会把脚本放到这些目录当中。

脚本文件格式

为了保持编程传统,我们将创建一个 “hello world” 程序来说明一个极端简单的脚本。所以让我们启动 我们的文本编辑器,然后输入以下脚本:

#!/bin/bash
# This is our first script.
echo Hello World!

对于脚本中的最后一行,我们应该是相当的熟悉,仅仅是一个带有一个字符串参数的 echo 命令。 对于第二行也很熟悉。它看起来像一个注释,我们已经在许多我们检查和编辑过的配置文件中 看到过。关于 shell 脚本中的注释,它们也可以出现在文本行的末尾,像这样:

echo Hello World! # This is a comment too

文本行中,# 符号之后的所有字符都会被忽略。

类似于许多命令,这也在命令行中起作用:

[[email protected] ~]$ echo Hello World! # This is a comment too
Hello World!

虽然很少在命令行中使用注释,但它们也能起作用。

我们脚本中的第一行文本有点儿神秘。它看起来它应该是一条注释,因为它起始于一个#符号,但是 它看起来太有意义,以至于不仅仅是注释。事实上,这个#!字符序列是一种特殊的结构叫做 shebang。 这个 shebang 被用来告诉操作系统将执行此脚本所用的解释器的名字。每个 shell 脚本都应该把这一文本行 作为它的第一行。

让我们把此脚本文件保存为 hello_world。

可执行权限

下一步我们要做的事情是让我们的脚本可执行。使用 chmod 命令,这很容易做到:

[[email protected]~]$ ls -l hello_world
-rw-r--r-- 1  vforbox    vforbox      63  2016-02-28 10:10 hello_world
[[email protected]~]$ chmod 755 hello_world
[[email protected]~]$ ls -l hello_world
-rwxr-xr-x 1  vforbox   vfobox      63  2016-02-28 10:10 hello_world

对于脚本文件,有两个常见的权限设置;权限为755的脚本,则每个人都能执行,和权限为700的 脚本,只有文件所有者能够执行。注意为了能够执行脚本,脚本必须是可读的。

脚本文件位置

当设置了脚本权限之后,我们就能执行我们的脚本了:

[[email protected]~]$ ./hello_world 
Hello World!

为了能够运行此脚本,我们必须指定脚本文件明确的路径。如果我们没有那样做,我们会得到这样的提示:

[[email protected]~]$ hello_world
bash: hello_world: command not found

为什么会这样呢?什么使我们的脚本不同于其它的程序?结果证明,什么也没有。我们的 脚本没有问题。是脚本存储位置的问题。 PATH 环境变量及其它在系统 查找可执行程序方面的作用。如果没有给出可执行程序的明确路径名,那么系统每次都会 搜索一系列的目录,来查找此可执行程序。这个/bin 目录就是其中一个系统会自动搜索的目录。 这个目录列表被存储在一个名为 PATH 的环境变量中。这个 PATH 变量包含一个由冒号分隔开的目录列表。 我们可以查看 PATH 的内容:

[[email protected]~]$ echo $PATH
/home/vforbox/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:

这里我们看到了我们的目录列表。如果我们的脚本驻扎在此列表中任意目录下,那么我们的问题将 会被解决。注意列表中的第一个目录,/home/vforbox/bin。大多数的 Linux 发行版会配置 PATH 变量,让其包含 一个位于用户家目录下的 bin 目录,从而允许用户能够执行他们自己的程序。所以如果我们创建了 一个 bin 目录,并把我们的脚本放在这个目录下,那么这个脚本就应该像其它程序一样开始工作了:

[[email protected]~]$ mkdir bin
[[email protected]~]$ mv hello_world bin
[[email protected]~]$ hello_world
Hello World!

它的确工作了。

如果这个 PATH 变量不包含这个目录,我们能够轻松地添加它,通过在我们的.bashrc 文件中包含下面 这一行文本:

export PATH=~/bin:"$PATH"

当做了这个修改之后,它会在每个新的终端会话中生效。为了把这个修改应用到当前的终端会话中, 我们必须让 shell 重新读取这个 .bashrc 文件。这可以通过 “sourcing”.bashrc 文件来完成:

[[email protected]~]$ . .bashrc

这个点(.)命令是 source 命令的同义词,一个 shell 内部命令,用来读取一个指定的 shell 命令文件, 并把它看作是从键盘中输入的一样。


注意:在 Ubuntu 系统中,如果存在 ~/bin 目录,当执行用户的 .bashrc 文件时, Ubuntu 会自动地添加这个 ~/bin 目录到 PATH 变量中。所以在 Ubuntu 系统中,如果我们创建 了这个 ~/bin 目录,随后退出,然后再登录,一切会正常运行。


脚本文件的好去处

这个 ~/bin 目录是存放为个人所用脚本的好地方。如果我们编写了一个脚本,系统中的每个用户都可以使用它, 那么这个脚本的传统位置是 /usr/local/bin。系统管理员使用的脚本经常放到 /usr/local/sbin 目录下。 大多数情况下,本地支持的软件,不管是脚本还是编译过的程序,都应该放到 /usr/local 目录下, 而不是在 /bin 或 /usr/bin 目录下。这些目录都是由 Linux 文件系统层次结构标准指定,只包含由 Linux 发行商 所提供和维护的文件。

更多的格式技巧

严肃认真的脚本书写,一个关键目标是为了维护方便;也就是说,一个脚本可以轻松地被作者或其它 用户修改,使它适应变化的需求。使脚本容易阅读和理解是一种方便维护的方法。

缩进和行继续符

当雇佣长命令的时候,通过把命令在几个文本行中展开,可以提高命令的可读性。

[[email protected]~]$ find playground \( -type f -not -perm 0600 -exec chmod 0600 ‘{}’ ‘;’ \) -or \( -type d -not -perm 0711 -exec chmod 0711 ‘{}’ ‘;’ \)

显然,这个命令有点儿难理解,当第一眼看到它的时候。在脚本中,这个命令可能会比较容易 理解,如果这样书写它:

find playground     \(         -type f         -not -perm 0600         -exec chmod 0600 ‘{}’ ‘;’     \)     -or     \(         -type d         -not -perm 0711         -exec chmod 0711 ‘{}’ ‘;’     \)

通过使用行继续符(反斜杠-回车符序列)和缩进,这个复杂命令的逻辑性更清楚地描述给读者。 这个技巧在命令行中同样生效,虽然很少使用它,因为输入和编辑这个命令非常麻烦。脚本和 命令行的一个区别是,脚本可能雇佣 tab 字符拉实现缩进,然而命令行却不能,因为 tab 字符被用来 激活自动补全功能。

为书写脚本配置 vim

这个 vim 文本编辑器有许多许多的配置设置。有几个常见的选项能够有助于脚本书写:

:syntax on

打开语法高亮。通过这个设置,当查看脚本的时候,不同的 shell 语法元素会以不同的颜色 显示。这对于识别某些编程错误很有帮助。并且它看起来也很酷。注意为了这个功能起作用,你 必须安装了一个完整的 vim 版本,并且你编辑的文件必须有一个 shebang,来说明这个文件是 一个 shell 脚本。如果对于上面的命令,你遇到了困难,试试 :set syntax=sh。

:set hlsearch

打开这个选项是为了高亮查找结果。比如说我们查找单词“echo”。通过设置这个选项,这个 单词的每个实例会高亮显示。

:set tabstop=4

设置一个 tab 字符所占据的列数。默认是8列。把这个值设置为4(一种常见做法), 从而让长文本行更容易适应屏幕。

:set autoindent

打开 “auto indent” 功能。这导致 vim 能对新的文本行缩进与刚输入的文本行相同的列数。 对于许多编程结构来说,这就加速了输入。停止缩进,输入 Ctrl-d。

通过把这些命令(没有开头的冒号字符)添加到你的 ~/.vimrc 文件中,这些改动会永久生效。

总结归纳

在这脚本编写的第一章中,我们已经看过怎样编写脚本,怎样让它们在我们的系统中轻松地执行。 我们也知道了怎样使用各种格式技巧来提高脚本的可读性(可维护性)。在以后的各章中,轻松维护 会作为编写好脚本的中心法则一次又一次地出现。

以上是关于编写SHELL脚本,匹配一个网页中的所有链接,并输出到文件,格式为类似http://*.com请高手相助!的主要内容,如果未能解决你的问题,请参考以下文章

编写一个shell脚本,输出所有尾数是5的三位数

在linux操作系统中的终端下.编写一个shell脚本,输出所有尾数是5的三位数

如何使用 Ruby 编写 shell 脚本?

如何编写一个shell脚本

Shell脚本

如何使用Ruby进行shell脚本编写?