cgi 通用网关接口
前驱知识
简单点说:
- web服务器接受请求,启动
CGI
;CGI
接受请求,处理,返回给服务器;服务器返回给用户 - cgi效率不高,每次都要
fork
一个新进程出来 -
WCGI
,Python
架设的一个桥,连接了服务器和web框架,相当将cgi
的连接功能独立了出来,并把处理功能留给了web框架
简介
CGI
脚本由HTTP
服务器启动,通常用来处理用户通过<FROM>提交的数据。
通常,CGI
脚本位于服务器的专门的cgi-bin
目录下。HTTP
服务器在脚本的shell
环境中放置了请求相关的信息,比如客户端的hostname
,请求的url
,请求的字符串以及其他东西。服务器执行脚本,并把输出返回给客户端。
脚本的输入也和客户端相连,有时表单数据是通过这种方式读取的。其他时候,表单数据是通过URL
的query
字符串传递的。这个模块用于处理不同的情况,提供一个简单的接口。同时提供了一些功能,帮助调试脚本。最近添加的功能是通过表单上传文件。
CGI
脚本的输出由两部分组成,由一个空行分割。第一部分包含一些头部,告诉客户接下来返回的是什么数据。大概是这样:
print("Content-Type: text/html") # 接下来返回的是html
print() # 空白行,头部结束
第二部分,一般来说是HTML。客户端软件可以展示这些页面,图片什么的。
使用cgi模块
当你写一个新的脚本时,添加下面这两行:
import cgitb
cigtb.enable()
这将会激活一个异常处理器,如果发生了错误,它就会把错误返回给浏览器。如果你不想让用户看到,也可以指定输出目录。
import cgitb
cgitb.enable(display=0, logdir=‘/path/to/logdir‘)
补充:
POST
请求提交数据有两种方式application/x-www-form-urlencoded
和multipart/form-data
。前者形如MyVariableOne=ValueOne&MyVariableTwo=ValueTwo
,使用%HH
的形式编码非ascii码,不接受重复键值。后者接受重复键值、二进制文件等。参考资料
可以通过FieldStorage
类获取提交的表单数据,如果含有非asciii码,使用encoding
参数,由于它会消耗标准数据,所以应该只被实例化1次。
FieldStorage
实例与python的字典相似。可以使用in
检测内容,keys
, len
接口也都可以使用。FieldStorage
的每个值也是一个FieldStorage
或者MiniFieldStorage
实例。
由于表单可能存在重复的项目名,你可以使用getlist()
方法。getlist(key_name)
方法会返回所有key
为key_name
的值。
如果上传的表单中存在文件,你可以调用值的read()
函数或者readline()
函数。
如果是通过application/x-www-form-urlencoded
发送的数据,则没有list
, file
, filename
接口。
高级接口
前面介绍了,如果使用FieldStorage
类从数据读取CGI
。这一节,讲述以西而更可读和符合直觉的高级接口。但,前面讲的技术还是有用的,比如高效处理文件上传。
该接口包含两个方法。使用这戏方法你可以以更一般的方式处理数据,不用担心是否有几个值公用一个名字。
form = cgi.FieldStorage()
item = form.getvalue("item")
if isinstance(item, list):
# handle the list
pass
else:
# handle the single value
pass
进行类型检查是必须的,因为会有好事的用户,输入重复的键名。
你可以使用高级接口提供的getfirst()
和getlist()
方法。
函数
大部分函数,如cgi.parse
,cgi.parse_qs
,cgi.parse_qsl
,已经被移植到urllib.parse
。 cgi.escape
被移植到html.escape
。
安全问题
原则:如果你启动了一个外部程序函数,永远不要把用户的输入直接传入shell
。即使要传入也要确保只含有字母和数字、横杠、下划线和点。
在Unix
系统上安装CGI
脚本
阅读你的HTTP服务器的文档,找到你的CGI
脚本的安装位置,一般是在服务器目录的cgi-bin
目录下。
确保你的脚本可被其他程序读和执行;在Unix
文件模式下处于0o755
:使用chmod 0755 filename
。确保第一行有shebang
:
#! /usr/local/bin/python
同时,你的脚本需要执行的文件都有对应的权限。因为你的服务器被用户nobody
执行,它只能读/写/执行那些被所有人读/写/执行的文件。当前目录和系统环境变量也可能可你目前所处的不一样。
如果你需要从别的目录引用模块,使用sys.path.insert(0, "/path/to/your/module")
这样你的模块会被首先搜索。
测试你的CGI
脚本
不行的是,当你从命令行尝试CGI
脚本是,它很有可能不会运行,而一个能运行的CGI
脚本往往在服务器中不能运行。但你仍然应该从命令行中运行脚本,检查一下他是否有语法错误。如果你的脚本没有语法错误,但是它不工作,你只能读下一节。
调试CGI
脚本
首先,检查一下琐碎的安装错误,读一下上面关于安装的部分,能节约时间。如果你想知道你是否正确理解了安装过程,把这个模块文件cgi.py
安装到你的cgi
脚本目录下,启动这个脚本,他就会将它的环境和内容以HTML的格式输出。给他一个合适的模式,发送给他一个请求。如果它被安装在cgi-bin
目录下,在你的浏览器内输入如下url:
http://yourhostname/cgi-bin/c...
如果返回404错误,则说明服务器没有找到这个脚本,或许你应该把它装在别的目录下。如果给了别的错误,说明你有安装问题。你应该首先解决这些安装问题,再做别的调试。如果它给出了非常整洁的环境变量和表单内容输出,说明cgi.py
被正确的安装了。如果,你的脚本按上述过程安装,你现在可以对他进行调试了。
下一步是在你的脚本中调用cgi
模块的test()
方法,把它的主要代码替换成cgi.test
。
它应该输出和仅安装cgi.py
时一致。
当一个普通的python脚本抛出了一个未处理的异常时,Python
解释器会把traceback
打印出来,退出。当你的CGI
脚本抛出异常时,Python
解释器也会这么做。这些traceback
一般会在你的HTTP
服务器的日志文件里,或者被丢弃了。
幸运的是,如果你的脚本执行了某些代码,你可以通过启用cgitb
模块,把traceback
的内容发送到浏览器中。把下面两行代码加到你脚本的顶部。
import cgitb
cgitb.enable()
如果你怀疑cgitb
模块有问题,你可以使用一个更鲁棒的方法,只调用内置模块:
import sys
sys.stderr = sys.stdout
print("Content-Type: text/plain")
print()
上述代码依赖python
解释器输出traceback
,输出的内容的格式被指定为纯文本,去除了HTML
过程。如果你的脚本正常工作,你的客户端会显示纯HTML
。如果抛出了异常,前两行打印出之后,traceback
会被打印出来,如果没有HTML
解释器进行处理,所以traceback
会可读。
常见问题及解决
- 大多数HTTP服务器将
CGI
脚本的输出放入缓冲区直至脚本完成,这意味着在脚本还在执行时,不可能在客户端展示进度 - 按上述核对安装过程
- 监控日志文件
- 先检查语法错误
- 如果没有语法错误,在脚本顶部添加
import cgitb; cgitb.enable()
- 当启动外部程序时,确保他们能够被找到,通常这意味着绝对路径名,在
CGI
脚本中,PATH
总是被设置为一个没啥用的值 - 当脚本读写外部文件是,确保执行
CGI
的userid能够读写这些文件:一般来说是运行服务器的的userid,或者是服务器的suexec
的userid - 不要给一个
CGI
set-uid权限,这在大多数操作系统上不可行,而且不安全。