允许浏览目录(目录列表)访问,让爬虫更轻松的索引网站文件

一般情况下,为防止网站“关键”文件被暴露,我们都会在空间浏览目录时禁止目录列表。但是在一些目录是没必要禁止的,而且应该允许访问目录列表(比如专门存放PDF文档和有规则存放图片的目录)。

这时就只需要在文档目录下建一个.htaccess文件,添加内容:

Options +Indexes

(切忌在网站根目录下添加此参数!)
这样在适当的位置“引导”蜘蛛进来就可以了。

当然对于一些空间(比如DreamHost的)默认允许访问目录列表(对网站安全造成隐患),是需要在网站根目录下建一个.htaccess文件,添加内容(禁止访问目录列表):

Options -Indexes

即可。

对于在win下不能直接建立这样一个开头带点的文件名,可以这样做:
1、在命令行(开始 —— 运行—— CMD )下使用

echo Options +Indexes >.htaccess

命令来创建。

2、可以建一个文本文件,然后写入这个参数,传到ftp空间后,修改文件名就可以了。

阻止坏爬虫,抓email地址和不遵守robots.txt的爬虫

可以根据 HTTP_USER_AGENT 来判断它们。把自己的agent设置为常用浏览器标识,比如 “Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)” ,就没办法了。

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus
RewriteRule ^.* – [F,L]
[F] – 403 Forbidden
[L] – 连接(Link)

参考:IDCSPY

关于 .htaccess 文件的更多使用技巧阅读:

把访问其他主机名地址重定向到指定主机名(域名)

Windows下配置Apache虚拟主机(VirtualHost)

Windows下Apache应用环境塔建安全设置(目录权限设置)

Apache开启Rewrite环境

学习 WordPress安全白皮书

301重定向实现方式

apache配置rewrite(静态化)

Windows下Apache应用环境塔建安全设置(目录权限设置)

目的:为Apache,php配置受限制的用户权限。

环境搭建可以参考以前写的这篇文章:Windows下Apache应用环境塔建 http://clin003.com/ideas/windows-apache-install-useing-like-php-python-subversion-1330/

环境配置情况:
apache安装目录:d:\www-s\apache
php目录:d:\www-s\php5
mysql目录:d:\www-s\mysql
网站根目录:d:\www\htdocs

专门为运行Apache运行所使用的用户:apache-u(可不隶属于任何用户组)

PS:这里只说Windows下Apache应用环境相关的目录权限设置,至于其他基本的服务器目录权限设置就不提啦!

Windows下Apache应用环境塔建目录安全设置操作步骤:

配置目录权限

Apache所在的根目录(也就是D盘),只需要读取的权限,并且这个读取权限不需要继承到子目录与文件(可以在权限设置高级里选择——应用到:只有该文件夹——权限:列出文件夹/读取数据, 读取属性,读取扩展属性,读取权限——确定)。

Apache安装目录的上级目录(d:\www-s),需要“读取”的权限(和根目录D盘的权限雷同)。

Apache安装目录,需要“列出文件夹目录”和“读取”的权限(可以为了方便使用继承)。

Apache安装目录下的子目录权限设置

“bin”和“modules”目录需要“读取和运行”、“列出文件夹和目录”、“读取”的权限。

“logs”目录需要“列出文件夹和目录”、“读取”、“写入”的权限(若Apache安装目录的权限使用啦继承,可只添加“写入”权限即可)。

到这里Apache的权限已经设置完毕,接下来设置PHP的权限

PHP目录(PHP5)可简单的设置为“读取和运行”、“列出文件夹和目录”、“读取”的权限。

Mysql目录下的bin文件夹和文件(mysql)需要为添加apache用户的“遍历文件夹和运行文件”、“列出文件夹和读取数据”的权限(可以在权限高级设置里找到)。

到这里Apache+Mysql+Php已经基本可以使用,接着配置网站根目录权限

网站根目录(www\htdocs)的上级目录www需要读取(“列出文件夹和读取数据”、“读取属性”、“读取扩展属性”、“读取权限”)的权限(和Apache的上级目录权限雷同,不需要继承到子目录和文件中去)。

网站根目录(htdocs)可简单的设置“读取”权限就可以啦(然后可以根据需要对缓存文件夹设置可写权限)。

到这里Apache+PHP+Mysql的环境受限制权限设置基本完成。

为Apache服务启用受限制用户
进入服务管理器(Services.msc,或者“我的电脑——属性——管理——服务”),找到Apache的服务项(Apache2.2),设置属性,登录用户选择受限用户(Apache-u)输入受限用户的密码,应用,确定。

这里“确定”之后一般会有提示(已授予账户.\apache-u“以服务方式登录”的权利)。这个提示相当于在组策略(开始->管理工具->本地安全策略,或者使用gpedit.msc打开)中的“用户权利分配”中选择“作为服务登陆”,添加apache-u用户。

可在任务管理器中查看httpd.exe进程的用户名为apache-u,使用PHP+Mysql的程序都可正常运行。
到这里已经完成啦“Windows下Apache应用环境目录权限”的受限制使用设置。

补充3:
可以在目录(具有可写权限的)下建个 .htaccess 内容写上:

RewriteEngine On
Order Allow,Deny
Deny from all
<files ~ “.(css|js)$”>
Allow from all
</files>

css和js为允许的文件扩展类型!

补充2:
1.Apache的权限设置错误提示
apache目录,php目录,网站目录中的一个权限设置不够都不能正常启动Apache服务,一般提示为:

Windows 不能再 本地计算机 启动 Apache2.2。有关更多信息,查阅系统事件日志。如果这是非 Microsoft服务,请与服务厂商联系,并参与特定服务错误代码 1。

查看系统事件日志中的提示为:

Apache2.2 服务因 1 (0x1) 服务性错误而停止。

若是php的权限配置错误会在应用程序事件日志中有记录。

2.另外Mysql的目录权限配置错误,不会对正常启动Apache服务造成影响,但不能网站程序使用Mysql服务(PHPINFO中显示并没有加载Mysql模块)。

补充1:
这个东东在本地机子上用来做测试基本是不用理会这些权限的,因为默认是使用系统用户来启动这个Apache服务的!不过若是暴露在外网就很危险啦!

安全是全方面的架构考虑,这里说的仅仅是冰山一角,不能以点盖面!

发现有遗漏的地方欢迎指正。。