过滤搜索引擎的抓取数据
作者: Mysticbinary
原文地址: https://www.cnblogs.com/mysticbinary/p/12703036.html
声明: 本文版权归作者所有,欢迎转载,但未经作者同意请保留此段声明,请在文章页面明显位置给出原文链接
一些规定
- Google限制最多搜索32个单词,包含搜索项和高级运算符。不过也有一些其他方法绕过这种限制,比如使用通配符来代替某些搜索项。
- 同样的搜索语法,百度有时也会得到惊喜。
基础型查询
- inurl
搜索包含有特定字符的URL。例如输入inurl:/admin_login,则可以找到带有admin_login字符的URL,通常这类网址是管理员后台的登录网址。 - intext
搜索网页正文内容中的指定字符,例如输入intext:后台登陆。
这个语法类似我们平时在某些网站中使用的“文章内容搜索”功能,把网页中的正文内容中的某个字符做为搜索条件, - intitle
搜索网页标题中包含有特定字符的网页。例如输入intitle:后台登陆,这样网页标题中带有上科互联的网页会被搜索出来。和上面那个intext差不多,搜索网页标题中是否有我们所要找的字符,例如搜索:intitle:安全天使,将返回所有网页标题中包含“安全天使”的网页。同理allintitle也同intitle类似。allintext:家庭住址 - filetype
搜索指定类型的文件。例如输入filetype:PDF,将返回PDF文档。这个我要重点推荐一下,无论是撒网式攻击还是我们后面要说的搜索指定类型的文件。doc .bak .db .mdb .inc - site
指定域名搜索,这个过滤比较精确,后门会在复合型查询时多次用到。例如输入site:www.sunghost.cn。所有和这个网站有关的URL都会被显示。 - cache
有些页面已经访问不了,或者想看他的网页历史快照,可以用cashe,cache:www.juwan888.com
- define
搜索某个词语的定义。搜索:define:微积分,将返回关于微积分的一些定义。 - info
查找指定站点的一些基本信息。info:www.douban.com,返回一些关于豆瓣公司的一些介绍,动态,公告。 - link
例如搜索:link:www.cnblogs.com/mysticbinary,返回所有网页包含www.cnblogs.com/mysticbinary链接的URL。
符号使用
Google 不区分大小写,除了 or 被用作布尔运算符时,就必须写做OR。
- “特定搜索”
加上“ ”英文引号,指定搜索结果必须一样。
- 通配符 *
必须在 “ ”中使用*,"kali * web渗透测试"
- 点号 .
与通配符星号*一样也必须在“” 内使用, 不一样的是点号.匹配的是字符,不是字、短语等内容,而是符号。保留的符号有,、.、[、(、-等。
布尔逻辑
- 逻辑与 就是空格、AND
- 或 (java|php)
- 非 -java
不包含 - 约束条件 +
“mysticbinar” + “不可能发送的事”

- 括号分组 ()
和正则一样 - 时间范围 2020..2020
"美团*术" 2020..2020
复合型查询
- 子域名查询
1 | Copy# 使用site限定范围并使用*来进行泛查询,最后用-排除掉主域名,得到的就是子域名: |
- C段查询
1 | Copy# 如果你知道这个网站的IP,你也可以使用site结合通配符来查询在C段上存在的网站 |
过滤出功能
- 登陆接口查找
1 | Copyallback=|api=|interface=|function=|functions=|count= |
- 功能点
1 | Copysite:jd.com inurl:ewebeditor|editor|uploadfile|eweb|edit|php?id=|asp?id= |
过滤出敏感文件
- 邮箱/QQ/群
1 | Copysite:xxx.xxx intext:qq|qq群|企鹅|腾讯|email|邮件 |
- index of/ppt
1 | Copysite:jd.com index of/* |
- phpmyadmin
1 | Copysite:ulnetworks.co.kr ?inurl:.php ?intext:CHARACTER_SETS,COLLATIONS, ?intitle:phpmyadmin |
- 文件查找
1 | Copy这个语法不能使用 |, 为什么? |