Google高级搜索技巧:用Dork语法做信息搜集

导语:Google Dorking,也叫”Google黑客技术”,是最实用却最被低估的被动侦察手段之一。通过几个特殊的搜索语法,你可以强迫Google变成一台精准的信息筛选器——从公开的社交媒体里找出某人的全部账号、从企业网站里找到内部员工列表、甚至从robots.txt里发现网站管理员试图隐藏的后台目录。本文用最简单的方式,带你从零学会这套技能。


一、先搞懂这几个基本符号

Google Dorking本质上就是几个特殊符号的组合。不用背,理解意思就行。

符号作用举个例子
site:只在指定网站搜索site:github.com 只搜GitHub
filetype:只找特定文件格式filetype:pdf 只搜PDF文件
inurl:在网址链接里找关键词inurl:admin 找网址带admin的页面
intitle:在网页标题里找关键词intitle:"index of" 找标题带”index of”的页面
intext:只在网页正文里搜索intext:"@qq.com" 找正文里出现QQ邮箱的地方
""必须精确匹配整句话"张三" 搜张三,不会把张分开匹配
-排除某些内容site:github.com -site:api.github.com 搜GitHub但不含API页面
OR或者(满足任意一个即可)"gmail.com" OR "qq.com" 搜Gmail或QQ邮箱

记住:这些符号可以组合起来用,组合越多,结果越精准。


二、入门级搜索技巧

2.1 找某人在社交媒体上的账号

想知道某个人的微博、Twitter、LinkedIn账号?一条命令搞定:

"张三" site:weibo.com OR site:twitter.com OR site:linkedin.com

原理:用双引号精确匹配名字,然后用site逐个指定社交平台。

2.2 找某个人的邮箱地址

如果有人把邮箱公开发在了某个网页上,用这个方法找:

"zhangsan@qq.com" OR "zhangsan@company.com" site:*

原理:精确匹配邮箱地址,加上通配符site:*搜索所有网站。

社交足迹搜索示例

2.3 搜特定域名的邮箱

想找某公司域名下所有人的邮箱,可以这样搜:

"@company.com" "email" filetype:pdf

原理:在PDF文件里找带公司域名的邮箱地址。很多时候公司会把员工通讯录导出成PDF,但忘了加密。

邮箱搜索示例
另一种格式

2.4 用intext精确搜正文里的邮箱

跳过标题和链接,只在网页正文里搜邮箱:

"@gmail.com" OR "@yahoo.com" intext:"zhangsan"

原理intext:让Google只看网页正文,忽略标题、链接、URL。适合找别人在正文里打字打出来的邮箱。

2.5 用短语匹配找自定义域名邮箱

很多人发表邮箱时会写”contact: xxx@domain.com”这样的格式,可以用:

"contact email" OR "email me at" OR "email:"

原理:抓住人们发表邮箱时的习惯用语,精准定位。

2.6 找企业网站上的内部邮箱

直接在企业域名里搜邮箱地址:

site:company.com intext:"@company.com"

原理:只搜索指定公司网站,找网页正文里出现的内部邮箱地址。

企业邮箱搜索示例

2.7 批量找公司核心联系人

直接找销售、CEO、客服这类常用邮箱:

"sales@" OR "ceo@" OR "info@" site:company.com

原理:这几个邮箱前缀是几乎所有公司都有的,加上site:限定公司域名,一次搜出核心联系入口。


三、进阶:组合搜索链

单个搜索已经很有用了,但如果把多个条件组合起来,效果会翻倍。

3.1 关联真名和网名

如果你知道某人的真名,想找到他/她的网名/游戏ID/其他平台账号:

"张三" ("handle" OR "username" OR "alias" OR "aka" OR "@") -site:linkedin.com

原理:用-site:linkedin.com排除LinkedIn这类正规职场平台,逼Google从其他角落找出关联信息。

身份关联链

3.2 找某人的所在地和日常活动

想知道某人在哪个城市、参加过什么活动,可以这样搜:

"张三" ("深圳" OR "广州") "resident" OR "member" OR "student"

原理:把名字和地名、身份词组合起来,找到当地的学校名单、新闻提及、社团公告等。

所在地搜索

3.3 从身边的人顺藤摸瓜

目标本人信息太少?从身边人入手:

"张三" "married" OR "son of" OR "daughter of" OR "partner" OR "director"

原理:搜索结婚公告、讣告、公司注册文件等,通过家庭关系或商业关系找到目标。

关联人搜索

3.4 找被删除的网页存档

目标清空了社交媒体?用Google快照或网页时光机找回:

site:web.archive.org/web/*/http://targetpoi.com

原理:Internet Archive(网页时光机)保存了大量历史网页快照,即使原网页被删除,这里可能还有。

网页存档搜索

四、专业级信息搜集

4.1 找泄露的企业邮箱和密码

在公开的文本分享平台上搜索目标公司的邮箱泄露记录:

(site:pastebin.com OR site:controlc.com OR site:justpaste.it) "@targetcompany.com"

进阶版——搜包含密码的数据库导出文件:

site:com filetype:sql OR filetype:txt OR filetype:log "@targetcompany.com" "password" OR "hash"

原理:pastebin这类网站经常有人贴出泄露的数据,通过域名+密码关键词组合,可以找到企业邮箱是否已在暗网或公开论坛上泄露。

泄露数据搜索
泄露数据搜索2

4.2 批量搜集企业内部员工信息

方法一:从公司网站正文里找

site:targetdomain.com intext:"our team" OR intext:"staff directory" OR intext:"contact us"

原理:很多公司会在网站正文里提到”我们的团队”、”员工目录”等词汇,直接从这里提取。

员工目录搜索

方法二:从LinkedIn绕过主站

如果企业主站隐藏了员工信息,直接从LinkedIn的索引里找:

site:linkedin.com "company name"

方法三:从PDF文件中找

site:targetdomain.com filetype:pdf "employee list" OR "staff roster" OR "directory"

原理:公司内部的员工通讯录经常被导出成PDF上传到子域名上,但主页没有链接到它们。

PDF员工列表
PDF员工列表2

4.3 找暴露的电话号码和短信日志

"target name" ("+86" OR "138" OR "139") "phone" OR "contact" OR "WhatsApp"

查找公开的短信日志文件:

intitle:"index of" "sms.log" OR "call_log.txt" OR "whatsapp_backup"

原理:第一个命令通过国家代码和手机号段定位目标号码;第二个命令直接搜索暴露在互联网上的短信和通话日志文件。


五、发现隐藏的子域名

要全面了解一个公司的网站架构,包括测试环境、内部系统、开发环境:

site:*.targetcompany.com -site:www.targetcompany.com -site:blog.targetcompany.com -site:shop.targetcompany.com

原理:星号*表示匹配任意子域名,然后用-site:逐个排除已知的主要站点,逼Google列出隐藏的、低流量的子域名,比如dev.targetcompany.comstaging.targetcompany.cominternal.targetcompany.com

子域名映射

六、从robots.txt挖掘隐藏目录

robots.txt是网站用来告诉搜索引擎哪些目录不要抓取的配置文件。但聪明的调查员会反过来利用它——既然网站不想让搜索引擎看到这些目录,那目录里一定有什么重要的东西

思路

查看目标网站的robots.txt(浏览器打开 https://目标网站.com/robots.txt),注意里面Disallow列出的路径,然后用Dork去搜索这些路径。

常见高价值目录

目录可能泄露的内容
/admin/ /login/后台管理面板
/backup/ /db_backup/未加密的SQL备份、ZIP压缩包
/staging/ /dev/ /test/开发环境,通常没有认证保护
/logs/ /tmp/日志文件,可能含用户名、API密钥
/config/配置文件,可能含明文密码

实战:针对特定隐藏目录搜索

第一步:打开目标网站的robots.txt,记录下所有Disallow路径。

第二步:针对这些路径构造精确搜索:

搜开发环境中的敏感配置文件:

site:targetcompany.com inurl:/dev-staging/ filetype:env OR filetype:yaml OR filetype:conf

搜隐藏的归档目录中的机密文档:

site:targetcompany.com inurl:/private_archive/ "internal use only" OR "confidential"

搜隐藏日志目录中的系统日志:

site:targetcompany.com inurl:/secure_logs/ filetype:log OR filetype:txt
robots.txt分析示例

核心洞察:网站管理员在robots.txt里列出”禁止抓取”的目录,其实是在帮你画地图。你只需要按图索骥,用Dork去搜这些目录里被Google索引到的内容。


七、简单但实用的搜索模板

7.1 找工作邮箱

"@targetcompany.com" filetype:txt OR filetype:csv

原理:在纯文本文件或CSV文件中找带公司域名的邮箱。

工作邮箱搜索

备选模板:

"person of interest" filetype:txt inurl:"email.txt"
"张三" filetype:txt (inurl:email.txt OR inurl:emails.txt OR inurl:contacts.txt)

7.2 找暴露的文件夹(经典”Index of”)

当网站配置错误时,服务器会直接显示文件夹内容而不是正常网页,这种页面叫”Index of”:

intitle:"index of" "contacts.txt" OR "employees.db"

原理:找网页标题为”Index of”的页面,且包含联系人文件或数据库文件。

暴露文件夹搜索
暴露文件夹搜索2

7.3 找可以向上翻页的根目录

intitle:"index of" "parent directory"

原理:有些服务器允许用户直接浏览到上级目录,这个命令能找到这类配置有问题的服务器。


八、关于Yandex:别只盯着Google

Google虽然强大,但它对某些区域、某些语言的索引并不完整。真正的高手会用多个搜索引擎交叉验证。

Yandex(俄罗斯搜索引擎)在某些方面比Google更强:它覆盖了更多俄语区、东欧和中亚的内容,而且它的历史缓存中保留了一些Google已经删除的内容。在做信息搜集时,换一个搜索引擎搜同样的Dork,经常会有意外收获。


九、重要提醒

合法合规:本文所有技巧仅供合法的安全研究和授权渗透测试使用。用这些技巧去获取未经授权的数据、入侵系统、或者骚扰他人,都是违法行为。

不要假设robots.txt是安全的:被Disallow禁止的目录,并不代表Google不会收录它。只要这个目录在其他地方被链接过,Google就可能已经索引了里面的内容。

个人信息要负责任地处理:如果在调查中发现了个人身份信息(PII)或泄露的密码,要通过正当渠道报告,不要滥用。


十、总结

Google Dorking不是背几个命令那么简单,它是一种思维方式——把公开的互联网索引当成一个半结构化的数据库来用。

几个核心要点:

  1. 基础符号要熟:site、filetype、inurl、intitle、intext这五个是核心中的核心
  2. 从简单开始:先单个符号用熟,再逐步组合
  3. 组合越多越精准:用OR扩展范围,用-缩小范围,用””精确匹配
  4. robots.txt是你的朋友:网站的”隐藏地图”反而成了你的导航
  5. 多引擎交叉:Google+Yandex能覆盖更广的范围

记住:最好的侦察员,永远先查公开信息,绝不走歪路。


原文出处:https://preciousvincentct.medium.com/the-art-of-the-query-advanced-google-dorking-matrices-for-osint-investigators-ab129564af38/

版权声明:本文由华盟网原创发布,保留所有权利。配图由华盟网授权使用。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容