关于“人肉”的技术,大致可以分为三步来做。当然了我这个只是提供思路(学习用的),若用于犯罪,

根据《网络安全法》的规定,经得被收集者同意,以及做匿名化处理(剔除个人关联),是合法提供公民个人信息的两种情形。基于此,《解释》规定:“未经被收集者同意,将合法收集的公民个人信息向他人提供的,属于刑法第二百五十三条之一规定的‘提供公民个人信息’,但是经过处理无法识别特定个人且不能复原的除外。”根据刑法第二百五十三条之一的规定,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。据介绍,该司法解释自2017年6月1日起施行。

0x00 主要三步:

  1. 数据收集
  2. 数据整合
  3. 数据分析

0x10 数据收集

数据收集分几个渠道:各类搜索引擎;各类的社交平台;利用非法的“社工裤”;通过非法的以物理或者网络技术的方式,获取到电子设备内的隐私信息等。也就是大致分为两大类的收集,一个是明网上的收集,一个就是俗称dark web上的收集:利用加密聊天软件,向做黑产人员购买公民的隐私信息(非法的)或者购买相关技术等。

0x11 利用各类搜索引擎几个技巧

以日常所用的度娘为例。

0x111 利用布尔逻辑运算符:ANDOR

若在搜索框内输入,电子 AND 科技。那么输出的结果大概也是,xxx电子科学大学或者电子科学技术等,简单的来说,电子 AND 科技类似等同于“电子科技+(电子*科技)”关键的内容(大致)。和逻辑门的AND意思等同。那么 OR 也是如此,则返回的是包含“电子”的关键词或者“科技”的关键词。

0x112 利用加减号

  1. 在搜索词前冠以加号+限定搜索结果中必须包含的词汇。
  2. 用减号-限定搜索结果不能包含的词汇。
    注:加减号前面要加空格。

0x113 利用语法查询

  1. 把搜索范围限定在网页标题中——intitle:标题
  2. 把搜索范围限定在特定站点中——site:站名
  3. 把搜索范围限定在[url]url链接中——inurl:链接
  4. 精确匹配——双引号" "和书名号<<>>
  5. 要求搜索结果中同时包含或不含特定查询词——“+”、“-”(减)
  6. 专业文档搜索——filetype:文档格式

0x114 利用使用通配符

通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。

0x112 各类搜索引擎的用途

工欲善其事,必先利其“器”。会技巧但是用错工具得到的结果往往不是最好的。
简单讲述下常见的搜索引擎:

  1. 百度是中国互联网用户最常用的搜索引擎,每天完成上亿次搜索;也是全球最大的中文搜索引擎,可查询数十亿中文网页。
    缺点是百度商业性质太强,你搜索的关键字的首页基本都被竞价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;页面布局不合理 页面没有充分利用;更新时间迅速的优势没有充分发挥等。
    所以可以拿来参考,毕竟大多数国内网民还是用百度的居多。
  2. 谷歌(Google)是整合全球范围的信息,所以应该是所有信息都包含的。如果有能力使用,当然推荐用这个,但是Google这家公司在关于政治还是其他关于华人方面的内容,对我们中国人和我党是不友好的,以我个人看法是无脑黑的,扯远了。
  3. 雅虎这个用的不多,具体详情自行搜索2333~
  4. 必应(Bing)这个搜索引擎分为国内和国外版本。偏向于搜索图片方面。优势也很明显,劣势也突出。但往往有时候也有例外,也是可以参考的。
  5. 搜搜(SoSo)这个是由企鹅公司推出的搜索引擎,大部分功能差不多,但是有个功能只有他家可以搜索微信公众号一些的内容。
    还有一些360搜索,有道搜索的不介绍了。

0x12 利用各大社交平台

前面讲到利用搜索引擎来获取数据,那么社交平台上的信息获取方式首先以面向的群体来分:国内用户和国外用户。以国内用户来分的话,有Bilibili,逼乎,微博,qq,贴吧,各类论坛和支付宝(不当当是支付工具,其实也算是社交平台)等。又要按年龄段来,那么选择的各类社交平台进行数据的收集也是不一样的。具体方法,懂得人自然懂,嘿嘿~(这里不细讲先)

0x13 利用非法的“社工裤”

首先讲讲什么是社工裤,社工裤(社工库,又称“裤子”)是hacker(做黑产的)通过非法的网络技术利用漏洞获取各类论坛(技术无罪,用于非法用途上,人是有罪的。),网络公司的数据库,然后大数据分析整合成的数据库。根据类型,大致分为:各类的用户密码和公民信息的社工库。当然也有两者都有的复合型的社工裤(这个说法不知道是对是错,大致是这个意思)。如果问我这些社工裤怎么做,或者哪里可以购买的话,先看看我们国家的《网络安全法》
这里面的信息,可以分为一手、二手甚至多手的信息。大多数在加密聊天软件上,要么已经是过时的,要么就是骗子。所以基本一般人很难用的到,你牛逼的除外。所以这里就不细讲了,虽然这里的用处最大,但是可实施的可能性不大,还违法。虽然利用搜索引擎的也算,但是这个是直接判刑的。

0x14 利用非法的以物理或者网络技术的方式

物理的方式比较直接了,比如直接拿别人手机,或者使用他其他的电子产品。(这里算偷窥别人隐私了,但这也是获取渠道之一)
网络技术的话就比较复杂了,毕竟扯到渗透了,这个要交给大佬讲233~

0x20 数据整合

这里就相对前面,没这么复杂了。

  1. 数据去重。顾名思义就是,对相同数据整合成一样。但是在大量的数据中,出现相同的数据。出现的频次也是有一定的参考意义的。
  2. 数据分类。就是对数据分类型,简单的分类就是以文件类型:图片,文本,视频,语音等,稍微复杂点的,像肖像,vlog,聊天语音等。这个细分的话,有很多分类。
  3. 数据的存储方式。前面的工作做好了,到了最后因为你的数据存储方式不对,导致后面的数据分析不好做。那就GG了。数据存储的方式有几类,(1)txt,doc等文档格式,这些适合最后整合出来数据较小的。(2)放到数据库,一般常用的数据库就行,这里不需要探讨哪类数据库性能如何,因为没有那个需求。所以大多数的数据库都可以,主要取决于你sql语句的写法。(这里是推荐使用的,便于编程)

0x30 数据分析

在这里比较复杂了,因为大部分情况下是边收集边搜索然后分析,再一次的重复前面步骤。直到获取到自己想要的信息。简单讲述下,三言两语讲不完。大概的步骤还是可以的。(只是片面)
数据分析主要就是对被收集人进行一个数据的肖像绘画,有点像犯罪心理学中的人物侧写。比如这个人的年龄,姓名,性别,喜好等人物特征。还要对人物的相关的社会关系进行筛选整合,最后这些相关的数据,进行合理的假设,后期数据的验证等,最终绘画出来的人物肖像是相对准确的。
目前就想到这么多,以后慢慢补充吧~
updated 2019.11.10