本周将研究百度空间的自动踩脚印机制,整个项目分为以下开发模块:
1、百度空间用户收集模块:利用爬虫对百度空间进行漫游,将所有用户空间地址解析出来,并保存在本地数据库中;数据库规划中要设计"用户活跃度"和"上次被踩日期"等列,以便效率;
2、自动访问模块:利用鼠标钩子和键盘钩子进行模拟用户输入、点击行为;这里放弃控制台操作,直接用浏览器模拟用户行为,可以确保踩脚印功能快速复用、同时规避防踩机制判断;
3、虚拟机环境部署:为了防止在踩脚印过程中被黑客博客挂马,将整个项目放在虚拟机中运行,生活在Matrix中的病毒不会对本地系统造成影响;
4、创建百度博客,用于吸引一次回访者,博客内容可随意建立,但内容全文引用超链接、并通过CSS样式表修改超链接形态,表观无法察觉其属于超链接;创建一次回访统计,便于观察回访效果;
5、创建二次点击目标网站,即一次回访到的博客中超链接指向网站,内容无关紧要,但要做好统计工作,便于分析整个项目成本和效率;
项目核心和所用到的技术:
1、爬虫效率与爬虫AI:肉乎乎的爬虫要防止掉入黑洞中、要确定被抓取用户是一个真实用户,而非另一个踩脚印的站长全套;
2、本地Mysql海量存储:百度空间用户预计在百万级,若采用单进程访问,每3秒访问一个空间,则每天踩3万人;
3、钩子进行模拟输入:键盘远程钩子输入、鼠标远程钩子控制都有现成代码,但要重写代码合二为一;
4、浏览器进程自动判断:若踩脚印过程中出现了多个浏览器进程、说明被挂马或弹窗,应自动关闭多余进程并短信预警、初始化Matrix世界,让尼欧和墨菲斯死翘翘。
注、本系列日志预期为5篇、预计本周内完成,效果报告下周奉上。
1、百度空间用户收集模块:利用爬虫对百度空间进行漫游,将所有用户空间地址解析出来,并保存在本地数据库中;数据库规划中要设计"用户活跃度"和"上次被踩日期"等列,以便效率;
2、自动访问模块:利用鼠标钩子和键盘钩子进行模拟用户输入、点击行为;这里放弃控制台操作,直接用浏览器模拟用户行为,可以确保踩脚印功能快速复用、同时规避防踩机制判断;
3、虚拟机环境部署:为了防止在踩脚印过程中被黑客博客挂马,将整个项目放在虚拟机中运行,生活在Matrix中的病毒不会对本地系统造成影响;
4、创建百度博客,用于吸引一次回访者,博客内容可随意建立,但内容全文引用超链接、并通过CSS样式表修改超链接形态,表观无法察觉其属于超链接;创建一次回访统计,便于观察回访效果;
5、创建二次点击目标网站,即一次回访到的博客中超链接指向网站,内容无关紧要,但要做好统计工作,便于分析整个项目成本和效率;
项目核心和所用到的技术:
1、爬虫效率与爬虫AI:肉乎乎的爬虫要防止掉入黑洞中、要确定被抓取用户是一个真实用户,而非另一个踩脚印的站长全套;
2、本地Mysql海量存储:百度空间用户预计在百万级,若采用单进程访问,每3秒访问一个空间,则每天踩3万人;
3、钩子进行模拟输入:键盘远程钩子输入、鼠标远程钩子控制都有现成代码,但要重写代码合二为一;
4、浏览器进程自动判断:若踩脚印过程中出现了多个浏览器进程、说明被挂马或弹窗,应自动关闭多余进程并短信预警、初始化Matrix世界,让尼欧和墨菲斯死翘翘。
注、本系列日志预期为5篇、预计本周内完成,效果报告下周奉上。
Leave a comment