百度空间自动踩脚印开发日志(1)

| | Comments (0) | TrackBacks (0)
本周将研究百度空间的自动踩脚印机制,整个项目分为以下开发模块:

1、百度空间用户收集模块:利用爬虫对百度空间进行漫游,将所有用户空间地址解析出来,并保存在本地数据库中;数据库规划中要设计"用户活跃度"和"上次被踩日期"等列,以便效率;

2、自动访问模块:利用鼠标钩子和键盘钩子进行模拟用户输入、点击行为;这里放弃控制台操作,直接用浏览器模拟用户行为,可以确保踩脚印功能快速复用、同时规避防踩机制判断;

3、虚拟机环境部署:为了防止在踩脚印过程中被黑客博客挂马,将整个项目放在虚拟机中运行,生活在Matrix中的病毒不会对本地系统造成影响;

4、创建百度博客,用于吸引一次回访者,博客内容可随意建立,但内容全文引用超链接、并通过CSS样式表修改超链接形态,表观无法察觉其属于超链接;创建一次回访统计,便于观察回访效果;

5、创建二次点击目标网站,即一次回访到的博客中超链接指向网站,内容无关紧要,但要做好统计工作,便于分析整个项目成本和效率;


项目核心和所用到的技术:

1、爬虫效率与爬虫AI:肉乎乎的爬虫要防止掉入黑洞中、要确定被抓取用户是一个真实用户,而非另一个踩脚印的站长全套;

2、本地Mysql海量存储:百度空间用户预计在百万级,若采用单进程访问,每3秒访问一个空间,则每天踩3万人;

3、钩子进行模拟输入:键盘远程钩子输入、鼠标远程钩子控制都有现成代码,但要重写代码合二为一;

4、浏览器进程自动判断:若踩脚印过程中出现了多个浏览器进程、说明被挂马或弹窗,应自动关闭多余进程并短信预警、初始化Matrix世界,让尼欧和墨菲斯死翘翘。

注、本系列日志预期为5篇、预计本周内完成,效果报告下周奉上。

0 TrackBacks

Listed below are links to blogs that reference this entry: 百度空间自动踩脚印开发日志(1).

TrackBack URL for this entry: http://shangning.net/chinese/mt-tb.cgi/41

Leave a comment

友情链接

Google