这是第四篇"百度空间自动踩脚印"开发日志,当初估计可能要有5篇才能将这个机器人做好,现在已经完成了。如果还要继续写第5篇,那应该是效果反馈和数据统计方面的报告了。
机器人完成之后,受限于手中资源贫乏,因而只能利用电脑空闲时间运行此机器人。所以我也缩减了自己操作电脑的时间,周末两天都跑去网吧玩儿电脑,而让自己家中的电脑辛勤的劳作着。
对百度空间中的100万个用户进行不停的访问,连续三天才访问了1万用户,主要耗时在等待页面读取过程中,虽然可以用多个机器人并发缩短这个时间,但治标不治本,只能以百分比增加效率,无法在量级上得到提升。
该机器人的进一步应用和完善将在下一个开发周期进行,而现在有另外两件事情摆在了眼前,需要尽快完成:
1、零编辑系统网站生成框架:基于自动采集、分类、页面生成的零编辑网站CMS构建系统,主要用于快速、高效的搭建内容网站,以便于日后站群的建立、现有手中网站的内容自更新、地方门户新闻的自更新;
2、站群域名选择与注册:为了创建足够多的网站形成站群,最近要注册一些新的域名,也就是给网站起名字,虽然没有太多的技术含量、不用写程序,但是却要不断的翻字典、找单词,也够费神。
近期将在这个Blog中写以下内容,这些内容主要用于提醒自己未来开发中可能遇到的技术细节:
1、零编辑系统:CMS网站内容自更新,主要利用搜索引擎、模板匹配、数字指纹验证、中文分词等技术细节;
2、数字指纹验证:用于检验文章的原创性,搜索引擎也是利用数字指纹对文章原创性和重复程度进行检测的;
3、中文分词:用于应用于自动采集文章进行SEO优化、自动分类、Tag云归类;
4、模板匹配:以前曾写过一个重影覆盖确定文章正文的代码,但是现在看来暂时不需要这个技术,因为初期零编辑系统内容源比较单一,此功能可稍后再添加。
机器人完成之后,受限于手中资源贫乏,因而只能利用电脑空闲时间运行此机器人。所以我也缩减了自己操作电脑的时间,周末两天都跑去网吧玩儿电脑,而让自己家中的电脑辛勤的劳作着。
对百度空间中的100万个用户进行不停的访问,连续三天才访问了1万用户,主要耗时在等待页面读取过程中,虽然可以用多个机器人并发缩短这个时间,但治标不治本,只能以百分比增加效率,无法在量级上得到提升。
该机器人的进一步应用和完善将在下一个开发周期进行,而现在有另外两件事情摆在了眼前,需要尽快完成:
1、零编辑系统网站生成框架:基于自动采集、分类、页面生成的零编辑网站CMS构建系统,主要用于快速、高效的搭建内容网站,以便于日后站群的建立、现有手中网站的内容自更新、地方门户新闻的自更新;
2、站群域名选择与注册:为了创建足够多的网站形成站群,最近要注册一些新的域名,也就是给网站起名字,虽然没有太多的技术含量、不用写程序,但是却要不断的翻字典、找单词,也够费神。
近期将在这个Blog中写以下内容,这些内容主要用于提醒自己未来开发中可能遇到的技术细节:
1、零编辑系统:CMS网站内容自更新,主要利用搜索引擎、模板匹配、数字指纹验证、中文分词等技术细节;
2、数字指纹验证:用于检验文章的原创性,搜索引擎也是利用数字指纹对文章原创性和重复程度进行检测的;
3、中文分词:用于应用于自动采集文章进行SEO优化、自动分类、Tag云归类;
4、模板匹配:以前曾写过一个重影覆盖确定文章正文的代码,但是现在看来暂时不需要这个技术,因为初期零编辑系统内容源比较单一,此功能可稍后再添加。
Leave a comment