百度空间自动踩脚印开发日志(4)

| | Comments (0) | TrackBacks (0)
这是第四篇"百度空间自动踩脚印"开发日志,当初估计可能要有5篇才能将这个机器人做好,现在已经完成了。如果还要继续写第5篇,那应该是效果反馈和数据统计方面的报告了。

机器人完成之后,受限于手中资源贫乏,因而只能利用电脑空闲时间运行此机器人。所以我也缩减了自己操作电脑的时间,周末两天都跑去网吧玩儿电脑,而让自己家中的电脑辛勤的劳作着。

对百度空间中的100万个用户进行不停的访问,连续三天才访问了1万用户,主要耗时在等待页面读取过程中,虽然可以用多个机器人并发缩短这个时间,但治标不治本,只能以百分比增加效率,无法在量级上得到提升。

该机器人的进一步应用和完善将在下一个开发周期进行,而现在有另外两件事情摆在了眼前,需要尽快完成:

1、零编辑系统网站生成框架:基于自动采集、分类、页面生成的零编辑网站CMS构建系统,主要用于快速、高效的搭建内容网站,以便于日后站群的建立、现有手中网站的内容自更新、地方门户新闻的自更新;

2、站群域名选择与注册:为了创建足够多的网站形成站群,最近要注册一些新的域名,也就是给网站起名字,虽然没有太多的技术含量、不用写程序,但是却要不断的翻字典、找单词,也够费神。


近期将在这个Blog中写以下内容,这些内容主要用于提醒自己未来开发中可能遇到的技术细节:

1、零编辑系统:CMS网站内容自更新,主要利用搜索引擎、模板匹配、数字指纹验证、中文分词等技术细节;

2、数字指纹验证:用于检验文章的原创性,搜索引擎也是利用数字指纹对文章原创性和重复程度进行检测的;

3、中文分词:用于应用于自动采集文章进行SEO优化、自动分类、Tag云归类;

4、模板匹配:以前曾写过一个重影覆盖确定文章正文的代码,但是现在看来暂时不需要这个技术,因为初期零编辑系统内容源比较单一,此功能可稍后再添加。

0 TrackBacks

Listed below are links to blogs that reference this entry: 百度空间自动踩脚印开发日志(4).

TrackBack URL for this entry: http://shangning.net/chinese/mt-tb.cgi/48

Leave a comment




友情链接 自然乱卷的博客 IO Language 白卉子的个人博客 孟子叶的个人博客 于新博的个人博客 周文艺 S9600初级程序员论坛 又听小楼风雨声 尚宁的英文Blog Mr.Shang 歪西网-石景山地区门户 卡客族