一、图片保存与尺寸剪裁:
对所有下载回来的图片进行尺寸判断,宽度需要在270~560之间,如果宽度小于270,则放弃这张图片;若宽度大于560可按比例缩小至560宽。高度没有限制,只对图片宽度进行限定。
然后将所有已经保留下来、尺寸合格的图片进行剪裁,为每一张图片生成5种缩略图尺寸,分别为50x50、100x80、160x120、140x100、95x75。也就是说一张图片会保存6种不同的尺寸,并为每一个尺寸定名、分目录存放。
最后用最小缩略图展现所有图片,人工删除其中与主题无关的图片。将最终剩下的图片入库、统计出图片数量并生成相册,再设计页面生成网站。
二、正在进行抓取的数据和预期目标:
1、所有照片数量:39244张图片;
2、图片储存在百度相册中的有7402张、储存在其他网站上的有31842张;
3、对于31842张图片而言,其中14KB以下的图片有3676张,这3676张图片太小了,直接放弃;
综上所述,现在要开始抓取如下两类图片:
1、抓取各个网站上大于14KB的28166张图片;
2、抓取百度相册中的7402张图片;
完成之后,大约会得到35568张照片图片,这写文件中还会有重复的和与主题无关的图,可再删除,最终将会剩下大约2万张图左右,基本上够用了。
对所有下载回来的图片进行尺寸判断,宽度需要在270~560之间,如果宽度小于270,则放弃这张图片;若宽度大于560可按比例缩小至560宽。高度没有限制,只对图片宽度进行限定。
然后将所有已经保留下来、尺寸合格的图片进行剪裁,为每一张图片生成5种缩略图尺寸,分别为50x50、100x80、160x120、140x100、95x75。也就是说一张图片会保存6种不同的尺寸,并为每一个尺寸定名、分目录存放。
最后用最小缩略图展现所有图片,人工删除其中与主题无关的图片。将最终剩下的图片入库、统计出图片数量并生成相册,再设计页面生成网站。
二、正在进行抓取的数据和预期目标:
1、所有照片数量:39244张图片;
2、图片储存在百度相册中的有7402张、储存在其他网站上的有31842张;
3、对于31842张图片而言,其中14KB以下的图片有3676张,这3676张图片太小了,直接放弃;
综上所述,现在要开始抓取如下两类图片:
1、抓取各个网站上大于14KB的28166张图片;
2、抓取百度相册中的7402张图片;
完成之后,大约会得到35568张照片图片,这写文件中还会有重复的和与主题无关的图,可再删除,最终将会剩下大约2万张图左右,基本上够用了。
Leave a comment