首页 | 登陆 | 注册 | 申请 VIP | 发帖排名 | 会员列表 | 会员区 | 搜索 | 帮助

网友社区站务公告 → 关于重复图片判断程序的困扰,会员请进……

【 浏览: 11207 | 回复: 66 】
作者
内容   本主题已关闭回复 添加收藏           
helloli
中级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [31]

来自: 四川
鉴定: 保密
发帖: 52
注册: 2003-06-24

  向版主反映本帖
 回复:Jacky

我认为可以对上传的图片进行更严格的内容检查,包括JPG图象的头字节,对图片数据进行随机的抽查比较,可能可以更有效的过滤重复图片和减少误判的可能性!

2004-01-28 13:36 [广告]: 加入 VIP ,尽赏原创精品  IP: 保密     
屋顶上的骑兵
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [32]

来自: 北京
鉴定: 保密
发帖: 35
注册: 2003-01-11

  向版主反映本帖
 

遇到这种情况的话,能否考虑使用ACDSEE更改一下图片的尺寸或大小?

因为现在一般上传的都是JPEG格式图片,而ACDSEE是支持JPEG格式更改大小的。首先打开图片。而后“另存为”时可见选项“选项”菜单;在这里可以调节最上面的滑杆在“最高质量”和“最佳压缩”之间滑动。而我们要做的就在这里。只要稍微滑动一下,再“保存”,这样图片的质量就不会有什么变化,而图片大小也就会随之发生变化。这也就突破了数据库中以图片字节识别图片的限制。不过,版主们也就更累了···

如果采用更改图片尺寸的方法的话,难免会造成图片多少的失真,所以不推荐。

我个人用的是ACDSEE3.1汉化版+图象增强插件。具体方法可参照版本不同而变化。


小子妄言,姑且听之;若有不通,欢迎板砖。

2004-01-30 00:54 [公告]: 庆祝网友社区发帖量突破 2000 万,全面升级服务器与开放观看时限  IP: 保密     
为丝着魔
特级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [33]

来自: 国外
鉴定: 保密
发帖: 612
注册: 2003-03-24

  向版主反映本帖
 

我也是多次遇到这样的问题,没办法,多看图再发图。

2004-01-31 10:21 [提示]: 什么是金铜兑换?  IP: 保密     
toby
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [34]

来自: 北京
鉴定: 保密
发帖: 6
注册: 2001-12-31

  向版主反映本帖
 关于文件重复问题

重复的文件的MD5码必然相同,不重复的MD5码几乎不可能相同,这样可以精确判断重复,当然如果为了放心加上长度也可以。
如果要判断相似的图片可能比较麻烦,而且我觉得服务器负载要是比较高还是免了吧。
关于新旧交替的问题:
可以这样
文件->核对新数据--(PASS)-->核对旧数据--(PASS)-->通过
\-(NOPASS)->删除 \-(NOPASS)->进入审核区
审核区成功/失败:计入新数据库
经过一段时间再使用新数据库,这样就可以算是平滑过渡了。
反正重新人工核对删除的图片是必须的,但是没有必要让不能判断的图片显示。

2004-01-31 12:42 [广告]: VIP 高清晰美腿影片。高品质、高享受、强烈推荐  IP: 保密     
Jacky
超级管理员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [35]

来自: 广东
鉴定: 保密
发帖: 629
注册: 2000-04-23

  向版主反映本帖
 回复:toby

您的意思是,把整张图片读取图片数据存为md5码再数据库内作为和以后图片核对?

2004-01-31 15:06 [公告]: 庆祝网友社区发帖量突破 2000 万,全面升级服务器与开放观看时限  IP: 保密     
hehehe1
高级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [36]

来自: 广东
鉴定: 保密
发帖: 110
注册: 2002-05-11

  向版主反映本帖
 回复:Jacky

可以这样,每个图片上传过程中就计算md5值
在数据库中保留每个图片的md5值,并作为索引。
这样插入数据时,相同的图片内容的图片就不行了。

2004-01-31 23:23 [链接]: 点此免费观看 柔性天堂 - 模特倩影  IP: 保密     
toby
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [37]

来自: 北京
鉴定: 保密
发帖: 7
注册: 2001-12-31

  向版主反映本帖
 回复:Jacky

是的,MD5算法很快,它是专门设计的核对算法,php等脚本语言有md5相关函数,计算MD5比CRC在特定的机器上要快,一个650M的光盘的Md5约15秒Athlon-700,是很好的核对算法,基本可以避免冲突。
冲突:MD5冲突指两个不同的信息,长度,内容等等存在不同,但存在相同的Md5码,目前还没有人列举出来一个实例。所以非常可靠,或者说几十年一见。
MD5,信息摘要算法5:可以去
这里
可以直接通过QQ找我。
Md5码是一个128位整数,16进制是一个32字节的串。

[本帖最后由 toby 在 2004/02/01 21:00 编辑]

2004-02-01 20:57 [提示]: 什么是金铜兑换?  IP: 保密     
Jacky
超级管理员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [38]

来自: 广东
鉴定: 保密
发帖: 638
注册: 2000-04-23

  向版主反映本帖
 回复:toby

感谢给予灵感!

以前我也有想过用CRC,但没有想过用 md5sum,其实现在想起来,很多服务器软件,如apache php mysql等都有给予md5sum指纹鉴定是否修改过文件。
这方法很好。
而md5算法我也会,其实VIP系统本来就运用md5算法。
并且图片核对数据是采用mysql,mysql本身就支持md5与sha1的查询和写入(只是mysql对二进制编译md5比较麻烦,但昨晚我找到知道方法)。
新的核对图片程序数据库将采用md5sum的算法。
再次感谢你的提醒!

本站即将编写会员+论坛系统III,希望届时给予更多提醒和意见!谢谢!

2004-02-01 22:35 [提示]: 什么是金铜兑换?  IP: 保密     
pgllove
热心会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [39]

来自: 天津
鉴定: 保密
发帖: 329
注册: 2001-06-02

  向版主反映本帖
 

为什么不能完善举报机制呢,第一个发现重复图的,将两个地址上报,将会得到奖励~~

2004-02-02 04:47 [链接]: 点此免费观看 柔性天堂 - 模特倩影  IP: 保密     
nopapa
中级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [40]

来自: 山西
鉴定: 保密
发帖: 61
注册: 2003-11-11

  向版主反映本帖
 

Acdsee6.0有个功能,可是从两个目录中找到相同的文件!
这是根据什么原理?我们不能效仿?!

2004-02-02 20:14 [广告]: VIP 专用新功能发布  IP: 保密     
EIEN
普通会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [41]

来自: 上海
鉴定: 保密
发帖: 1
注册: 2002-01-20

  向版主反映本帖
 可以算MD5来判断图片是否相同啊

DISKSTATE的重复图片查找就是通过算MD5来实现的

2004-02-02 22:18 [公告]: 诚征各版版主数名,有意者请进。  IP: 保密     
deploma
高级会员
查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [42]

来自: 广东
鉴定: 保密
发帖: 124
注册: 2003-01-05

  向版主反映本帖
 回复:Jacky

个人认为,你的图像特征不是很好才有这样问题,图像大小和一些简单的算术运算并不能代表一个图像。如果不仅考虑图像空间域的信息,而且考虑图像频率域的信息,我想能很好地解决你的问题。并且,如果你不怕麻烦的话,一个好的算法就能找出那些仅仅修改图像大小和用已发图像一部分的图。

2004-02-03 00:06 [广告]: 为普及 VIP ,推出低廉的 临时VIP 项目  IP: 保密     
toby
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [43]

来自: 北京
鉴定: 保密
发帖: 8
注册: 2001-12-31

  向版主反映本帖
 回复:deploma

频率域确实是图像处理的好方法,不过即使进行频率域处理也存在问题,
寻找平移、旋转等其实不复杂,一般都是文字识别用,
但是如果识别不成文字还要比较相似性问题就要存储,
一般来说存储空间上不允许,要比较两个图片是否具有相同的视觉效果,
就算压缩程度1:100,一个图片也要几KB,这比起Md5的16字节长太多了。

其实问题的关键在于,不是比较两张图片,而是服务器空间有限,
一张已经删除的图片,和一个新来的图片的比较,存储的数据必须能够说明
被删除图片的信息才行,不过结合一下倒是可行就是太费力气,而且不一定
效果好
,把图片解码,重新滤波按照一个固定方式生成图片的频率域信息,
然后生成MD5码。这样要是简单的图片格式转换生成的图片也可以认为是同一
图片。

2004-02-03 02:24 [广告]: VIP 高清晰美腿影片。高品质、高享受、强烈推荐  IP: 保密     
Jacky
超级管理员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [44]

来自: 广东
鉴定: 保密
发帖: 649
注册: 2000-04-23

  向版主反映本帖
 回复:toby

如果浪费大量资源去核对就没必要了,每次上传图片都需要庞大的数据库查询。
采用md5已经足够防止错误判断图片重复的可能性出现。
md5有小于百万分之一机会不同数据生成一样编码。起码昨天测试现有的25万数据中还没有发现一样的md5。
如果在同时检查字节、尺寸基础上加上md5,那么应该小于千万分之一。

2004-02-03 03:42 [广告]: 独家模特 青鸟、桃姬、莎奈 等……,尽在 VIP 本站原创  IP: 保密     
yongqi2471
普通会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [45]

来自: 江苏
鉴定: 保密
发帖: 4
注册: 2003-05-24

  向版主反映本帖
 

关于如何判断的问题,从技术的角度来说,的确光凭尺寸和字节的来判断肯定不行,因为图片越多,错误的概率的越大。建议从更底层的技术入手,根据图片的编码判断,我想错误的概率要小多了。

2004-02-03 16:40 [提示]: 会员等级如何分配?  IP: 保密     
    
本主题共有 5  1 2 3 4 5   ]


所用时间: 北京时间. 现在时间: 2024-12-24 01:28

本站所发文字和图片信息仅代表发帖者个人观点,与本站立场无关.
本站拒绝一切与中华人民共和国法律相抵触的言论,违者将其IP等相关信息报送公安机关处理!

< 联系我们 - 柔性天堂 - 社区须知 >