首页 | 登陆 | 注册 | 申请 VIP | 发帖排名 | 会员列表 | 会员区 | 搜索 | 帮助

网友社区站务公告 → 关于重复图片判断程序的困扰,会员请进……

【 浏览: 11220 | 回复: 66 】
作者
内容   本主题已关闭回复 添加收藏           
常军
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [46]

来自: 陕西
鉴定: 保密
发帖: 44
注册: 2002-09-10

  向版主反映本帖
 

现在不重复的好图真是难找。我已经大伤脑筋了。或许是我看的图太少,但我还是任为我的一些图不重啊,就这样被删掉了。
大家都说……,哎。相信是为大家看更好的图。

2004-02-03 21:49 [提示]: 会员等级如何分配?  IP: 保密     
toby
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [47]

来自: 北京
鉴定: 保密
发帖: 9
注册: 2001-12-31

  向版主反映本帖
 回复:Jacky

另外,关于防止大量不合要求图片的方法不知道仔细研究了没有,
我的看法就是设置临界区,让新数据库学习旧数据库,
一旦发现图片是新数据中的就按新数据的要求处理(删除),
否则检查是不是旧数据库的:
A.是就先不登,等待处理;
B.不是就发上去了。
处理:
A.如果人工确认合格,就在新数据库中存储合格;
B.如果人工确认不合格,就在新数据库中存储不合格,并删除旧数据库内容。

我现在就是不太清楚数据库的负荷如何,如果比较高,Md5可以只占16个字节
的二进制方式存储(一个128位整数),MD5实际上是把任意长度的数据映射
为一个整数,要是仅用MD5的二进制形式作为主键查询可以达到很快的速度。
正常的Md5是一个十六进制数共32字节,存储32字节要大一些,而且查询慢,
存储二进制就要好的多了。当然要是负荷不是很大就无所谓了,而且不同
方式存储的MD5很容易互相转换。

2004-02-04 02:32 [广告]: VIP 高清晰美腿影片。高品质、高享受、强烈推荐  IP: 保密     
Jacky
超级管理员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [48]

来自: 广东
鉴定: 保密
发帖: 653
注册: 2000-04-23

  向版主反映本帖
 回复:toby

两个新、旧数据并存,互相对比是防止大量违规图片的好方法。
但需要人工做的事情更多,版主就不单是只删除图片那么简单了。
因此还是只使用新算法数据库比较合适。

如果用16位md5重复机会可能比较高(相对32位),而用32位md5做索引由于每个值都不一样,无论是否二进制,索引都非常庞大。因此本来就同时检查字节和尺寸了,用图片的高来做索引,那么索引会少很多(20万数据大概又2000种不同的图片高度),而且这样的索引已经够快了。虽然查询的数据要多点,由于索引库少与直接用md5索引没区别,并节省空间。

另外感激给予灵感,设置您为核心会员,可以使用本论坛更多功能,希望喜欢。

2004-02-04 02:50 [广告]: 加入 VIP ,尽赏原创精品  IP: 保密     
toby
核心会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [49]

来自: 北京
鉴定: 保密
发帖: 10
注册: 2001-12-31

  向版主反映本帖
 回复:Jacky

我明白了,那就先这么办吧,我的意思表达的也有些问题。
我想的问题,你都已经想到了,我就不说没有用的话了,反正全力支持。
重要问题解决了,其它的都是小问题。

实际上要是优化也快不了10%,而且比较麻烦

2004-02-04 03:01 [提示]: 会员等级如何分配?  IP: 保密     
njmpop
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [50]

来自: 山东
鉴定: 保密
发帖: 10
注册: 2002-07-24

  向版主反映本帖
 

斑竹:你好,这个问题我想你需要更新一下判断程序,现在有一个md5的算法,可以达到128位,对不同文件的重码率非常低,他对每一个字节都作计算,这比只判断尺寸有效的多。我现在有c的算法,其他的语言我没有。不过找个有心人肯定可以改出来的。

2004-02-04 18:58 [广告]: VIP 高清晰美腿影片。高品质、高享受、强烈推荐  IP: 保密     
野马奔腾
普通会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [51]

来自: 其它
鉴定: 保密
发帖: 2
注册: 2003-12-28

  向版主反映本帖
 

好搞了这样的鉴别程序,太感谢斑竹们了

2004-02-05 15:39 [公告]: 诚征各版版主数名,有意者请进。  IP: 保密     
deploma
高级会员
查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [52]

来自: 广东
鉴定: 保密
发帖: 125
注册: 2003-01-05

  向版主反映本帖
 

我想,频域信息不用占用太大的资源,有各种已经实现的使用算法,傅立叶变换是很复杂的,只是一个基础,小波变换是一个很好地解决方案,1-level的小波变换和原图一样大小,但特征就不同了。简单的比较他们,你也有4个区域可用(可以算出四个md5),这样大大缩小了重复的概率;复杂的算法,你可以比较高频信息的情况。我现在写的程序,小于1/90秒,对于800x600,filter长度为10。

小波1-level就可能满足你的要求,2-level的你就有7个区域,.


引用:
作者: Jacky
两个新、旧数据并存,互相对比是防止大量违规图片的好方法。但需要人工做的事情更多,版主就不单是只删除图片那么简单了。因此还是只使用新算法数据库比较合适。如果用16位md5重复机会可能比较高(相对32位),而用32位md5做索引由于每个值都不一样,无论是否二进制,索引都非常庞大。因此本来就同时检查字节和尺寸了,用图 .


2004-02-05 23:34 [推荐]: 点此进入本社区最多摄影大师、原创会员的 原创论坛  IP: 保密     
苍茫
普通会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [53]

来自: 广东
鉴定: 保密
发帖: 1
注册: 2004-01-09

  向版主反映本帖
 

正月十五过完 我也回来了 要开始贴图了

2004-02-06 09:43 [公告]: 庆祝网友社区发帖量突破 2000 万,全面升级服务器与开放观看时限  IP: 保密     
poppy75
普通会员
查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [54]

来自: 北京
鉴定: 保密
发帖: 1
注册: 2002-07-03

  向版主反映本帖
 

是不是可以完善一下对比过程,比如对比第256-512字节是否相同?可能会慢,不过总是个办法,而且这样出错机会比较小。

或者对比两个以上不连续的部分,字节数可以少一些,比如每段8个字节,抽取固定的3段。

[本帖最后由 poppy75 在 2004/02/06 18:23 编辑]

2004-02-06 18:18 [公告]: 诚征各版版主数名,有意者请进。  IP: 保密     
toby
核心会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [55]

来自: 北京
鉴定: 保密
发帖: 11
注册: 2001-12-31

  向版主反映本帖
 回复:deploma

你是学计算机图像处理的吗?回复好像不够专业。
从计算机的角度出发MD5->128位整数
表示形式:32字节16进制整数,16字节连续空间,或者4个32位整数。

小波算法,快速傅利叶变换的时间是绝对的,不是可以随便改变的。详细见ImageAnalyzer,fftw,这两个软件都是免费的。1/90秒的算法损失的精度太多了,加个马赛克可能都不会对结果产生影响。(高频过滤可能去掉噪声,人工改图产生的噪声如果被过滤,那实在没有道理)
离散余弦变换对于一个普通的个人电脑1/90秒都很有难度(如果没有C语言和汇编基础)。如果要提取特征可以查有关JEPG 2000的算法原理,里面写的比较详细。
其实偷懒的方法不用自己写算法,直接选择一种格式的图片存储就行了,无论什么格式All->JEPG2000(可以选择无损压缩)或者其他的什么有损压缩例如JEPG,按照一定的质量强制转换,还统一了天堂的图片质量。像JEPG2000选择压缩比1:1000就差不多是图像概况了。
自己写算法虽然比较费时,但效果一般不好,很少有人写的算法能够和讨论多年的算法媲美,毕竟人外有人。何况为了一个网站研究一个算法,也太不经济了。

2004-02-07 00:19 [推荐]: 点此进入本社区最多摄影大师、原创会员的 原创论坛  IP: 保密     
deploma
高级会员
查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [56]

来自: 广东
鉴定: 保密
发帖: 126
注册: 2003-01-05

  向版主反映本帖
 回复:toby

我觉得你说的话没什么基础。MD5我虽然在用,但只是我的简单工具,我不想讨论。

我不能理解你所说的“时间是绝对的,不可以随便改变的。”我也没过要改什么时间。如果你说1/90的小波变换不可能,估计你不知道快速小波变换。请看Mallat, S.的1989的论文。请不要轻易说什么不可能,我的实验是基于我自己实现Mallat算法的程序,我的计算机是P4 3G,上次我想这个计算机是很普通的,所以没有特别标明。

上次我只是说,可以用小波什么的,多搞点图像特征出来,目的是减少误判,这是在模式识别里最简单的想法。我从来没想要改变图像(什么高频过滤),没有必要。

其他一点问题,关于图像压缩,我只看过不多的论文,不是我的方向。但我可以告诉你,余弦变换只是傅立叶变换的特例,只不过不想记录正弦信息而已。以前的JPEG压缩是用余弦变换做的,但JPEG2000就是用小波变换做的。

2004-02-07 01:12 [广告]: 独家模特 青鸟、桃姬、莎奈 等……,尽在 VIP 本站原创  IP: 保密     
toby
核心会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [57]

来自: 北京
鉴定: 保密
发帖: 12
注册: 2001-12-31

  向版主反映本帖
 回复:deploma

好吧,工具越简单越实用,越不容易出错。

2004-02-07 03:59 [广告]: VIP 高清晰美腿影片。高品质、高享受、强烈推荐  IP: 保密     
ludubaihuo
中级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [58]

来自: 广西
鉴定: 保密
发帖: 90
注册: 2003-07-05

  向版主反映本帖
 个人看法

回复比较多的图片,个人觉得还是蛮受欢迎的,有不少图片是重复的,是应该清理一下,还有就是图片的尺寸应该限制一下,有些图片太小了,起吗要有600*800,不知版主认为如何

2004-02-09 23:38 [广告]: VIP 专用新功能发布  IP: 保密     
weilikaili
高级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [59]

来自: 辽宁
鉴定: 保密
发帖: 149
注册: 2004-01-18

  向版主反映本帖
 回复:Jacky

有错误是难免的~会员们会理解的~

2004-02-10 22:26 [公告]: 诚征各版版主数名,有意者请进。  IP: 保密     
老手
初级会员
消息  查看  收藏  搜索  搜图  编辑  引用  回复  | 只看该作者  [60]

来自: 黑龙江
鉴定: 保密
发帖: 11
注册: 2004-02-08

  向版主反映本帖
 不重复真难

您需要 初级会员 或以上才能观看本帖子,详细可见 等级分配

2004-02-13 12:29 [广告]: 加入 VIP ,尽赏原创精品  IP: 保密     
    
本主题共有 5  1 2 3 4 5   ]


所用时间: 北京时间. 现在时间: 2025-01-11 16:25

本站所发文字和图片信息仅代表发帖者个人观点,与本站立场无关.
本站拒绝一切与中华人民共和国法律相抵触的言论,违者将其IP等相关信息报送公安机关处理!

< 联系我们 - 柔性天堂 - 社区须知 >