搜索: - 青梅
那就简单说说吧
IT江湖青梅2004-05-17 22:34:23
现在图象处理有两个方向: 1.考虑怎样使图象压缩文件还原时与原图接近,但有损压缩会丢失一些信息,比如未被函数涵盖的区域,典型如颜色过渡时一些不那么规则的色斑(树林里的光斑等,其色差小,不足以使用一个函数去描述),在还原时肯定会丢失,有时使用插值法使图象看起来更流畅,虽然图象与原图象已不同,但起码看上去不那么粗糙。 2.压缩对图象进行模式识别,只保留其独特信息,相当于保留的这个图象的一个摘要,但是使用这个摘要,配合素材引擎,可以还原出这个图,素材引擎里有诸如自然景象、材料材质等不同的图象素材,可以根据...
小运姐姐,进来说说悄悄话
IT江湖青梅2004-05-17 22:17:39
在统计程序跑完前,很多事都很难说的,后面的一些步骤基于“统计结果符合预计”这样一个还没证明的论据,如果不符,则有很多要调整。 举例来说,姓名的统计,如果不是专门的姓名登记中,很难得到姓、名的分布规律,因为很多时候可能都切分不出来。
我印象里你是做图象处理的?
IT江湖青梅2004-05-17 22:12:18
那么肯定知道,把有损压缩且压到很小的图再还原时,不能用插值法解决,必须要考虑许多在小图上没有的信息,比如楼宇的光晕、两色之间非过渡色等,在这样的情况下,使用小图保存,日后再还原可能就不如直接采用大图方便。 统计语言模型固然希望抽象得好,可是,如果语料库本身太小,加工出来的语言模型可能也是一张太粗糙的图。
现在的情形就相当于
IT江湖青梅2004-05-17 22:05:55
用颗粒很粗的图象去分析和还原,很难得到理想效果,所以,必须从源头进行改变。 上次和松鼠聊起此事,我说有教授加工过十亿字的语料库时,松鼠说中国教授说的话,很难信的,不如自己做一遍。
那谁传的机器翻译方面的文章粗粗看了几篇
IT江湖青梅2004-05-17 20:54:50
发现目前研究问题主要在于: 1.语料库太小,十亿字的已经算大的了,可是,这个规模上,很多词组出现的次数很少,根本不会被归纳进去; 2.关联没有使用合适的初始词类,比如我准备使用名词作为算子激活统计语言模型,这样重算后得到的模型不是扁平的,而是立体的; 3.文本输出不应要求唯一性,实际上,当一个源文本输出多种文本有的可能是错的,而有的,完全可能体现为不同风格,就象你可以用广东话或四川话表达一样的意思,但可能完全是不同的句子。...
你会设置代理服务器吗?
IT江湖青梅2004-05-17 16:45:16
很久以前,在某公司时,从代理服务器上看局网出去的记录玩,有时缓存满了也删一下,没觉得有啥难的。 后来有次和一个MM连对等网后别人帮忙装代理服务器,不知道是哪儿设置错了,弄了两小时,当时那个GG非常不好意思,让我不要告诉别人。 后来在别人家想临时共用一下别人的网络出口,那个资深程序员GG脸红地告诉我说他以前装过代理服务器,没装上,只好把电话线拔下来我用完了再放回去。 今天公司装代理服务器,我启动代理服务器后客户端连不上,当时背上冷汗就出来了,后来我干脆让同事自己看帮助改一下自己机器的设置,我也悄悄看了看...
越往细节做花钱越多
IT江湖青梅2004-05-17 12:26:55
比如说对中英文同时支持很好的系统,就比只对某种文本支持很好的系统要贵很多。 十万到二十万,可以完成全部表面功能了,但是性能方面比如不同语种支持、跨域数据库等方面会弱一些,另外,目前很多自己接活的工程师是以前给大公司做过软件的,手上本身有大量代码,价钱可以压到比较低,用的时候检查好,不要里面藏有原版权单位信息的脏代码就可以。