搜索: - 青梅
记得那时打印那些数据
IT江湖青梅2004-04-28 10:11:32
往往一晚上用半箱打印纸,一箱打印纸是四本,每本五百页的。 管帐的会计插不上手,下班就老老实实回家,我处理数据和打印出来,晚上在办公室呆到半夜是常事,一边听着打印机响一边玩游戏。 如果手工去修改和出表(包括其他一些数据),估计一年都弄不完,当时用了半个月,包括核对和查帐、修改一些错误。
小背,给你讲讲我以前的事吧
IT江湖青梅2004-04-28 09:56:10
以前配合会计师事务所做上市预审计时,要核对固定资产的一些数据,两千多项资产,三年数据,总字段数大概一百多吧(每月多项数据),但是,三年数据居然没有统一ID,固定资产编号不统一(房产和设备归不同部门管,而且即使同是设备,由于管帐的会计不同,输入编号的习惯也不同,比如横杠,有的用连接符,有的用下划线),我分析之后,用固定资产净值作为验证,固定资产编号作为辅助验证数(同一批的固定资本净值可能相同,但编号习惯会一样,此时排序就不会有问题了),把三年数据碰得清清爽爽,而且直接用帐务系统里带的报表打印功能打印...
不对
IT江湖青梅2004-04-28 09:36:11
输入青字后输入“mei”,对期望的新字“梅”形成约束的是“mei”和前面的一元“青”,而且进行频率比较时也不会和不同首字组比较啊。 一般连续四字以上的频率会比较低,可以设置一定时间内(处理的数据来源差不多,比如新浪AD服务器)连续五字组出现频率达到某个值时出现提醒,看到提醒,查来源后可以将其设置为广告,那么在去除标点符号、西文及压缩空格前,可以先去除相应字符串。 昨天你讽刺我研究什么分布式的信息摘要ID,其实在数据交换环节使用信息摘要来进行验证是非常普遍采用的,比如一些压缩软件。...
象“青梅”、“青大侠”这样频率高的词肯定会入选
IT江湖背时子2004-04-28 09:26:11
而“厕所”这样频率低的词恐怕则会被“自然淘汰”。 青大侠:你就先编一个能识别广告语的聪明“小程序”让我们学习学习吧。 象“青梅”、“青大侠”这样频率高的词肯定会入选
我都跟你说过了:两把铁锹相对挖
IT江湖青梅2004-04-28 08:26:46
你不信我,这生意怎么做? 主要是把数据清洗工作的大量劳动由软件完成而不是人工,比如说错误的字组完全可以由于频率不足而自然淘汰,还有就是合理预测,及时调整和编制(或利用)一些小程序来达到一些目的,比如说广告语的过滤,那么可能是在软件中有过滤功能,在生成短句时把人工识别出来(并标记入软件)的广告语过滤掉,不需要人一条条去编辑吧? 嘎嘎嘎嘎,其实目前笔画输入法重码已经很少了,如果与语言模型结合,准确率提高一点,其实非常有限,目前汉王的输入法首选识别率94%(在NEC的N600上情况)。 另外,准确率也取...
据说有个教授领帮学生做的语言模型
IT江湖青梅2004-04-27 21:25:39
卖给IBM,卖了$40万,语料大约十亿字。十亿好象没多少吧?不过他们用的比较笨的方法,先做清洗后整理的,用人力太多。
其实现在输入法应该也可以达到
IT江湖青梅2004-04-27 21:15:53
但有很多臭虫,比如说全拼里居然没有单独“高度”这个词。 另外,笔画输入法的重码本身就比拼音输入法要少,如果语言模型好的话,对质量的改善应该很大。