一个企业的档案文件的类型是多种多样的,包括文本,图像,电子档,扫描件,音视频等等,怎么样才能让它们发挥更大的价值呢?
档案价值是什么
说到价值,我们最直接能类比的就是钱,钱的价值就是能用来交换自己所需要的产品或者服务,而要让钱发挥更大的作用,政府就要想办法让钱更快地流动起来,让钱能配置到更高效的地方,或者让钱能到更需要的人的手里。
那档案的价值是什么?百度百科上有一个档案价值的词条,摘录一段:
档案价值是指主体与客体的关系,因而决定了档案这一客观物是档案价值的物质承载者,它只有进入社会和人的活动领域,为人所共识,并同人的实际需要相联系,相统一时,才使档案及其属性进入价值化过程,与人的需要构成价值关系。故档案的价值不是单方面决定的,而是相互作用的产物,即取决于档案的客体属性和主体的需要这两方面的统一,二者缺一不可。据此,所谓档案的价值实为档案的使用价值,就是档案这一客观存在物对人们所具有的实用性或有益性及有用程度。
(以上这段摘自百度百科)
简单说就是,档案及其属性要和人的需求相匹配,才能产生价值。其实,任何一种实体的价值化,应该都是这样的。
怎么才能让档案发挥更大的价值
理解了什么是档案价值,那么怎么样才能发挥更大价值就好理解了。简单说就是:
更高效地把档案及其属性和更多有需要的人链接起来。
相当于就是效率乘以数量,就像店铺的收益等于客单价乘以客户数类似。
提升链接效率
可以从以下几点考虑:
1. 数据资产:就像经营店铺一样,首先得清楚自己有什么,得先有一个商品目录,才知道自己的商品应该卖给谁。对于商品来说,一个店铺通常不太多,但是对于档案来说,分分钟就是几千万几亿,需要的就是资产目录,有了这个才更容易提升效率。
2. 快速检索:怎么能快速地从几亿份文档里快速检索到自己需要的文档,就像大海捞针一样,要是没点技术,那将价值就大打折扣。就像那些查案的影视剧一样,要找历史相似案例的时候,就一堆人没日没夜翻卷宗,或者没日没夜的盯着历史监控视频看。
而要实现快速检索,有两个技术就非常关键:
2.1 多模态文档数据的半结构化与结构化:半结构化主要就是将各种文档转成文本数据,主要涉及ocr及语音识别等技术,而结构化技术主要就是信息抽取,人脸识别,行为识别,目标检测等技术。
2.2 高效的全文检索技术:对于结构化信息,检索手段非常丰富,不用多说。而对于半结构化数据,虽说也有比较成熟的方案,但是挑战还是有一些的。
3. 快速地建立连接:通常资产目录或者检索系统找到目标档案之后,怎么样和需求方建立连接,就很关键。这也有两个方向:
3.1 信息抽取:目标档案可能非常多,但是需求方可能就只是需要这种文档中的某个信息,能否快速地把这些需要的信息提取出来就很关键。这有两个要点,一是能灵活方便地提取各类的信息,很可能是没法形成固定范式的,第二就是要快,提取个信息,你说要一两个月,那黄花菜都凉了。而这个快的关键就是识别功能前置,就是说在抽取前,系统已经把可以识别的东西都已经识别好了,那这个关键信息抽取,可能就是秒级能完成的,有统一的中台基座很重要。
3.2 分享:有些需求方需要的可能就是文档式的文件,并不需要抽取,那这个问题就转变成怎么能快速地分享给档案的需求方。而阻碍这个分享过程的关键因素就是数据安全。
是否可以只分享文档中需要分享的内容?
分享出去的文档会不会被第三方截获?
分享出去的文档有没有隐私信息?如果有,会不会被泄露?
如果文档被泄露到了网络上,是否可以追踪到是谁泄露出去的?
如果这几个问题能够被很好的解决,那么档案的流动就可以加快,也就能产生更多的价值。
提升链接数量
前面提到的技术其实也是有助于提升数量的,只是我觉得侧重点是效率,所以放到了前面。如果本身链接已经很高效了,那剩下的关键就是要让更多有需求的人知道档案的价值点。
能想到的除了主动地加强潜在用户群的培训与交流,技术上能不能为此做些什么呢?
在其他领域,例如电商等,实现途径往往就是推荐引擎,这跟检索对应,一个是主动的,一个是被动的。
关于档案数据推荐引擎,能想到的就是一个档案的关联档案推荐,这应该是有价值的,因为一个事件脉络往往涉及到多个档案,也是一个不那么容易解决的问题。感觉通过文档的相似性性推荐是可以达到这个目的的,但是普通的计算距离的方式,需要构造一种合理的距离公式,或者可以考虑标注数据训练一个判别模型,计算两个文档是否相关。这应该是很有难度的课题,而且效果不好评估,模型也比较难达到通用。
-------------------------------
ps:居然躺着用手机打出了这么多字……又是秃头的夜晚