复旦博士生写了130行代码,用OCR和正则表达式快速搞定核酸报告统计!

2022-04-18 17:48:14 浏览数 (1)

800多人的核酸完成截图就审核完毕了。

这就是一位复旦大学生物医学工程专业博士生,在最近共同抗疫期间开发的一项小程序发挥的作用。

而且仅仅是花费1小时130行代码的那种。

复旦大学官方对这个“抗疫利器”的评价是:

大大提高了核酸核查的效率和精度。

这位博士生的工作,也引来网友们的“膜拜”:

人民日报也对他的工作做出了评价,认为这波“操作火了”

2分钟搞定1小时工作

整件事的起因,是最近抗疫期间,复旦大学启动了常态化核酸筛查工作。

“痛点”也随之而来。

也就是要核查每位学生“健康云”核酸完成截图,需要花费大量的时间和人力。

但总的来说,这其实是一项重复性较高、单调且枯燥的工作:

一个班级的截图可能就需要花上半小时核查,如果是人数多的院系可能需要更久,还可能会看错看漏。

而复旦的这位博士生,身为学院2019级信息1班辅导员,在此期间负责的正是这项工作。

于是,他便心生一计——“搞个OCR识别代码

图源:复旦大学

最初与学工同事分享这个想法的时候,同事还担心会不会太难了。

而他却回复说:

有现成的库,import一下就好了。

然后,1个小时过去了……

“我写好了”。

同事见状甚至感慨说“这就是博士吗”

于是乎,他的代码程序就开始在自己的班级中“上岗”了。

图源:复旦大学

在进行验证之后,这段程序的准确率还是很高的,甚至还发现了此前人工核查时没有发现的问题。

最重要的是,这项工作的速度有了大幅的提高。

例如原先要核查800张截图,几个工作人员要花费1个多小时,而现在,2分钟即可拿到结果!

至于原理,这位博士生谦虚地说“并不复杂”。

他所用到的技术主要是OCR (光学字符识别),代码语言则是Python

图源:复旦大学

根据复旦官方的介绍,这位博士生更具体的是用到了Python中的正则表达式

正则表达式可以把想要的信息从OCR识别的文本中筛选出来。

最后还会汇总到一张Excel文件中,方便工作人员确认。

而且为了他为了方便不会编程的同事使用,还把程序进行了封装,只需要输入一行命令就可以使用了。

来自复旦大学的博士生

开发这项“抗疫利器”的博士生,是来自复旦大学的李小康

有意思的是,他并非是计算机专业的学生,而是生物医学工程专业

其研究方向是医学影像与人工智能。

图源:复旦大学

对于这项工作,他认为:

虽然原理也很简单,只要是会写代码的人第一时间就会明白是怎么回事,但是不做相关工作的感受不到这件事情的费时费力,自然也不会想出办法。 我只是用我学到的知识解决实际工作中的困难。

图源:复旦大学,李小康本人留言

据复旦大学官方介绍,在不久之后,师生可以不再手动收集核酸截图,而是通过小程序直接上传图片了。

0 人点赞