文本文件的批量性操作,Excel催化剂已经有非常多的功能,常听说许多人对Excel催化剂的印象是功能太杂,但试问,不是活在真空世界中做数据分析,面对一大堆杂乱的数据环境,没有足够“杂”的功能来应付,真的可以称得上数据神器么? 本篇的两个小功能,处理下一般数据采集获取到的非理想文本数据:带unicode字符串的文本和带html特殊符号的文本。这些功能也是从实际需求中来。为了让数据处理更加得心应手,功能仍然不断新增。
网页采集数据常有的不完善
一、html编码问题
这里说的网页采集,当然可以最原始的从网页上复制粘贴回来的数据,更自动化的,就是使用网页采集工具批量性获取到的数据。
网页html文本,有转义字符如:<(小于号<) 、 >(大于号>) 、 (空格)等,这些因为html上有特定的含义,需要转义成其他输入字符。
更多的可见下文截图:
最终我们还原后,应该得到下面的文本才是想要的。
二、Unicode格式文本
我们采集到的数据中,可能会是以下展示的样式,非英文、数字的比如中文,用了Unicode字符表示(u开头的)。
我们需要这样的格式,才是人阅读和使用的文本。
解决办法
既然这么大的共性情况,肯定是将它落实到功能上固化,有再次出现时可以立马解决,这就是Excel催化剂越来越“杂”的由来。
处理一个文件,你说在线转换下就可以,处理100个、1000个呢,还会这样去做吗?在Excel催化剂里,必然是批量性操作最佳使用场合。
自定义函数处理Excel单元格内容
如果数据已经落到Excel的单元格里,在做网页采集功能时,其实已经将此成套的网页采集相关会用到的功能都做成了自定义函数。
如下的将html的转义字符解码
同样地,Unicode字符串还原为原字符,也有自定义函数。
除此以外,还有大量的转换Utf8、从json提取、从xml提取指定元素、Url转码和还原等一大堆自定义函数。
上述自定义函数使用场景,数据源在Excel单元格或提取结果存储在Excel单元格,另如果是对整个文件的转换,就是本篇开发的两个小功能。
使用非常简单,选择一个或多个待转换的文本文件路径单元格,当只选择待转换时,转换后的结果覆盖原文件,选择两列时,右侧列为转换结果生成新文本,建议采用新生成文件方式。
任何覆盖原始文件的操作均有数据风险,无法恢复数据初始状态,不是一个好的科学的数据管理方式。
结语
小功能有大智慧,你能感受到了吗?盼望Excel催化剂的使用者,会因为其功能的不断新增而惊喜,因为又有新的繁琐操作被简单固化了。
看到小小的Excel催化剂包含这么多的功能,来应对各种数据采集、处理、分析各环节的痛点,希望催化剂的使用者们,都有慧眼,不用再相信培训机构所吹嘘的培训一小时,从此不加班的收割式的忽悠大法。
应对功能越来越多,请始终坚守最佳的Excel催化剂使用方法:搜索 笔记,用到时即搜即得,日常追更下文章。写文章者1小时,读文章者2分钟即可。
搜索 笔记传送门:第113波-将帮助文档的主动权归还用户手中