在前面一文中,正式引出了SSIS专业数据ETL工具,笔者仅能作引路作用,未能使用文章的方式给大家写出更多的入门级的文章,希望读者们可以自行根据分享的学习资源自行完成入门及进阶的学习。 同时也想给大家分享到SSIS的能力边界性,让大家可以先打开思路,见识到其能力的所在,日后在学习过程中,可以有更清晰的进步方向。
dotNET遇上SSIS
在笔者过往的文章里已经反复提到过,学习dotNET的性价比是比较高的,不止于可以做任何专业程序员做的领域,更是可以让我们这些业余的人员大有作为,例如可以开发OFFICE插件,可以使用PowerShell来做运维(会dotNET的很快上手,都是广义的dotNET体系),同时在微软的产品系里开放了各产品的对象模型,使我们可以轻松地和各大产品作交互如Windows的WMI模型,Sqlserver的SMO、AMO模型,当然还有我们熟悉的OFFICE对象模型等。
今天来到SSIS中,我们可以有另外一层能力,让dotNET和SSIS集成,在SSIS中,提供了VSTA的开放接口(Visual Studio Tools For Application),相对于VSTO(Visual Studio Tools For Office)来说,一个是对OFFICE产品,一个是对程序,这里的程序就是SSIS。
所以我们可以在SSIS环境下使用dotNET语言,这个极大地增强了我们的数据ETL能力,大凡dotNET能够做的部分,SSIS也可以加上这些能力,并且起点是SSIS给我们做好了模板,自动化写了许多设计代码,就如Winform开发拖拉控件一样的体验,我们在SSIS中,VSTA已经为我们做了非常棒的框架,可以让我们在数据流中轻松访问我们的数据对象。
实际演示
本篇只是导读类,并非要手把手教会大家,读者们仅需了解下SSIS的功能扩展边界,评估此工具能够给自己的数据方案做到何种程度,真正要学习时,建议仍然需要按步就班,从低到高地不断地进步。
在dotNET的自带的类库中,已经提供了非常强大的数据处理能力,特别是linq查询和我们很常用到的文件类操作,字符串处理特别是正则处理等,这里不展开,此篇给大家一个开放的思路,怎样从外界寻获更多的资源来武装自己的数据处理方案,给大家带来在SSIS环境下调用百度AI接口,让非结构化的数据转换为可分析的结构化数据供下游Excel、PowerBI等分析工具使用。
在Excel催化剂上同样实现了此功能,详见以下文章。 第15波-接入AI人工智能NLP自然语言处理
准备工作
获取百度AI的SDK,可以在百度AI后台有跳转链接到github,下载整个项目再编译。
因SSIS需要签名的dll类库,在Nuget上的百度AI类库,没有进行签名操作,故不能直接在Nuget上下载。
同样地SSIS对外部dll引用的要求是需要注册到GAC容器中。所以需要对下载编译好的dll使用gacutil工具注册到GAC中,具体自行查阅相关文档。
使用脚本组件实现百度AI的调用
在本篇的SSIS包任务中,加上了一个脚本组件,从源Excel文件中抽取数据,经过脚本组件的转换,将内容发送到百度AI上,让其帮忙返回结果,最终转换后的结果写入到目标表中。
脚本组件中,我们通过评论内容,经过百度AI的接口调用后,返回多列结构化定量的数据。
使用的百度AI接口如下:
经过简单几句代码的调用,即可完成了我们所需的功能,能够有这样的能力,是基于百度已经给我们做好了SDK,直接调用即可,同时SSIS也根据我们需要的功能帮我们自动生成了强类型的类库供简单调用。
SSIS中的VSTA框架已经帮我们做了大量的工作,根据我们界面的配置信息自动生成了代码Wrapper包装器。
最后我们回到数据库中可发现,已经从我们Excel的两列数据,经过转换后,生成了其他四列的数据。此时我们已经完成了从非结构化的文本评论数据,转变为可分析的情感倾向的分析。整个过程无需我们懂什么高深的人工智能、机器学习之类的算法,只需懂自己想要什么,让BAT们帮我们做成即中。
看到上图中有许多默认的0和结果为空的记录行,相信已经开始有读者想表达下意见,SSIS生成的数据不靠谱,调用20条,只有7条数据返回。
本次的测试恰恰让大家可以见识到企业级ETL的工具之威力,笔者完全不需懂多线程、并发性之类的高深知识,简单几句的业务转换代码,SSIS已经帮我们完成了并发性调用,并且调用的速度实在太快,连百度AI都不接受,直接返回错误告诉并发量超标了。
当然此仅演示示例,实际中因为外部接口的并发性限制等原因,需要限制速度等操作,需要根据实际情况再对代码进行优化,使其真正能够满足我们预期的需求。
结语
本篇带领读者们一窥SSIS的能力边界,让我们心中有数,具体使用SSIS有何不能做到的事情。
在我们中小企业的数据场景里,笔者这里可以很有把握地告之,实在没有什么是不能做到的,若有恐怕也仅仅是我们对其的认知水平和掌握水平的高低差异而已。
将程序员的广阔轮子世界接入SSIS中,并将各大厂商提供的SAAS消费级服务一并接入,恐怕只差我们的想像力而已,在SSIS的世界中,数据将如期地按我们想要的形式完成ETL的过程。
笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。*
系列文章
从数据民工到数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec 从数据民工到数据白领蜕变之旅(二)-重温Excel催化剂经典 https://www.jianshu.com/p/cb89929bb8ae 「数据ETL」从数据民工到数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery值得期待 https://www.jianshu.com/p/d154b09c881d 「数据ETL」从数据民工到数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?https://www.jianshu.com/p/7ca5a3785bd0