Decorative image frame

一个简单的ETL程序

这两天闲着没事准备玩一下社工库,网上有很多以前的社工库(这些都可以下载到,但是实际上已经没有什么太大的价值了,因为暴露时间太久,以及相关的网站都已经做了处理,所以别指望能够找到什么有价值的东西),通过社工库可以了解到的一个实际的数据就是,用户的设置的密码大都是什么样子的。我准备看一下搜云社工库,这个库大概4亿多条数据,主要目的是实践一下大量数据的处理。

Read More...

Burrows-Wheeler变换(Burrows–Wheeler Transform)

最近听一个医学专业的同学提到了在进行基因分析中用到BWT算法,觉得挺有意思的,正巧赶上这次疫情在家,于是想研究一下这个算法。这个算法的核心思想在于,调整原来的字符串中字符的顺序(而不改变其长度及内容)从而更多的将重复的字符排列到一起,这样有助于其他的压缩算法获得更高的压缩比。这个算法在基因分析中大有用处也就顺理成章了,想想DNA的双链表示大概都是G-T-A-C会有很多这样的字符,那么运用BWT应该可以有比较好的效果。 Read More...