Decorative image frame

RIGUZ Lee

Riguz Lee | Not only a programmer

RIGUZ Lee

一个简单的ETL程序

这两天闲着没事准备玩一下社工库,网上有很多以前的社工库(这些都可以下载到,但是实际上已经没有什么太大的价值了,因为暴露时间太久,以及相关的网站都已经做了处理,所以别指望能够找到什么有价值的东西),通过社工库可以了解到的一个实际的数据就是,用户的设置的密码大都是什么样子的。我准备看一下搜云社工库,这个库大概4亿多条数据,主要目的是实践一下大量数据的处理。

Read More...

阅读笔记:ConcurrentHashMap

我们知道HashMap不是Thread-safe的,而HashTable内部采取了同步操作,是线程安全的。然而有趣的是你去看HashTable的文档,它会建议你:如果不要Thread-Safe你就用HashMap吧,否则你用ConcurrentHashMap好了。

一般如果对线程安全有要求,我们有如下的一些选择:

  • ConcurrentHashMap
  • Hashtable
  • Collections.synchronizedMap
Read More...

Burrows-Wheeler变换(Burrows–Wheeler Transform)

最近听一个医学专业的同学提到了在进行基因分析中用到BWT算法,觉得挺有意思的,正巧赶上这次疫情在家,于是想研究一下这个算法。这个算法的核心思想在于,调整原来的字符串中字符的顺序(而不改变其长度及内容)从而更多的将重复的字符排列到一起,这样有助于其他的压缩算法获得更高的压缩比。这个算法在基因分析中大有用处也就顺理成章了,想想DNA的双链表示大概都是G-T-A-C会有很多这样的字符,那么运用BWT应该可以有比较好的效果。 Read More...