Guava 骚操作,10分钟搞定日志脱敏需求!

   日期:2024-12-26    作者:bhls 移动:http://ljhr2012.riyuangf.com/mobile/quote/38208.html

Guava之于Javaer,如同Excel之于办公达人。

都非常好用,但实际上大部分人只用到了其1%不到的功能。

敏感信息脱敏实际上是隶属于安全领域的一个子领域,而日志脱敏又是敏感信息脱敏的一个子领域。

好了,打住,不闲聊这些有的没的,直接开整:到底什么是日志脱敏

1.1 未脱敏之前

如下有一个关于个人信息的类

在日志脱敏之前,我们一般会这样直接打印日志

然后打印完之后,日志大概是这样

如下:需要把敏感字段中的一部分字符使用特殊符号替换掉(这里我们用来做特殊符号

所以,很自然的,我们就写了个脱敏组件,在每一个字段上用注解来标识每一个字段是什么类型的敏感字段,需要怎么脱敏。

比如,对于上面的个人信息,在打印日志的时候需要研发人员做两件事

使用脱敏组件提供的注解来标识敏感字段
使用脱敏组件先脱敏,再打印日志

如下,先使用脱敏组件提供的工具类脱敏个人信息,然后再打印日志

具体的使用和实现原理可以参考

https://github.sheincorp.cn/vipshop/vjtools/blob/master/vjkit/docs/data_masking.md

到了企业里面,你得满足客户(也就是研发人员)奇奇怪怪(也许只是一开始你觉得是奇奇怪怪,但是实际上很合理)的需求。 比如,我们就有研发人员提出需要按照Map中的Key来配置脱敏规则

啥意思呢?简单来说,如果我有一个Map类型的数据,如下

那么在配置文件中指定好对应的key的脱敏规则后就可以把Map中的敏感数据也脱敏。

大概配置文件如下

那先不管需求是否合理吧,反正客户就是上帝,满足再说。

然后,我们就开始实现了。

基本思路复制Map,然后遍历复制后的Map,找到Key有对应脱敏规则的value,按照脱敏规则脱敏,最后使用Json框架序列化脱敏后的Map。

2分钟

我们直接看问题。有使用我们这个组件的研发人员找过说:我c a o你们把我的业务对象Map中的值修改掉了

我们本来想直接回怼:你们是不是姿势不对,不会用啊。但是本着严(zhi)谨(qian)的(bei)原(da)则(nian)(guo),还是问了句,你在本地复现了吗

我们发现有嵌套类型的Map的时候就会有问题

测试程序如下

输出结果如下

虽然问题很大,但是我们还是要沉着应对问题,仔细分析问题。做到泰山崩于前而色不变,才是打工人的正确处事方式。不然只会越急越慌,越慌越不冷静,最后买1送3(修1个bug,新引入3个bug

简单debug,加上看源代码,其实这个问题还是比较容易发现的,主要问题就是在复制Map对象的姿势不对

如下,我们是使用这样的方式来复制Map的。本来是想做深度clone的,但是这种事做不到深度clone的。对于有内嵌的对象的时候只能做到浅clone。

所以,只有一层关系的简单Map是可以脱敏成功的,且不会改变原来的Map。但是对于有嵌套的Map对象时,就会修改嵌套Map对象中的值了。

从上面的分析中就可以得出其根本原因:没有正确地深度clone Map对象

那很自然地,我们的解决思路就是找到一种合适的深度 clone Map对象的方式就OK了。

然后我就问ChatGPT了,ChatGPT的回答有下面几个方法

  • 使用序列化和反序列化 通过将对象序列化为字节流,然后再将字节流反序列化为新的对象,可以实现深度克隆。需要注意被克隆的对象及其引用类型成员变量都需要实现Serializable接口。

  • 使用第三方库 除了上述两种方式,还可以使用一些第三方库,例如Apache Commons的SerializationUtils类、Google的Gson库等,它们提供了更简洁的方法来实现深度克隆。

  • 使用JSON序列化和反序列化 将对象转换为JSON字符串,然后再将JSON字符串转换为新的对象。需要使用JSON库,如Jackson、Gson等。

  • 使用Apache Commons的BeanUtils类 BeanUtils提供了一个cloneBean()方法,可以对JavaBean进行深度克隆。需要注意,被克隆的对象及其引用类型成员变量都需要实现Serializable接口。

  • 最佳实践是根据需求和具体情况灵活应用,或者采用第三方库实现对象克隆,如 Apache Commons BeanUtils、Spring BeanUtils 等。

上面几个方式基本上可以分为3类

  • 序列化和反序列化 JDK自带的序列化(需要实现Serializable接口;利用Gson,FastJson,Jackson等JSON序列化工具序列化后再反序列化;其他序列化框架序(如Hessain等)列化反序列化

  • 利用第三方库 第三方库直接clone对象。但都有一定的限定条件

  • 视情况而定 基本上没有一种通用的方法,可以适配是有的深度clone场景。所以ChatGPT提出了这一种不是办法的办法

然后就是卡卡一顿猛敲,如下:常规递归操作

好的,我懂的。咱看到这,图的就是一个乐,你让我思考,这不是强人所难吗

思考,思考是不可能存在的。

那咱们就直接看问题:就是啥都好,问题就是性能比较差

如果你是一个老司机,你可能看到上面的代码就已经感觉到了,性能是相对比较低的。

基本上,Map层级越深,字段越多,内嵌的集合对象元素越多,性能越差!!!

至于差到什么程度,其实是可以通过 微基准测试框架JMH来实际测试一下就知道了。这里我就不测试了。

那我们还有什么办法来解决这个性能问题吗

如果我们还是集中于深度clone对象上做文章,去找寻性能更高的深度clone框架或者是类库的话,那么其实这个问题就已经走偏了。

我们再来回顾一下我们之前的问题:

我们需要对Map对象按照key来脱敏,所以我们选择了深度clone Map,然后对Map遍历按照key脱敏后序列化。

那其实我们最终要解决的问题是:Map对象序列化后的字符串得是按照key的脱敏规则脱敏后的字符串。

所以,其实我们除了深度clone这一条路外,还有另外两条路

  1. 自定义Map类型的序列化器:在序列化Map的时候,如果有脱敏规则则应用脱敏规则来序列化Map

  2. 转换Map为脱敏后的Map:自定义Map对象,将脱敏规则作为转换函数来把普通的Map转换为脱敏的Map

对于第一种方式,要看你使用的Json框架是否支持(一般Map类型用的都是内置的Map序列化器,不一定可以自定义)。 那第二种方式,到底应该如何玩呢. 如下

如上,Map不再是clone的玩法,而是转换的玩法,所以,这种操作是非常轻量级的。

但是这种玩法也有缺点:比较麻烦,需要override好多方法(不然就需要熟读Map序列化器来找到最小化需要override的方法,并且不太靠谱,并且全部都要是转换的玩法。

Returns a view of a map whose values are derived from the original map's entries. In contrast to transformValues, this method's entry-transformation logic may depend on the key as well as the value. All other properties of the transformed map, such as iteration order, are left intact.

返回一个Map的试图,其中它的值是从原来map中entry派生出来的。相较于transformValues方法,这个基于entry的转换逻辑是既依赖于key又依赖于value。变换后的映射的所有其他属性(例如迭代顺序)均保持不变

这不正是我们上面需要实现的 MaskMap吗

那脱敏的地方只要转换一下Map就可以了,如下

我们调用了transformEntries方法,是可以根据key(可以找到脱敏规则)和value(可以判断类型)来转换的。但是Map中的有些API实际上可能只有value(比如)或者只有key(比如get()方法)的,那这种是如何生效的

你是不是有那么一点好奇呢

我们就不去想了,直接看代码

  • 对于方,只有key参数

但是比较容易通过key拿到对应的value,然后把key和value传给转换函数就可以了

这里的实现其实有一个细节,不知道大家注意没有。

就是这一个判断,我们上面实现的时候直接没有考虑到值为null的情况(但value为null,但是有对应的key的时候还是应该要调用转换函数的

  • 对于方,只返回值

也是一样,返回一个转换后的 Collection,其中Collection中的值也是经过 transformer转换的。

而对于迭代器也是一样的,都有对应的实现类把转换逻辑放进去了。

6.1. Guava的Veiw思想

其实上面的这种 Veiw的基本思想,在Guava中有非常多的场景应用的,如

  • com.google.common.base.Splitter#split

  • com.google.common.collect.Lists#partition

  • com.google.common.collect.Sets#difference

  • ...other

这种 Veiw 的基本思想,其实就是懒加载的思想:在调用的时候不实际做转换,而是在实际使用的时候会做转换

比如:在调用的时候实际上并不是立刻马上去分隔字符串,而是返回一个Iterable的View对象。只是在实际迭代这个Iterable的View对象时才会实际去切分字符串。

在比如在调用的时候并不会立刻马上去做两个集合的差操作,而是返回一个 SetView的View对象,只有在实际使用这个View对象的API的时候才会真正做差操作。

注意点:这种思想大部分场景下,会是性能友好型的,但是也有例外。我们要分清楚场景。

比如,分割字符串的方法,如果调用完之后不做任何操作,或者只会遍历一次(大部分场景都是只遍历一次,那么这其实就是最好的方法。但是如果调用完之后,还需要遍历很多次,那么这种场景下,性能可能不是最好的。

所以,对于我们来讲,如果Guava工具包中没有我们需要的View的方法,那么我们可以自己按照这个思想来造一个。如果已经有了,要区分场景使用.

6.2. 简单聊一下Guava API的兼容性

升级过Guava版本的同学可能深有体会,升级Guava是一件比较头疼的事情。因为Gauva API的兼容性是做得很差的。(当然这里主要还是因为大部分同学没有认真阅读官方的文档导致的

所以对于做组件的同学,对于Guava的使用一定要慎重:能不用就不用,必须要用的话一定不能使用以@Beta注解标注的方法或者类。

Gauva确实是一个保藏库,当你要造轮子的时候不妨先看看Gauva中有没有现成的轮子。每看一次,也许就多一次惊喜。

这一次是Map对象脱敏场景遇上了Guava的 ,那么你又有什么场景偶遇了Guava呢,可以在评论区聊一下。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号