spark任务中的时钟的处理方法
典型的spark的架构:
日志的时间戳来自不同的rs,spark在处理这些日志的时候需要找到某个访问者的起始时间戳。 访问者的第一个访问可能来自任何一个rs, 这意味这spark在处理日志的时候,可能收到时钟比当前时钟(自身时钟)大或者小的情况。这时候在计算会话持续时间和会话速度的时候就会异常。
从spark的视角看,spark节点在处理日志的时刻,一定可以确定日志的产生时刻一定是spark当前时钟前, 因此在这种异常情况下,选择信任spark节点的时钟。如此一来,一定不会因为rs的时钟比spark节点时钟快的情况下出现计算结果为负值的情况。
基本的思想:“当无法确定精确时刻的时候,选择信任一个逻辑上精确的时刻”