这篇review针对当前基于IRM(independent reference model)存在的问题,提出了一个基于内容局部性的模型SNM(shot noise model)。
IRM
提出原因
1、 准确、有效、详细的实际存储系统的trace不利于学术分析。
2、 通常,可用的数据比较粗糙而且质量低。
内容
基于一个完整的trace,给出一个统计分布,并且把这种分布作为一种“无记忆性”的,即与时间无关。
这个模型的好处除了简单和易于处理,还有就是保守性。
Zipf’s Law
这个是基于IRM提出的一个在统计学中经常使用的规律,类似于“二八定律”。
P(r) ~r^-α,用在热度统计中就是按照热度从大到小对内容排序,排在第n位的内容被访问的概率
正比于1/n^α。
IRM的局限性
- 由于IRM是对整个trace的一个估计,所以对于那些只集中分布在某一小段的时间的内容,这个估计的分布不能很好地体现分布。
- IRM是基于热度变化不大所进行的统计估计,一旦热度变化较大,其可靠性很低。
SNM
针对IRM存在的问题,文章提出了一种基于temporal locality的SNM。
不同于IRM只记录某个内容出现的次数,SNM还记录其出现的时间以及“生命周期”(分布时间段)。
基于泊松分布对每个内容给出了popularity rate预测,P(m)=Vmλm(t-τm)。 τm为内容m刚开始出现的时间点,Vm为内容m总的请求次数,λm(t)为请求速率随时间变化的分布,在实验中假定位泊松分布。
总结
这对当前热点频出的现象,简单的IRM显然是不能准确地估计内容热度分布,SNM也是在2013年提出来的加强了对内容temporal locality的利用的一种统计估计。我觉得可以对不同类型的内容(比如微博热搜、视频网站热搜等)对统计分布进行区别,而不仅仅是泊松分布。