【读书笔记】大型分布式网站架构设计与实践(六)

第五章 数据分析

==日志收集==

@inotify机制
Linux内核从2.6.13开始,引入了inotify机制,通过inotify机制,能够对文件系统的变化进行监控,如对文件进行删除

,修改等操作,可以及时通知应用程序进行相关事件的处理。这种响应性的处理机制,避免了频繁的文件轮询任务,提高

了任务的处理效率。

#uname -a
查看Linux内核

#grep INOTIFY_USER /boot/config-$(uname -a)
查看系统是否支持inotify

@架构和存储
inotify解决了日志收集的效率问题,ActiveMQ解决了日志数据分发的问题,接下来要解决的问题是日志收集系统架构与

存储方案的选择问题

一个常见的日志收集系统的架构:
数据需要经过inotify客户端,经由ActiveMQ进行转发,通过storm进行实时处理,再存储到MySQL,HDFS, Hbase或者

Memcache这些存储系统当中,最后再进行深度分析或者实时的展现。

另一个解决方案就是使用Chukwa(Apache的Hadoop项目),如下chukwa架构图:
chukwa

@离线数据分析
到2020年这一数值将增长到35ZB(35万亿GB)

根据数据分析的实时与否,可以将数据分析任务分为实时分析任务和离线分析任务
根据分析的数据类型不同,又可分为流式数据处理和批量数据处理等类型

郑重声明:

1 本资源来源于互联网,资源的版权归资源原作者所持有,受《中华人民共和国著作权法》等相关法律保护。

2 由于无法和原作者取得联系,所以上传的部分资源无法先通过原作者的同意就分享给大家了,如本资源侵犯了您(原作者)的权益,请联系我们(微信号 xiaohaimei1989),我们会立马删除您的资源,并向您表达诚挚的歉意!

3 本站是一个公益型网站,分享资源的目的在于传播知识,分享知识,收取一点点打赏的辛苦费是用于网站的日常运营开支,并非用于商业用途。

4 本站资源只提供学习和参考研究使用,使用过后请在第一时间内删除。本站不承担资源被单位或个人商用带来的法律责任。

发表评论