R中的日志文件分析?
|
我知道周围还有其他工具,例如awstats或splunk,但我想知道R中是否进行了一些认真的(网络)服务器日志文件分析。我可能不是第一个想到在R中进行此操作的人,但R仍然具有很好的可视化效果功能以及不错的空间包装。你知道吗还是有一种R软件包/代码可以处理可以构建的最常见的日志文件格式?还是仅仅是一个非常糟糕的主意?
没有找到相关结果
已邀请:
5 个回复
伞腹
对于网络诊断,错误日志通常比访问日志有用得多。 由于许多字段中数据的非结构化性质,它们也恰好更难以处理,更重要的是,因为数据文件 解析是一个不规则的时间序列后,您会留下来-您可能有多个条目被键入单个时间戳,然后下一个条目是三秒钟后,依此类推。 我想要一个可以抛入原始错误日志(任何大小,但一次通常数百MB)的应用程序,从另一端输出有用的东西-在这种情况下,必须进行一些预先打包的分析, R中还有一个用于命令行分析的数据立方体。鉴于此,我用python编写了原始日志解析器,而处理器(例如,将解析器的输出网格化以创建规则的时间序列)以及所有分析和数据可视化都用R进行了编码。 我已经建立了很长时间的分析工具,但仅在过去 我使用R已经有四年了。所以,我的第一印象-解析原始日志文件并将数据帧加载到R中后,R便很高兴能够使用R,并且它非常适合此类任务。一些令人惊讶的惊喜: 序列化。将工作数据持久保存在R中是一个命令 (保存)。我知道这个,但是我不知道这个二进制文件有多有效 格式。您的实际数据:每解析50 MB的原始日志文件, RData表示约为500 KB--100:1压缩。 (注意:我 通过使用data.table将其进一步降低到大约300:1 库并将压缩级别参数手动设置为保存 功能); IO。我的数据仓库严重依赖轻量级数据结构 服务器完全驻留在RAM中并写入磁盘 异步地称为redis。该项目本身只有两个 已有30年的历史了,但CRAN中已经有R的redis客户(由B.W. 刘易斯,本文发布的版本1.6.1); 原始数据分析。该项目的目的是建立一个 供网络运营人员使用的库。我的目标是\“一个命令= 一个数据视图类型界面。例如,我使用了出色的 googleVis套件,打造专业外观 具有可排序列的可滚动/分页HTML表,其中 加载了聚合数据的数据帧(> 5,000行)。只是那几个 交互式元素-例如,对列进行排序-很有用 描述性分析。另一个例子,我写了很多薄 包装一些基本的数据处理和类似表的功能;每 例如,将这些功能绑定到可点击的按钮 在选项卡式网页上。同样,这是我在R中的荣幸,部分原因 因为很多时候该函数不需要包装器,单个 带有提供的参数的命令足以生成有用的 数据视图。 最后一个项目符号的几个示例:
显示用于使用googleVis进行交互式分析的主数据多维数据集: 使用googleVis显示的列联表(来自xtab函数调用)
马口
门锑腺潮
系漏
珊畴炮贩号
演示输出:
使用read.csv可以很容易地将此格式读入R。而且,它不需要任何第三方库。