python统计分析nginx访问日志的代码

发布时间:2021-01-17编辑:脚本学堂
有关python统计与分析nginx访问日志的方法,统计Nginx的客户端缓存的命中率,检查Nginx的访问日志,统计基于每个独立IP地址的点击率,需要的朋友参考下。

一、统计nginx的客户端缓存的命中率
需要检查Nginx服务器拒绝客户请求的频率,服务器拒绝的原因是因为客户缓存中的页面已更新过了。

解决方案:
当浏览器请求一个在它的缓存中的服务器页面时,浏览器首先会让服务器了解缓存数据,如果客户缓存是更新过的,服务器会返回一个特殊的错误码(而不是再次提供该页面)。

在服务器的日志中统计代码:
 

#!/usr/bin/env python
import sys
logfile = sys.argv[1]
def ClientCache(logfile_path):
        contents = open(logfile, "r")
        totalrequests = 0
        cacherequests = 0
        for line in contents:
                totalrequests += 1
                if line.split(" ")[8] == "304":
                        cacherequests += 1
    print "Percentage of requests that were client-cached: ", str(cacherequests) + "%"
 

运行结果:
 

[root@chlinux logs]# ./nginx_log.py access.log
Percentage of requests that were client-cached:  17%

讨论:
服务器的服务请求在客户端的缓存中的比例是衡量服务器效能的一个重要的因素。此脚本的代码能帮你从服务器日志中获取这种信息。
此脚本的代码利用循环,每次读取日志文件中的一行,这也是读取文件的常用方式。for循环的主体部分调用split 方法来切割行字符串,它使用一个单空格字符串作为参数,将整行切成了由空格隔开的字段,并组成一个元组,然后它使用索引([8])来获取第9个字段。

二、检查Nginx的访问日志,统计基于每个独立IP地址的点击率
检查Nginx的日志文件,统计基于每个独立IP地址的点击率:
 

#!/usr/bin/env python
#coding:utf8

import re
import sys
contents = sys.argv[1]
def NginxIpHite(logfile_path):
        #IP:4个字符串,每个1到3个数字,由点连接
        ipadd = r'.'.join([r'd{1,3}']*4)
        re_ip = re.compile(ipadd)
        iphitlisting = {}
        for line in open(contents):
                match = re_ip.match(line)
                if match:
                        ip = match.group( )
                        #如果IP存在增加1,否则设置点击率为1
                        iphitlisting[ip] = iphitlisting.get(ip, 0) + 1
        print iphitlisting
NginxIpHite(contents)

运行结果:
 

[root@chlinux 06]# ./nginx_ip.py access_20130617.log
{'183.3.121.84': 1, '182.118.20.184': 2, '182.118.20.185': 1, '190.52.120.38': 1, '182.118.20.187': 1, '202.108.251.214': 2, '61.135.190.101': 2, '103.22.181.247': 1, '101.226.33.190': 3, '183.129.168.131': 1, '66.249.73.29': 26, '182.118.20.202': 1, '157.56.93.38': 2, '219.139.102.237': 4, '220.181.108.178': 1, '220.181.108.179': 1, '182.118.25.233': 4, '182.118.25.232': 1, '182.118.25.231': 2, '182.118.20.186': 1, '174.129.228.67': 20}
 

此脚本返回的是一个字典,其中包含了访问Nginx 服务器的各个IP的点击数,这是通过分析Nginx日志文件的来的。
在此脚本中使用正则表达式来获得并同时验证IP,避免了字符串切分操作和长度检查,但却要负担匹配正则表达式运行的开销。