欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

网站流量数据采集环境部署及实现

程序员文章站 2023-11-17 23:59:28
一、原理分析与设计实现 友情链接:https://www.cnblogs.com/likemebee/p/7967534.html 二、系统环境部署 !!!执行复制下列命令是注意查看是否为英文类型的 “-” ,当命令错误时首先排查该处 服务器 A 中部署开始 需要的安装包 服务器中安装依赖 上传 L ......

一、原理分析与设计实现

  

    友情链接:

 

网站流量数据采集环境部署及实现

 

 

二、系统环境部署

 

    !!!执行复制下列命令是注意查看是否为英文类型的 “-” ,当命令错误时首先排查该处

 

-------------------------------服务器  A  中部署开始-----------------------------------

  需要的安装包

uaJIT-2.0.4.tar.gz
set-misc-nginx-module-0.29.tar.gz
lua-nginx-module-0.10.0.tar.gz
ngx_devel_kit-0.2.19.tar.gz
echo-nginx-module-0.58.tar.gz
openresty-1.9.7.3.tar.gz
nginx-1.8.1.tar.gz

 

  • 服务器中安装依赖
yum -y install gcc perl pcre-devel openssl openssl-devel

 

  • 上传 LuaJIT-2.0.4.tar.gz 并安装 LuaJIT
tar -zxvf LuaJIT-2.0.4.tar.gz -C /usr/local/src/
cd /usr/local/src/LuaJIT-2.0.4/
make && make install PREFIX=/usr/local/luajit

 

  • 设置 LuaJIT 环境变量
vi /etc/profile
export LUAJIT_LIB=/usr/local/luajit/lib
export LUAJIT_INC=/usr/local/luajit/include/luajit-2.0
source /etc/profile

 

  • 创建 modules 文件夹,保存 nginx 依赖的模块
mkdir -p /usr/local/nginx/modules

 

  • 上传 nginx 依赖的模块
set-misc-nginx-module-0.29.tar.gz
lua-nginx-module-0.10.0.tar.gz
ngx_devel_kit-0.2.19.tar.gz
echo-nginx-module-0.58.tar.gz

 

  • 将依赖的模块直接解压到 modules 目录
tar -zxvf lua-nginx-module-0.10.0.tar.gz -C /usr/local/nginx/modules/
tar -zxvf set-misc-nginx-module-0.29.tar.gz -C /usr/local/nginx/modules/
tar -zxvf ngx_devel_kit-0.2.19.tar.gz -C /usr/local/nginx/modules/
tar -zxvf echo-nginx-module-0.58.tar.gz -C /usr/local/nginx/modules/

 

  • 安装 openresty
tar -zxvf openresty-1.9.7.3.tar.gz -C /usr/local/src/
cd /usr/local/src/openresty-1.9.7.3/
./configure --prefix=/usr/local/openresty --with-luajit && make && make install

 

  • 安装 nginx
tar -zxvf nginx-1.8.1.tar.gz -C /usr/local/src/

 

  • 编译 nginx 并支持其他模块
cd /usr/local/src/nginx-1.8.1/
./configure --prefix=/usr/local/nginx \
--with-ld-opt="-Wl,-rpath,/usr/local/luajit/lib" \
--add-module=/usr/local/nginx/modules/ngx_devel_kit-0.2.19 \
--add-module=/usr/local/nginx/modules/lua-nginx-module-0.10.0 \
--add-module=/usr/local/nginx/modules/set-misc-nginx-module-0.29 \
--add-module=/usr/local/nginx/modules/echo-nginx-module-0.58
make -j2
make install

 

备注:如果对 linux 相关操作不熟,请严格按照上述步骤搭建环境,切记心细,心细,再心细。

 

-------------------------------服务器  A  中部署结束-----------------------------------

 

三、自定义采集数据实现

 

-------------------------------服务器  B  中执行开始-----------------------------------

  • 安装httpd
yum install httpd
  • 启动httpd
service httpd start
  • 进入/var/www/html/内上传 index.html页面文件
cd /var/www/html/

 

  • 创建页面 index.html

  页面 index.html代码如下:

<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>welcome</title>    
    
        <script type="text/javascript">
        var _maq = _maq || [];
        _maq.push(['_setAccount', 'jiFeng']);
     
        (function() {
            var ma = document.createElement('script'); 
            ma.type = 'text/javascript';
            ma.async = true;
            ma.src = 'http://192.168.175.153/ma.js';
            var s = document.getElementsByTagName('script')[0]; 
            s.parentNode.insertBefore(ma, s);
        })();
        </script>
                        
    </head>
    <body>
        <h1 align="center">云计算大数据</h1>    
    </body>
</html>

-------------------------------服务器  B  中执行结束-----------------------------------

-------------------------------服务器   A  中执行开始-----------------------------------

  •  在安装目录 nginx/html 下添加一个数据采集脚本 ma.js。
cd /usr/local/nginx/html/

 

      脚本 ma.js代码如下:

(function () {
    var params = {};
    //Document对象数据
    if(document) {
        params.domain = document.domain || ''; 
        params.url = document.URL || ''; 
        params.title = document.title || ''; 
        params.referrer = document.referrer || ''; 
    }   
    //Window对象数据
    if(window && window.screen) {
        params.sh = window.screen.height || 0;
        params.sw = window.screen.width || 0;
        params.cd = window.screen.colorDepth || 0;
    }   
    //navigator对象数据
    if(navigator) {
        params.lang = navigator.language || ''; 
    }   
    //解析_maq配置
    if(_maq) {
        for(var i in _maq) {
            switch(_maq[i][0]) {
                case '_setAccount':
                    params.account = _maq[i][1];
                    break;
                default:
                    break;
            }   
        }   
    }   
    //拼接参数串
    var args = ''; 
    for(var i in params) {
        if(args != '') {
            args += '&';
        }   
        args += i + '=' + encodeURIComponent(params[i]);
    }   
 
    //通过Image对象请求后端脚本
    var img = new Image(1, 1); 
    img.src = 'http://192.168.175.153/log.gif?' + args;
})();

 

  •  修改 nginx 的配置文件,添加自定义相关业务逻辑。
cd /usr/local/nginx/conf
vi nginx.conf 
worker_processes  2;

events {
    worker_connections  1024;
}


http {
    include       mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';
                      
    log_format user_log_format "$msec||$remote_addr||$status||$body_bytes_sent||$u_domain||$u_url||$u_title||$u_referrer||$u_sh||$u_sw||$u_cd||$u_lang||$http_user_agent||$u_account";
    
    sendfile        on;  #允许sendfile方式传输文件,默认为off

    keepalive_timeout  65; #连接超时时间,默认为75s

    server {
        listen       80;
        server_name  localhost;
        location /log.gif {
            #伪装成gif文件
            default_type image/gif;    
            #nginx本身记录的access_log,日志格式为main
            access_log  logs/access.log  main;
        
            access_by_lua "
                -- 用户跟踪cookie名为__utrace
                local uid = ngx.var.cookie___utrace        
                if not uid then
                    -- 如果没有则生成一个跟踪cookie,算法为md5(时间戳+IP+客户端信息)
                    uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent)
                end 
                ngx.header['Set-Cookie'] = {'__utrace=' .. uid .. '; path=/'}
                if ngx.var.arg_domain then
                -- 通过subrequest到/i-log记录日志,将参数和用户跟踪cookie带过去
                    ngx.location.capture('/i-log?' .. ngx.var.args .. '&utrace=' .. uid)
                end 
            ";  
        
            #此请求资源本地不缓存
            add_header Expires "Fri, 01 Jan 1980 00:00:00 GMT";
            add_header Pragma "no-cache";
            add_header Cache-Control "no-cache, max-age=0, must-revalidate";
        
            #返回一个1×1的空gif图片
            empty_gif;
        }   
    
        location /i-log {
            #内部location,不允许外部直接访问
            internal;
        
            #设置变量,注意需要unescape
            set_unescape_uri $u_domain $arg_domain;
            set_unescape_uri $u_url $arg_url;
            set_unescape_uri $u_title $arg_title;
            set_unescape_uri $u_referrer $arg_referrer;
            set_unescape_uri $u_sh $arg_sh;
            set_unescape_uri $u_sw $arg_sw;
            set_unescape_uri $u_cd $arg_cd;
            set_unescape_uri $u_lang $arg_lang;
            set_unescape_uri $u_account $arg_account;
        
            #打开subrequest(子请求)日志
            log_subrequest on;
            #自定义采集的日志,记录数据到user_defined.log
            access_log logs/user_defined.log user_log_format;
        
            #输出空字符串
            echo '';
        }        
    }
}

 

  •  启动 nginx
cd /usr/local/nginx
sbin/nginx -c conf/nginx.conf
  •  查看是否启动
ps -ef | grep nginx

 

  

-------------------------------服务器   A  中执行结束-----------------------------------

  •  通过游览器访问 nginx
访问:192.168.175.151/index.html

 -------------------------------服务器   A  中执行开始-----------------------------------

  • 观察自定义日志采集文件是否有对应的内容输出:
cd /usr/local/nginx/logs
tail -f user_defined.log

 

 

此时还可以观察 nginx 默认的输出日志文件:

tail -f access.log

 

停止 nginx: 

cd /usr/local/nginx
 sbin/nginx –s stop

-------------------------------服务器   A  中执行结束-----------------------------------