歡迎來到Linux教程網

設為首頁加入收藏

Linux教程網

Linux教程網

Linux教程網

首頁 Linux基礎 Linux管理 Linux編程 Linux綜合 Unix知識

Linux教程網 >> Linux基礎 >> Linux教程 >> Project 1-2: 我們得到的Heritrix Crawl Job Report

Project 1-2: 我們得到的Heritrix Crawl Job Report

日期：2017/2/28 16:27:18 编辑：Linux教程

關於Heritrix URL亂碼問題, 可以通過修改源碼解決.

org.archive.crawler.writer.MirrorWriterProcessor.joinParts()

StringBuffer sb = new StringBuffer(length());
String ss = null;
sb.append(mainPart.asStringBuffer());
if (null != uniquePart) {
sb.append(uniquePart);
}
if (suffixAtEnd) {
if (null != query) {
sb.append("@");
sb.append(query);
}
if (null != suffix) {
sb.append('.');
sb.append(suffix);
}
} else {
if (null != suffix) {
sb.append('.');
sb.append(suffix);
}
if (null != query) {
sb.append(query);
}
}
try {
ss = new String(sb.toString().getBytes("ISO-8859-1"),"GB2312");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return ss;

在對Heritrix進行配置並能夠成功運行後, 我們調整了Heritrix的參數, 使其能夠更快地抓取頁面.

我們主要調整的是Frontier的參數, 調整後的參數如下:

隨後我們開始了抓取工作, 終於在十月一號早上抓完了ccer全站, 用時約19.5小時, 數據量1.6G, 文件數23814, 其中網頁(txt/html/asp)數量19632.

以下是本次Crawl Job的報告:

抓取工作結束後我們發現了一個比較嚴重的問題: 編碼問題. 很多網頁抓到本地後文件名是亂碼, 而且沒法解碼(可能是因為文件名被破壞了). 不知道把Writer改為org.archive.crawler.writer.ARCWriterProcessor會不會部分解決這個問題.

下一步我們將進行Heritrix源代碼分析和鏈接數據分析工作.

上一頁:Project 1-3: 鏈接分析之鏈接統計
下一頁:Project 1-1: Ubuntu下配置和運行Heritrix

Linux教程

如何在虛擬機上配置PCI直通

提問：我想要分配一塊物理網卡到用KVM創建的虛擬機上。我打算

Ubuntu下安裝vcs 2009.12可能出現的問題的解決辦法

Linux刪除根驅動的代價

制作Fedora 15的USB啟動盤

Unix下生成隨機復雜密碼的三種方法

巧妙設置Android來方便管理Linux和Windows

Ubuntu/Debian下安裝ConVirt 2.0(前端節點)

ubuntu 6.06升級為ubuntu7.04需要經過6.10版

Linux教程網

Win10系統開啟Linux Bash命令行

導讀在Build2016上微軟為了拉攏開發者發了個大招，那就是Win10一周年更新集成原生Li

Linux操作系統中用RPM安裝GCC過程解析

【Linux進階】CentOS安裝java環境

在WMWARE虛擬機中安裝了Fedora 8(圖)

Linux作為Window系統的安全總管

Linux中源碼安裝編譯Vim

Squid日志分析軟件Sarg的安裝及使用技巧

Linux中如何查看系統開機時間

發行版發布：ParallelKnoppix 2.3

相关文章

Linux基礎知識 Linux入門 Linux技術 Linux教程 Linux服務器關於Linux

文章推荐

安裝完最小化RHEL/CentOS 7後需要做的30件事情

Linux基礎教程：Emacs安裝clojure開發環境

安裝CIDER模塊還是比較簡單的，就是

ext3 mount過程分析

Kali Linux 安裝BCM43142網卡驅動

前言學習Linux已經有半年多的時間了，在這

热点聚焦

在VMWare 6.5中安裝openSUSE 11.0

Linux2.6驅動程序《一》整體概述

Ubuntu安裝SVN紀實

Linux下對臨時文件的操作之mkstemp

Ubuntu下玩精彩的阿巴尼歷險記游戲（圖）

教你如何取消linux終端掛起

Snow Leopard、Ubuntu、Windows下修改網卡MAC地址

Linux系統--job control

在KDE 桌面添加 MAC OS X Lion 風格的程序啟動器

Ubuntu 8.04與XP SP3相比誰更強[圖文]

Copyright © Linux教程網 All Rights Reserved