ローカルWWW環境とは
ローカルWWW環境の作成ツールの紹介
ローカルWWW環境作成の準備を使用しよう
ローカルWWWを回覧しましょう。
全文検索ユーティリティを導入しよう。
みなさんは、インターネットをどのように徘徊していますか?
多くの人は、インターネットに接続しながらホームページを読み、リンクをたどっていると思います。しかし、これでは文章を読んでいる間でもインターネットにはつなぎっぱなし、電話代もかかってしまいます。
とくに、WWW上で発表されている小説を呼んでいるときなどは、はっきり言って接続時間はうなぎのぼり、しかも、もう一回小説を読みたいときには、インターネットに接続しなければなりません。
そこで、一度読んだWWWページを自分のハードディスクに保存しておけば、
後でゆっくりページを何度でも読むことが出来ます。こうして、自分のハードディスク上に作り込んだWWWページの集まりがローカルWWW環境です。
はっきりいって、おすすめですよ〜 コレ
私が使用しているツールは以下の通りです。
・ブラウザ:
インターネットエクスプローラ4.0(98付属版)
・ブラウザのキャッシュ to ローカルハードディスクコンバータ:Cache Converter Ver3.60
・自動巡回ツール:WebAuto
・プロキシサーバ(Webサーバ機能有)WinProxy
・全文検索エンジン&検索ユーティリティ全文検索システム Namazu for Win32
まず、保存するためのHDDを用意します。
最初、規模が小さい(ファイル数が6万以下)の場合は、FAT16でフォーマットされたディスク上で、OS付属の圧縮ドライブを作成してそこに保存しましょう。容量は、とりあえず200MBから300MBもあればなんとかなります。いざとなったら実ドライブ側の割当容量を増やせばよいのだし。
ファイル数が6万以上になると、FAT16ドライブには入らなくなってきますので、ここまでくると、FAT32でフォーマットされたディスクに保存するしかありません。ただし、AI SOFTのDiskXII98のVer2.0を使用すれば、多少圧縮が効きますのでディスクスペースを有効活用できるでしょう。
ただし、ファイル数が10万ファイルを超えると、DiskXII98での管理速度・性能面での問題が発生してきますので、素直にディスクを使用したほうがいいかもしれません。
ちなみに、現在(99/05/11)の私のローカルWebの状況は
約22万ファイル 全容量2.4GB
とかなり巨大になっています。もちろんFAT32フォーマットのディスクにそのまま保存しています。
また、ディスクのドライブ名に関しては、ネットワーク共有することも考え、W:ドライブなどに統一すると良いでしょう。
方法としては、
OS付属の圧縮ドライブでは、圧縮ドライブのドライブ名を自由に変えられますのでココで変更します。
リムーバブルドライブ(または、HDDをリムーバブルモードにした場合)の場合は、
システムのプロパティ−デバイスマネージャ−ディスクドライブの下の該当ドライブのプロパティの設定で変更できます。LANを組んでいるマシンにデータを置く場合は、ネットワークドライブの割り当てで、W:ドライブに割り当てます。(他のコンピュータ上のドライブでも同じ)
それ以外の場合は、c:\autoexec.batにSUBSTコマンドを追加して、特定のディレクトリをドライブに割り当てれば良いでしょう。たとえば、D:ドライブのDATAディレクトリをW:ドライブとしてもアクセス可能とするためには、
SUBST W: D:\DATA\
とします。ただし、この割り当てたドライブ(W:)に対しては、いくつかの制限がありますが、スキャンディスクや、デフラグをかけなければ大丈夫でしょう。
などがあります。
ここでは、W:¥WWWというディレクトリにローカルWeb(ローカルWWW)
を構築することにします。
また、インターネットエクスプローラの設定に、キャッシュサイズがありますので、出来る限り大きくしておきましょう。
まずは、インターネットエクスプローラを使用して、インターネットにアクセスし、実際のWWWを探索しましょう。このとき、残したいベージがあったら、そのベージはそのページにある全てのファイル読み込むようにしましょう。最後まで読まないうちに別のページへ飛んでしまうと、ローカルWebを構築したときに画像などが抜け落ちてしまうことになります。
なお、IEはShiftキーを押しながらリンクをクリックすると、新しいウィンドウを開いてそのリンク先の内容を表示してくれるので便利です。
Webの巡回が終わったら、回線を切断して、IEのキャッシュの内容をローカルに変換します。
わたしが使用しているキャッシュコンバータはCache Converter Ver3.60です。
ここで、出力先は先ほど用意したローカルWeb保存先のディレクトリ(W:¥WWW¥)を指定します。
また、ブラウザで、わざわざ巡回しなくても、WebAutoのような自動巡回ソフトを使用して、先ほど用意したローカルWeb保存先のディレクトリに巡回結果を出力させる方法もあります。
作成したローカルWebのディレクトリには、Webのツリー構造そのままに巡回した内容が構築されています。
たとえば、このサイト http://www.amy.hi-ho.ne.jp/masuda/を巡回した後ならば、W:\WWW\www.amy.hi-ho.ne.jp/masuda/index.htm もしくは
W:\WWW\www.amy.hi-ho.ne.jp/masuda/index.html
のように、アドレスの前に、"W:¥WWW¥"を付けたアドレスをブラウザで表示すれば、ローカルWebの内容が表示されます。
また、一度行ったリンク先であれば、いままでの巡回と同じ方法でアクセスできます。なお、http://www.amy.hi-ho.ne.jp/masuda/のように、最後が”/”で終わるようなアドレスの場合は、その後ろに
”index.htm”または、”index.html”
が省略されているものとして扱ってください。
さて、たくさんのホームページをローカルに落としていくと、どこに何があるのか、どんな内容があるのかなどが把握できなくなるでしょう。
そこで導入をお勧めするのが全文検索エンジン。キーワードによって該当するホームページを検索できます。
わたしが今、使用しているのは全文検索エンジン「NAMAZU」です。
すべてがフリーでそろい、個人で使うには十分な性能を持っています。「NAMAZU」の詳細はこちらにありますので参考にしてください。
なお、「NAMAZU」はUNIX, Win32, OS/2 の上で動作可能ですが、ここでは、Windowsで動作可能なWin32版を紹介します。Win32版の「NAMAZU」は全文検索システム Namazu for Win32のホームページがあります。Win32版に関する詳しい情報はこちらを参照してください。
また、検索ツールにはWin32用の GUI な検索ツールが山下さんの Web page で公開していますので、私は、こちらを使っています。
(注意)
NAMAZUは個人向けの全文検索エンジンであるため、ローカルWebでの検索対象ファイル数が数万を超えるとインデックスの管理できなくなる場合があります。
実際、私の現在のローカルWeb環境(全ファイル数22万程度、検索対象ファイル数は、8万ファイル程度だと思われる)では、インデックス作成に非常に時間がかかるようになり(3日かけても終わりませんでした)使用を中断している状態です。NAMAZUの管理できる上限値はいったいどのくらいなんでしょうかねぇ、誰か教えてください(爆)
全文検索システム Namazu for Win32のホームページ
で以下のソフトをダウンロードしてください。
(ファイルネームは98/8/30現在のものです。)
Namazu for Win32 nmz1301.exe(約 634KB) Kakasi for Win32 kks225w3.exe(約 1,900KB) cygwin32 の cygwinb19.dll cwdllb19.lzh(約 200KB) Perl for Win32 Pw32i316.exe(約 1,510KB) nkf for Win32 nkf32152.lzh(約 50KB)
山下さんのホームページ
で以下のソフトをダウンロードしてください。
(ファイルネームは98/6/4現在のものです。)
search-s for Namazu srchs072.exe それぞれのサイズかちょっと(いや、かなりか)大きいですが、すべてフリーで手に入りますので、がんばってダウンロードしてください。
ここでは
Namazu & Kakasi & Perl は c:\usr\local\ search-s は c:\Program Files\Search-s\ ローカルWWWデータ は w:\www\ Namazu用インデックスデータ は w:\namazu\index\ といったディレクトリ構造を想定しています。
- Perl for Win32のインストール
Pw32i316.exeを実行します。
解凍先フォルダの指定は”c:\usr\local\Perl\”を指定し、Unzipボタンを押します。
- 処理を実行するか聞いてくるので”Y”を押下します。
レジストリ HKEY_LOCAL_MACHINE\SOFTWARE\ActiveWare\Perl5 にキーが追加されます。- Pathを追加するか聞いてくるので”Y”を押下します。
C:\AUTOEXEC.BAT にPATHコマンドが追加されます。
- Perlのインストールが終わったら、一度PCを再起動してください。
- Namazu for Win32のインストール
nmz1301.exeを実行します。解凍先フォルダの指定は”c:\”を指定します。
ここで、自動的に”readme.txt”が表示されればインストールOKです。
自動的に”autoexec.bat”にNamazu for Win32 に必要な環境設定が行なわれます。
しかし、ここで”error.txt”が表された場合は、何らかのエラーが発生し、環境の自動設定が失敗したましたので、”error.txt”の内容に従ってください。
(項番2で再起動していないと、失敗する可能性があります。)
- c:\usr\下の Readme.txt、Error.txt、Nmzsetup.bat、Nmzsetup.pif を
c:\usr\local\namazu\ の下へコピーします。
- Kakasi for Win32のインストール
kks225w3.exeを実行します。解凍先フォルダの指定は”c:\”を指定します。
ここで、自動的に”Welcome.txt”が表示されればインストールOKです。
自動的に”autoexec.bat”にkakasi for Win32 に必要な環境設定が行なわれます。
しかし、ここで”error.txt”が表された場合は、何らかのエラーに環境の自動設定が失敗しましたので、”error.txt”の内容に従ってください。
(項番2で再起動していないと、失敗する可能性があります。)- c:\usr\下の Copying、Welcome.txt、Error.txt、Kkssetup.bat、 Kkssetup.pif
をC:\usr\local\lib\kakasiの下へコピーします。
- cygwin32 の cygwinb19.dllのインストール
cwdllb19.lzhをLHA等を使用して解凍します。
解凍先は”c:\usr\local\bin\”へ解凍します。- nkf for Win32のインストール
nkf32152.lzhをLHA等を使用して解凍します。
解凍先は”c:\usr\local\bin”へ解凍します。- search-s for Namazuのインストール
srchs072.exeを実行します。解凍先フォルダの指定はデフォルトの”c:\windows\tmp\”を指定します。あとは、指示の通りしていけば、自動的にインストール出来るでしょう。
インストール先ディレクトリはデフォルトの”C:\Program Files\Search-s\”に行えばよいでしょう。- AUTOEXEC.BATへの変更
なお 自動設定がうまくいっていれば、すでに次の4行が追加されているはずです。
もし、追加されていない場合は以下の行を追加します。
path "%path%;c:\usr\local\Perl\bin;c:\usr\local\bin"
set NAMAZUCONFPATH=c:\usr\local\namazu\lib\namazu.conf
set KANWADICTPATH=c:\usr\local\lib\kakasi\kanwadict
set ITAIJIDICTPATH=c:\usr\local\lib\kakasi\itaijidict- c:\usr\local\namazu\lib\namazu.conf-dist を
c:\usr\local\namazu\lib\namazu.conf にコピーします。
- エディタで”c:\usr\local\namazu\lib\namazu.conf”を開き、以下のように編集します。こちらを参考にして下さい。
なお、INDEX等の後ろの空白はTABです。注意してください。
#INDEX /usr/local/namazu/index
#WAKATI /usr/local/bin/kakasi
#LANG ja↓
INDEX w:\namazu\index
WAKATI c:\usr\local\bin\kakasi.exe
LANG ja- w:\namazu\indexをいうディレクトリを作成する。
w:\namazu\index\makeindx.bat として以下の内容のバッチファイルを作成します。
こちらを参考にしてください。
@echo off
mknmz w:\www
- 「スタート」−「プログラム」−「search−s」を実行し、以下の設定を行います。
- ツールバーの「検索」「検索パス」で”w:\namazu\index”を指定する。
- 「設定」−「Namazu」で、”c:\usr\local\bin\namazu.exe”
- 「設定」−「Webブラウザ」で使用しているブラウザを指定する。
- 「設定」−「出力先」は”外部”にしておいた方がよいでしょう
(好みの問題ですが..)
- ここではまだ検索はできないので、”search−s”はこのまま終了します。
- ここでいったんマシンをリブートします。
インストールが終了したら、全文検索インデックスの作成を行います。
”w:\namazu\index\”へカレントディレクトリを移動する。
”w:\namazu\index\makeindx.bat”を実行する。
なお、”w:\namazu\index\makeindx.bat”に対するプロパティにて、作業ディレクトリに”w:\namazu\index\”を指定しておけば、エクスプローラで”w:\namazu\index\makeindx.bat”をダブルクリックしてもOKです。なお、この作業を行うことで全文検索を行うことが出来ます。
ローカルWWWのファイルに変更・追加を行ったときにも行う必要があります。<参考>
わたしのローカルWWWでインデックス作成を行ったところ、以下のようになりました。
なお、マシンのCPUはMMX Pentium 233MHzです。
全ファイル数 63,080個 全ファイルサイズ 643,099,227バイト ファイル数
(全文検索の対象とするファイル数)31,154個 ファイルサイズ
(全文検索の対象とするファイルの合計サイズ)306,191,532バイト キーワード
(検索時に指定できるキーワード)1,188,261個
この状態で、インデックスを新規作成した場合の処理時間・ファイルサイズは
処理時間 約11時間 インデックスファイルのサイズ 約110MB となります。
2度目からは、変更があったファイルのみ処理するので、こんなには時間はかかりません。
なお、インデックスの再作成のときには、現在のインデックスファイルサイズ相当の開き容量がハードディスクに必要なので注意しましょう。