Manual:Restoring wiki code from cached HTML/ja

From Linux Web Expert

The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

If you've managed to fail in your attempts at backing up your wiki , like we did, you may, unfortunately, after a server failure, be left with no other option than trying to recreate your lost content from various cached copies of pages from your site.

サイトのキャッシュされたHTMLを取得する場所

  • 失われたウィキからキャッシュされた HTML ページを探す最初の場所は、ブラウザーのページキャッシュです。 Google Chrome/Chromium や Firefox で about:cache にアクセスし、これらのキャッシュされたページを表示できます。ただし、キャッシュがサーバーからの新しいページで上書きされないように、「オフライン作業」モードにしておくことを忘れないでください。
  • 検索エンジンは、少なくとも人気のあるウェブサイトのページのキャッシュを保持しています。Google、Bing、Yahoo を試してみてください。
  • ウェブ アーカイブ (www.archive.org) も、幸運な場合にはあなたのページのいくつかを持っているかもしれません。
  • 大手企業や大学内にいる場合、キャッシュ プロキシを保持している可能性があるため、利用可能な他のキャッシュがあるかもしれません。

Google で site:mywiki.example.com を検索すると、サイトの ほとんど のキャッシュされたページの一覧が表示されますが、特定のページ名を検索することでより多くのページにアクセスできることがあります。 これは、災害が発生した直後にできるだけ多くのキャッシュ コンテンツを保存する、時間のかかる手作業プロセスです (ウィキを復元すると、キャッシュが新しいサーバーからリフレッシュされ、さらなるコンテンツが失われる可能性があります)。

ウィキを再構築するためのHTMLの利用

ウィキのほとんどのコンテンツを取得できた場合、一連のスクリプトを使用してそのコンテンツを処理できます。 この目的に役立つ2010年のコードの一部は、以下で入手できます: http://code.ascend4.org/ascend/trunk/tools/mediawiki/html2mediawiki/

上記のコードは、見出し、リスト、テーブル、リンク、数式、およびソース コード リストの基本的な再構築作業を行います。 それはカテゴリ タグや特定のテンプレートも正しく処理します。 The core parts of this code use BeautifulSoup and Python's regular expressions module to search for recognized patterns.

ただし、MediaWiki インスタンスはそれぞれ異なります。インストールされている拡張機能やテンプレートが異なるため、上記のスクリプトを特定のサイトに適用する前に、慎重に編集する必要があるでしょう。 上記のコードには、ASCEND ウィキへのハード コードされた参照がいくつかある可能性がありるため、注意して読み直し、変更する必要があるでしょう。

Other HTML2wiki scripts have been published but these have a slightly different aim: to translate HTML snippets for inclusion in a wiki, rather than reconstructing a wiki from its HTML impression.