PRIMECLUSTER - ソフトウェア - Fujitsu
PRIMECLUSTER - ソフトウェア - Fujitsu
PRIMECLUSTER - ソフトウェア - Fujitsu
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>PRIMECLUSTER</strong><br />
活用ガイド<br />
<br />
(Solaris TM オペレーティングシステム/Linux 版)<br />
2009 年 6 月版<br />
J2X1-4250-07Z0(00)
◆ 本書の読者<br />
はじめに<br />
本書は、<strong>PRIMECLUSTER</strong> の環境設定や運用時に発生するトラブルへの対処方法についてまとめた<br />
ガイドブックです。<br />
本書は <strong>PRIMECLUSTER</strong> を使用して、クラスタシステムの導入、運用管理を行うシステム管理者、<br />
および <strong>PRIMECLUSTER</strong> 上にアプリケーションを作成するプログラマを対象にしています。<br />
◆ 本書の構成について<br />
本書の構成は以下のとおりです。<br />
章タイトル 内容<br />
第1部 事象別トラブル トラブルとトラブルへの対処方法を事象別に説明してい<br />
ます。<br />
第1章 インストール・環境構築時のト <strong>PRIMECLUSTER</strong> のインストールおよび環境構築時に発生す<br />
ラブル<br />
るトラブルと対処方法について説明しています。<br />
第2章 クラスタアプリケーションの クラスタアプリケーションを作成または実行する際に発<br />
トラブル<br />
生するトラブルと対処方法について説明しています。<br />
第3章 運用時のトラブル システムの運用時に発生するトラブルと対処方法につい<br />
いて説明しています。<br />
第4章 保守時のトラブル システムの保守を行う際に発生するトラブルと対処方法<br />
について説明しています。<br />
第5章 その他のトラブル Linux OS 固有のトラブルなどについて説明しています。<br />
第2部 トラブル情報の採取 <strong>PRIMECLUSTER</strong> システムに障害が発生した場合の、トラブ<br />
ル調査情報の採取方法について説明しています。<br />
第6章 システム状態の確認 <strong>PRIMECLUSTER</strong> の状態を確認し、リソースの故障を検出す<br />
る方法について説明しています。<br />
第7章 トラブル調査情報の採取方法 Solaris、Linux ごとに、トラブル発生時に採取する必要<br />
がある情報について説明しています。<br />
第8章 CF に関するトラブル情報収集 CF に関するトラブル情報を採取する方法について説明し<br />
ています。<br />
第9章 RMS に関するトラブル情報収集 RMS(Reliant Monitor Services) に関するトラブル情報を<br />
採取する方法について説明しています。<br />
付録A リリース情報 マニュアル変更内容について説明します。<br />
◆ OS の表記について<br />
本書には、オペレーティングシステム固有の情報が含まれています。オペレーティングシステム<br />
固有の説明箇所には、以下のように記述して区別しています。<br />
何も表記されていない箇所は、Solaris(TM) オペレーティングシステム(以降、Solaris) と Linux<br />
で共通の内容です。<br />
オペレーティングシステムの種類 表記<br />
Solaris "■Solaris"<br />
または<br />
"(Solaris)"<br />
Linux "■Linux"<br />
または<br />
"(Linux)"<br />
説明の都合上、オペレーティングシ "■Solaris/Linux"<br />
ステム共通であることを示す必要が または<br />
ある場合<br />
"(Solaris/Linux)"<br />
i
◆ 関連マニュアル<br />
ii<br />
以下のマニュアルはクラスタ設定を行う際に必要に応じて参照してください。<br />
● <strong>PRIMECLUSTER</strong> コンセプトガイド<br />
● <strong>PRIMECLUSTER</strong> 導入運用手引書<br />
● <strong>PRIMECLUSTER</strong> Cluster Foundation 導入運用手引書<br />
● <strong>PRIMECLUSTER</strong> RMS 導入運用手引書<br />
● <strong>PRIMECLUSTER</strong> RMS 導入運用手引書 (トラブルシューティング編)<br />
● <strong>PRIMECLUSTER</strong> RMS リファレンスガイド<br />
● <strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書<br />
● <strong>PRIMECLUSTER</strong> Global Disk Services 説明書<br />
● <strong>PRIMECLUSTER</strong> Global File Services 説明書<br />
● <strong>PRIMECLUSTER</strong> Global Link Services 説明書(伝送路二重化機能編)<br />
● <strong>PRIMECLUSTER</strong> Global Link Services 説明書(マルチパス機能編)<br />
● RC2000 ユーザーズガイド<br />
● <strong>PRIMECLUSTER</strong> DR/PCI Hot Plug ユーザーズガイド<br />
● <strong>PRIMECLUSTER</strong> インストールガイド<br />
● <strong>PRIMECLUSTER</strong> 活用ガイド<br />
● <strong>PRIMECLUSTER</strong> 活用ガイド<br />
● <strong>PRIMECLUSTER</strong> 活用ガイド<br />
◆ 本書の表記について<br />
表記<br />
プロンプト<br />
実行にシステム管理者(ルート)権限が必要なコマンドライン例の場合、先頭にシステム管理者<br />
プロンプトを示すハッシュ記号 (#) が付いています。システム管理者権限を必要としないエン<br />
トリの場合、先頭にドル ($) が付いています。<br />
マニュアルページのセクション番号<br />
UNIX オペレーティングシステムコマンドの後ろにマニュアルページのセクション番号が括弧付<br />
きで示されています。―例: cp(1)<br />
キーボード<br />
印字されない文字のキーストロークやなどのキーアイコンで表示されます。た<br />
とえば、は Enter というラベルの付いたキーを押すことを意味し、 + <br />
は、Ctrl または Control というラベルの付いたキーを押しながらキーを押すことを意味<br />
します。<br />
書体/記号<br />
以下の書体は特定要素の強調に使用されます。<br />
書体 / 記号 使用方法<br />
均等幅 コンピュータ出力、およびプログラムリスト:テキスト本文中のコマンド、<br />
ファイル名、マニュアルページ名、他のリテラルプログラミング項目<br />
斜体, 具体的な数値/文字列に置き換える必要のある変数 ―入力値―<br />
具体的な数値/文字列に置き換える必要のある変数 ―表示値―<br />
太字 記述どおりに入力する必要のあるコマンドライン項目<br />
"均等幅" 参照先のタイトル名、マニュアル名、画面名等<br />
[均等幅] ツールバー名、メニュー名、コマンド名、アイコン名<br />
ボタン名
例1.<br />
以下に /etc/passwd ファイルのエントリの一部を示します。<br />
root:x:0:1:0000-Admin(0000):/:<br />
sysadm:x:0:0:System Admin.:/usr/admin:/usr/sbin/sysadm<br />
setup:x:0:0:System Setup:/usr/admin:/usr/sbin/setup<br />
daemon:x:1:1:0000-Admin(0000):/:<br />
例2.<br />
cat(1) コマンドでファイルの内容を表示するには、以下のコマンドラインを入力します。<br />
$ cat ファイル名<br />
記号<br />
特に注意すべき事項の前には以下の記号が付いています。<br />
略称<br />
● ポイントとなる内容について説明します。<br />
● 注意する項目について説明します。<br />
● 例題を用いて説明します。<br />
● 参考となる内容を説明します。<br />
● 参照するマニュアル名などを説明します。<br />
● 部や章で説明した内容をまとめて説明します。<br />
● Microsoft(R) Windows(R) 98 operating system、および Microsoft(R) Windows(R) 98<br />
Second Edition operating system を Windows(R) 98 と略しています。<br />
● Microsoft(R) Windows NT(R) Server operating System Version4.0、および Microsoft(R)<br />
Windows NT(R) Server workstation System Version4.0 を Windows NT(R) と略していま<br />
す。<br />
● Microsoft(R) Windows(R) 2000 operating system を Windows(R) 2000 と略しています。<br />
● Microsoft(R) Windows(R) Millennium Edition を Windows(R) Me と略しています。<br />
● Microsoft(R) Windows(R) XP operating system を Windows(R) XP と略しています。<br />
● Windows(R) 98、Windows NT(R)、Windows(R) 2000、Windows(R) Me、Windows(R) XP を総<br />
称して Microsoft(R) Windows と表記します。<br />
● 参照する Solaris のマニュアル名称で "Solaris X" と書かれている部分は、Solaris 8 オ<br />
ペレーティングシステム (以降、Solaris 8) 、Solaris 9 オペレーティングシステム (以<br />
降、Solaris 9)、または Solaris 10 オペレーティングシステム (以降、Solaris 10) と<br />
読み替えてマニュアルを参照してください。<br />
iii
◆ 商標について<br />
iv<br />
UNIX は、米国およびその他の国におけるオープン・グループの登録商標です。<br />
Sun、Sun Microsystems、Sun ロゴ、Solaris およびすべての Solaris に関連する商標及びロゴ<br />
は、米国およびその他の国における米国 Sun Microsystems, Inc.の商標または 登録商標であり、<br />
同社のライセンスを受けて使用しています。<br />
Linux は、Linus Torvalds 氏の米国およびその他の国における登録商標あるいは商標です。<br />
NFS、NFS Client は、米国 Sun Microsystems, Inc.の商標です。<br />
Java およびすべての Java 関連の商標およびロゴは、米国およびその他の国における米国 Sun<br />
Microsystems, Inc.の商標または登録商標です。<br />
Netscape 及び Netscape Navigator は Netscape Communications Corporation の米国及びその<br />
他の国における商標または登録商標です。<br />
Microsoft Internet Explorer は、米国 Microsoft Corporation の米国およびその他の国にお<br />
ける登録商標です。<br />
Microsoft、Windows、Windows NT および Windows NT Server は、米国 Microsoft Corporation<br />
の米国及びその他の国における登録商標です。<br />
ORACLE、Oracle Applications は、米国 Oracle Corporation の商標もしくは登録商標です。<br />
<strong>PRIMECLUSTER</strong> は、富士通株式会社の商標です。<br />
その他各種製品名は、各社の製品名称、商標または登録商標です。<br />
Copyright (c) 1986-1997 Sun Microsystems,Inc.<br />
Copyright (c) 1983-1989 Portions may be derived from Berkeley BSD system, licensed from<br />
the U. of CA.<br />
(C)1990-2000 Legato Systems, Inc. All Rights Reserved.<br />
お願い<br />
● 本書を無断で他に転載しないようお願いします。<br />
● 本書は予告なしに変更されることがあります。<br />
Copyright(C) 2006,2007,2008,2009 富士通株式会社.<br />
All Rights Reserved.<br />
Copyright (C) 2006,2007,2008,2009 <strong>Fujitsu</strong> Siemens Computers GmbH.<br />
All rights reserved.<br />
2006年4月 初版<br />
2006年8月 第2版<br />
2006年12月 第3版<br />
2007年6月 第4版<br />
2007年9月 第5版<br />
2008年4月 第6版<br />
2009年1月 第7版<br />
2009年6月 第8版
目次<br />
第 1 部 事象別トラブル .............................................................................................. 1<br />
第 1 章 インストール・環境構築時のトラブル........................................................... 3<br />
目次<br />
1.1 ネットワークブート時のトラブル...........................................................................4<br />
1.2 <strong>PRIMECLUSTER</strong> のインストール時....................................................................8<br />
1.3 cluster_setup 時...................................................................................................10<br />
1.4 CF 設定時のトラブル........................................................................................... 11<br />
1.5 SF 設定時のトラブル ...........................................................................................13<br />
1.6 CRM 設定時のトラブル .......................................................................................25<br />
1.7 再起動時のトラブル ..............................................................................................34<br />
1.8 仮想マシン環境での環境構築時のトラブル ..........................................................36<br />
第2章 クラスタアプリケーションのトラブル............................................................37<br />
2.1 クラスタアプリケーションの作成.........................................................................38<br />
2.2 クラスタアプリケーションの実行.........................................................................52<br />
第 3 章 運用時のトラブル .........................................................................................67<br />
3.1 基本的な設定に関するトラブル ............................................................................68<br />
3.2 運用全般に関するトラブル ...................................................................................72<br />
3.3 CF に関するトラブル.........................................................................................102<br />
3.4 RMS に関するトラブル......................................................................................107<br />
3.5 電源切断、強制停止に関するトラブル ...............................................................125<br />
3.6 GUI に関するトラブルシューティング..............................................................131<br />
3.6.1 Web-Based Admin View に関するトラブルの見方 ......................................131<br />
3.6.2 Web-Based Admin View に関するトラブル.................................................132<br />
3.7 ノードの参入に関するトラブル ..........................................................................140<br />
3.7.1 基本的な考え方..............................................................................................140<br />
3.7.2 トラブル対処例 1..........................................................................................141<br />
3.7.3 トラブル対処例 2..........................................................................................142<br />
3.7.4 トラブル対処例 3..........................................................................................144<br />
3.7.5 トラブル対処例 4..........................................................................................145<br />
3.8 RC2000 に関するトラブル.................................................................................146<br />
3.9 GDS のトラブル.................................................................................................147<br />
3.10 GFS のトラブル .................................................................................................148<br />
3.11 GLS のトラブル .................................................................................................151<br />
v
目次<br />
vi<br />
3.12 設定変更時のトラブル ........................................................................................152<br />
第 4 章 保守時のトラブル .......................................................................................156<br />
4.1 電源を落としたとき ............................................................................................157<br />
4.2 セキュリティパッチ適用時 .................................................................................159<br />
4.3 アップデート時 ...................................................................................................160<br />
第 5 章 その他のトラブル .......................................................................................161<br />
5.1 Linux OS に関するトラブル ..............................................................................162<br />
5.2 Linux 固有のトラブル........................................................................................166<br />
第 2 部 トラブル情報の採取....................................................................................169<br />
第 6 章 システム状態の確認....................................................................................171<br />
6.1 ブラウザによる確認 ............................................................................................172<br />
6.1.1 メッセージポップアップ画面 ........................................................................172<br />
6.1.2 CF メインウィンドウ ...................................................................................174<br />
6.1.3 CRM メインウィンドウ................................................................................176<br />
6.1.4 RMS メインウィンドウ ................................................................................178<br />
6.1.5 MSG メインウィンドウ................................................................................180<br />
6.1.6 リソースの障害履歴 ......................................................................................180<br />
6.1.7 故障リソースの一覧 ......................................................................................182<br />
6.2 コマンドによる確認 ............................................................................................183<br />
第 7 章 トラブル調査情報の採取方法......................................................................185<br />
7.1 Solaris におけるトラブル調査情報の採取方法 ..................................................186<br />
7.1.1 fjsnap コマンドの実行..................................................................................187<br />
7.1.2 システムダンプ..............................................................................................187<br />
7.1.3 SCF ダンプ...................................................................................................188<br />
7.2 Linux におけるトラブル調査情報の採取方法....................................................189<br />
7.2.1 fjsnap/pclsnap コマンドの実行 ....................................................................189<br />
7.2.2 クラッシュダンプ ..........................................................................................193<br />
7.2.3 PSA 関連情報 (PRIMEQUEST) ..................................................................193<br />
7.2.4 MMB 関連情報 (PRIMEQUEST)................................................................194<br />
第 8 章 CF に関するトラブル情報収集...................................................................195
目次<br />
8.1 Cluster Admin GUI の CF ログビューア機能を使用する ...............................196<br />
8.1.1 CF ログビューアの起動方法 ........................................................................196<br />
8.1.2 /var/adm/messages ファイルの内容 ............................................................196<br />
8.1.3 ログファイルの例 ..........................................................................................197<br />
8.2 cftool コマンドを使用する .................................................................................199<br />
8.2.1 cftool –l の例(ローカルノード状態の確認)...............................................199<br />
8.2.2 cftool –d の例(デバイス構成の確認) ........................................................200<br />
8.2.3 cftool –n の例(クラスタノード状態の確認)..............................................200<br />
8.2.4 cftool –r の例(ルート状態の確認) ............................................................200<br />
8.3 SF をデバッグモードにする ..............................................................................202<br />
第 9 章 RMS に関するトラブル情報収集 ...............................................................203<br />
9.1 概要 .....................................................................................................................204<br />
9.2 デバッグメッセージとエラーメッセージ............................................................205<br />
9.3 ログファイル.......................................................................................................206<br />
9.4 ログビューアの使用方法.....................................................................................207<br />
9.4.1 リソース名に基づく検索 ...............................................................................209<br />
9.4.2 時刻に基づく検索 ..........................................................................................210<br />
9.4.3 キーワードに基づく検索 ............................................................................... 211<br />
9.4.4 重要度レベルに基づく検索............................................................................212<br />
9.5 hvdump コマンドの使用....................................................................................213<br />
9.6 ログレベルの指定................................................................................................214<br />
9.7 ログファイルの内容 ............................................................................................215<br />
9.8 システムログ.......................................................................................................217<br />
9.9 RMS ウィザードログ .........................................................................................218<br />
9.9.1 RMS ウィザードディテクタのログ機能 .......................................................219<br />
9.9.2 RMS 稼動中のレベル変更 ............................................................................220<br />
付録 A リリース情報...............................................................................................221<br />
索引 223<br />
vii
第1部 事象別トラブル<br />
以下の各作業フェーズで発生したトラブルの対処方法を説明します。<br />
● インストール・環境構築<br />
● クラスタアプリケーションの作成・実行<br />
● クラスタシステムの運用<br />
● クラスタシステムの保守<br />
1
第1章 インストール・環境構築時のトラブル<br />
本章では、<strong>PRIMECLUSTER</strong> のインストールおよび各環境構築時に発生するトラブルの内容および<br />
対処方法について説明します。<br />
3
第1章 インストール・環境構築時のトラブル<br />
1.1 ネットワークブート時のトラブル<br />
4<br />
対象ノードでネットワークブートコマンドを実行したが、正常にインストールされない場合のト<br />
ラブル対処方法です。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q1-1-1 メッセージも表示されずに止まってしまう ○ -<br />
Q1-1-2 メッセージが表示されて止まってしまう (1) touch: XXX ~ ○ -<br />
Q1-1-3 メッセージが表示されて止まってしまう (2) Network Link Setup<br />
Failed. ~<br />
○ -<br />
Q1-1-4 メッセージが表示されて止まってしまう (3) Searching for ~ ○ -<br />
Q1-1-5 メッセージが表示されて止まってしまう (4) Searching for ~ ○ -<br />
Q1-1-6 メッセージが表示されてパニックしてしまう WARNING:<br />
nfsdyn_mountroot:~<br />
○ -<br />
Q1-1-7 問合せメッセージが表示される ○ -<br />
Q1-1-8 メッセージに応答すると対話式のインストール画面が表示される ○ -<br />
Q1-1-1 メッセージも表示されずに止まってしまう<br />
原因<br />
ハブやネットワークインタフェースカードなどのネットワーク機器に問題がある可能性があり<br />
ます。<br />
対処<br />
ネットワーク機器の接続状況やハブ などに故障がないかを確認し、環境を見直した後に、対象<br />
ノードで再度ネットワークブートを実行してください。<br />
Q1-1-2 メッセージが表示されて止まってしまう (1)<br />
原因<br />
touch: X cannot create<br />
/tmp/install_config/begin_scr: XXX: cannot create<br />
Begin script begin_scr failed with return value “「” Aborting install.<br />
インストールサーバの /etc/dfs/dfstab ファイルに定義されたエントリに誤りがあることが原<br />
因です。<br />
対処<br />
以下の 3 点を確認し対処した後に、ネットワークブートを再実行してください。<br />
1. /etc/opt/FJSVclis/etc/inst_info パスに関するエントリが定義されているか<br />
/etc/dfs/dfstab ファイルに /etc/opt/FJSVclis/etc/inst_info パスに関する以下のエ<br />
ントリが定義されていない場合は、cluster_setup を実行してトップメニューから ”o”<br />
または ”b”を選択して、システム事前情報を設定してください。<br />
/usr/sbin/share -F nfs -o rw,anon=0 /etc/opt/FJSVclis/etc/inst_info #FJSVclis<br />
2. 上記エントリが、コメントアウトされていないか
1.1 ネットワークブート時のトラブル<br />
/etc/opt/FJSVclis/etc/inst_info パスに関するエントリのコメントアウトを外してか<br />
ら shareall(1M) を実行してください。<br />
3. 上記のエントリ以外に、/etc/opt/FJSVclis/etc/inst_info パスに関するエントリが定<br />
義されていないか<br />
上記のエントリ以外に、/etc/opt/FJSVclis/etc/inst_info パスに関するエントリが定義<br />
されている場合は、そのエントリをコメントアウトし、unshareall(1M) を実行してから<br />
shareall(1M) を実行してください。<br />
または、cluster_setup を実行してトップメニューから ”o”または ”b”を選択して、<br />
システム事前情報を設定してください。<br />
Q1-1-3 メッセージが表示されて止まってしまう (2)<br />
Network Link Setup Failed.<br />
Please Check Cable and Try Again<br />
Timeout waiting for ARP/RARP packet...<br />
原因<br />
ハブやネットワークインタフェースカードなどのネットワーク機器に問題がある可能性がありま<br />
す。<br />
対処<br />
ネットワーク機器の接続状況やハブなどに故障がないかを確認し、環境を見直した後に、対象ノ<br />
ードで再度ネットワークブートを実行してください。<br />
Q1-1-4 メッセージが表示されて止まってしまう (3)<br />
原因<br />
Searching for configuration file(s)...<br />
インストールサーバまたは対象ノードのホスト名や IP アドレスなどの情報が変更されたが、<br />
cluster_setup が再実行されていないことが原因です。<br />
対処<br />
cluster_setup を実行し、トップメニューから ”o”または ”b”を選択して再度システム事前情<br />
報を設定してください。<br />
5
第1章 インストール・環境構築時のトラブル<br />
6<br />
Q1-1-5 メッセージが表示されて止まってしまう (4)<br />
原因<br />
Searching for JumpStart directory...<br />
not found<br />
Warning: Could not find matching rule in rules.ok<br />
Press the return key for an interactive Solaris install program...<br />
インストールサーバのネットマスク値 (cluster_setup で表示したデフォルト値)と設定された<br />
対象ノードのネットマスク値 (cluster_setup のネットマスク値の設定画面で入力した値)が一<br />
致していない(同じサブネットを使用していない)ことが原因です。<br />
対処<br />
インストールサーバの /etc/netmasks ファイルを編集するか、または、cluster_setup で対象ノ<br />
ードのネットマスク値の設定画面で表示されたデフォルト値(インストールサーバの netmask<br />
値)を設定してください。その後、対象ノードで再度ネットワークブートを実行してください。<br />
Q1-1-6 メッセージが表示されてパニックしてしまう<br />
原因<br />
WARNING: nfsdyn_mountroot: NFS3 mount_root failed: error 6<br />
Cannot mount root on /pci@17,4000/network@1,1 fstype nfsdyn<br />
panic[cpu0]/thread=10408000: vfs_mountroot: cannot mount root<br />
同一ネットワーク内に対象ノードのためのインストールサーバが 2 つ以上存在していることが<br />
原因です。<br />
対処<br />
同一ネットワークセグメント上のノードで、/etc/bootparams ファイルを確認し、インストール<br />
サーバ以外で、対象ノードのエントリがある場合は削除してください。
Q1-1-7 問合せメッセージが表示される<br />
原因<br />
Warning: boot will not enable cache<br />
Enter filename [kernel/sparcv9/unix]:<br />
1.1 ネットワークブート時のトラブル<br />
ここでを入力すると、以下の問合せメッセージが表示される。<br />
Enter default directory for modules [/platform/...]:<br />
ここでを入力すると、ノードがパニックする。<br />
boot net – install の場合に ”-“の前後に 1 つ以上のブランクがないなど、対象ノードで実<br />
行したネットワークブートコマンドの実行方法に誤りがあることが原因です。<br />
対処<br />
対象ノードの OBP プロンプトから、以下のように正しくコマンドを実行してください。<br />
{ok} boot net - install<br />
Q1-1-8 メッセージに応答すると対話式のインストール画面が表示される<br />
現象<br />
原因<br />
以下のメッセージが表示されて止まってしまい、"Return" を押すと、対話式のインストール画<br />
面が表示される。<br />
The following error occurred while trying to set the 'up' flag on the hme0<br />
network interface: ioctl: Cannot assign requested address.<br />
Press Return to continue<br />
cluster_setup で指定したネットワークインタフェースカード (NIC) が、対象ノードがネットワ<br />
ークブートに使用した NIC と一致していないことが原因です。<br />
対処<br />
対象ノードがネットワークインストールに使用する NIC と、cluster_setup で指定した NIC を<br />
一致するようにします。再度 cluster_setup で NIC を設定し直すか、対象ノードが使用する NIC<br />
を変更してください。<br />
7
第1章 インストール・環境構築時のトラブル<br />
1.2 <strong>PRIMECLUSTER</strong> のインストール時<br />
8<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q1-2-1 <strong>PRIMECLUSTER</strong> のインストールに失敗する - ○<br />
Q1-2-2 <strong>PRIMECLUSTER</strong> のパッチ: 913509-02 以降、913702-01 以降、<br />
および 913855-04 以降が適用できない<br />
○ -<br />
Q1-2-3 <strong>PRIMECLUSTER</strong> HA Server 4.1 をインストールしたが、"FJSVla"<br />
がインストールされない<br />
○ -<br />
Q1-2-4 <strong>PRIMECLUSTER</strong> 初期設定時、Web-Based Admin View か ら<br />
Cluster Admin を起動すると、 "0001 管理サーバの呼び出し<br />
に失敗しました" が表示される<br />
○ ○<br />
Q1-2-1 <strong>PRIMECLUSTER</strong> のインストールに失敗する<br />
原因<br />
対処<br />
集約パッチ LPMP03B1 以降を適用している <strong>PRIMECLUSTER</strong> 4.0A20 環境を、<strong>PRIMECLUSTER</strong> 4.1A20<br />
あるいは 4.1A30 にバージョンアップしている可能性があります。<br />
<strong>PRIMECLUSTER</strong> 4.1A20 以降にバージョンアップする場合、<strong>PRIMECLUSTER</strong> 4.0A20 のインストーラ<br />
にてアンインストールしますが、その際、集約パッチ(LPMP03B1 以降)はアンインストールされ<br />
ません。アンインストールされていない状態で <strong>PRIMECLUSTER</strong> 4.1A20 以降をインストールすると、<br />
集約パッチに含まれていたパッケージがシステム上に残っているため、インストールに失敗しま<br />
す。集約パッチ(LPMP03B1 以降)を適用しているシステムでは、製品添付のインストールガイド、<br />
および集約パッチ添付の readme に従い <strong>PRIMECLUSTER</strong> のパッケージをアンインストールしてく<br />
ださい。詳細は、"<strong>PRIMECLUSTER</strong> インストールガイド" の "4.2 移行上の注意"を参照してくださ<br />
い。<br />
確認事項<br />
集約パッチ LPMP03B1 以降を適用している <strong>PRIMECLUSTER</strong> 4.0A20 環境を <strong>PRIMECLUSTER</strong> 4.1A20<br />
以降 にバージョンアップしていませんか?<br />
Q1-2-2 <strong>PRIMECLUSTER</strong> のパッチ: 913509-02 以降、913702-01 以降、および 913855-04 以降 が<br />
適用できない<br />
原因<br />
対処<br />
<strong>PRIMECLUSTER</strong> の 3 枚目の CD-ROM がインストールされていない可能性があります。対象パッケ<br />
ージがインストールされていないとパッチの適用は行なえません。<br />
<strong>PRIMECLUSTER</strong> の 3 枚目の CD-ROM をインストールしてください。
1.2 <strong>PRIMECLUSTER</strong> のインストール時<br />
Q1-2-3 <strong>PRIMECLUSTER</strong> HA Server 4.1 をインストールしたが、"FJSVla" がインストールされ<br />
ない<br />
原因<br />
対処<br />
"FJSVla" パッケージは、<strong>PRIMECLUSTER</strong> HA Server 4.1 のインストールスクリプトではインスト<br />
ールされません。<br />
"FJSVla" パッケージをインストールする場合は、別途 pkgadd コマンドでインストールしてくだ<br />
さい。<br />
Q1-2-4 <strong>PRIMECLUSTER</strong> 初期設定時、Web-Based Admin View から Cluster Admin を起動する<br />
と、 "0001 管理サーバの呼び出しに失敗しました" が表示される<br />
原因<br />
SMAWrcadm(Cluster Admin) をインストールし、その後 FJSVwvbs をインストールした可能性が<br />
あります。そのため、FJSVwvbs のファイル Plugin.html が、SMAWrcadm に対応した内容に編集<br />
されず、Cluster Admin の起動が失敗しました。<br />
対処<br />
"<strong>PRIMECLUSTER</strong> インストールガイド" に従い <strong>PRIMECLUSTER</strong> をアンインストールした後、再イン<br />
ストールしてください。<br />
9
第1章 インストール・環境構築時のトラブル<br />
1.3 cluster_setup 時<br />
10<br />
インストールサーバで cluster_setup を実行したときのトラブル対処方法です。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q1-3-1 に示されるノードのインストール情報を設定するが、<br />
メッセージが表示されて中断してしまう<br />
○ -<br />
Q1-3-1 に示されるノードのインストール情報を設定するが、以下のメッセージ<br />
が表示されて中断してしまう<br />
原因<br />
Now add data ...<br />
i_os_setup: ERROR: add_install_client command failed<br />
Error: unknown client “”<br />
に示されるノードの名前解決ができないことが原因です。<br />
対処<br />
インストールサーバの /etc/nsswitch.conf ファイル内の ”hosts”の検索順序を ”files”が<br />
先頭になるように変更し、再度 cluster_setup を実行してください。<br />
たとえば、以下のように /etc/nsswitch.conf ファイルを修正します。<br />
hosts: files dns
1.4 CF 設定時のトラブル<br />
CF 設定時のトラブル対処方法です。<br />
■トラブル一覧<br />
1.4 CF 設定時のトラブル<br />
No. 現象 Solaris Linux<br />
Q1-4-1 CF 構成中にコンソール画面にメッセージが出力される<br />
cf:cfconfig OSDU_stop: failed to unload cf_drv<br />
○ ○<br />
Q1-4-2 CF 初期設定時に既存クラスタ情報が表示される ○ ○<br />
Q1-4-3 CF の作成中、途中で反応がなくなる ○ ○<br />
Q1-4-4 CFの設定後に/etc/hosts ファイルの日本語コメントが文字化けす<br />
る<br />
- ○<br />
Q1-4-1 CF 構成中にコンソール画面にメッセージが出力される<br />
原因<br />
cf:cfconfig OSDU_stop: failed to unload cf_drv<br />
CF を構成する過程で一旦 cf_drv をアンロードする際に出力されるメッセージです。<br />
対処<br />
異常を示すものではありませんので対処の必要はありません。<br />
Q1-4-2 CF 初期設定時に既存クラスタ情報が表示される<br />
原因<br />
CF を構成する過程で一旦 cf_drv をアンロードする際に出力されるメッセージです。<br />
対処<br />
異常を示すものではありませんので対処の必要はありません。<br />
Q1-4-3 CF の作成中、途中で反応がなくなる<br />
原因<br />
クラスタを構成するノード間で /etc/inet/hosts(Solaris)、または /etc/hosts(Linux)の設<br />
定が異なっている可能性があります。<br />
対処<br />
/etc/inet/hosts(Solaris)、または /etc/hosts(Linux)の設定を、クラスタを構成する全ノー<br />
ドで合わせてください。<br />
Q1-4-4 CF の設定後に /etc/hosts ファイルの日本語コメントが文字化けする<br />
原因<br />
Web-Based Admin Viewの言語設定と /etc/hosts ファイルの日本語の文字コードが一致していな<br />
11
第1章 インストール・環境構築時のトラブル<br />
12<br />
いことが原因です。<br />
以下のいずれかの対処をしてください。<br />
対処1<br />
以下の手順でWeb-Based Admin Viewの言語設定をおこなってください。<br />
1. Web-Based Admin Viewの言語設定をします。<br />
# /etc/opt/FJSVwvbs/etc/bin/wvSetparam -add sys lang ja<br />
設定の詳細については、"<strong>PRIMECLUSTER</strong>導入運用手引書4.3 (Linux版)"、あるいは、<br />
"<strong>PRIMECLUSTER</strong>導入運用手引書4.3 (Linux (Itanium) 版)"の "4.3.3.3 Web-Based Admin<br />
View の言語設定" を参照してください。<br />
2. /etc/hosts ファイル中の日本語コメントを記載し直してください。<br />
Web-Based Admin View の言語設定のみ変更しても、/etc/hosts ファイルに、UTF-8 コー<br />
ドで日本語コメントが記載されていると文字化けします。<br />
そのため、日本語コメントは EUC コードで記載し直してください。<br />
対処2<br />
/etc/hosts ファイルの文字化けした日本語を削除してください。
1.5 SF 設定時のトラブル<br />
SF 設定時のトラブル対処方法です。対象バージョンは、4.1 以降です。<br />
■トラブル一覧<br />
1.5 SF 設定時のトラブル<br />
No. 現象 Solaris Linux<br />
Q1-5-1 シャットダウンエージェントの状態表示画面に "InitFailed"、<br />
"TestFailed" が表示される<br />
Q1-5-2 Shutdown Facility の設定を実施したが、待機系の XSCF 関連<br />
の状態のみ "TestFailed" となる<br />
Q1-5-3 SF 設定後、SF デーモン (rcsd) を起動させたが、コンソール<br />
にメッセージが表示され、SF デーモンの起動に失敗する<br />
“Advertisement server: can't bind local address, errno<br />
126”<br />
Q1-5-4 各シャットダウンエージェントのタイムアウト値の推奨値と設<br />
定方法がわからない<br />
Q1-5-5 RCI アドレスを変更してノードを起動したらエラーメッセージ<br />
が出力された<br />
FJSVcluster: エラー: DEV: 7003: RCI の異常を検出しました。<br />
(node:nodename address:address status:status)」<br />
FJSVcluster: エラー: DEV: 7004: RCI アドレス異常のためRCI<br />
非 同 期 監 視 機 能 を 停 止 し ま す 。 (node:nodename<br />
address:address)<br />
FJSVcluster: エラー: DEV: 7035: RCI アドレス異常を検出し<br />
ました。(node:nodename address:address)<br />
Q1-5-6 シャットダウン構成ウィザードで、「詳細な設定」から「編集」<br />
を選択し、をクリックしたら、以下のメッセージがポ<br />
ップアップされた<br />
2906<br />
設定ファイルに記録されているシャットダウンエージェント<br />
RCI Panic のタイムアウト (20) がデフォルトタイムアウト<br />
(90) と異なります。デフォルトタイムアウトの値を設定します<br />
か?<br />
はい いいえ<br />
Q1-5-7 シ ャ ッ ト ダ ウ ン エ ー ジ ェ ン ト と し て 、 RCI パ ニ ッ ク<br />
(SA_pprcip) と RCI リセット (SA_pprcir) を設定し、RCI ケ<br />
ーブルを抜いたが、強制停止 (カーネルパニック) が発生しな<br />
い<br />
Q1-5-8 MMB シャットダウンエージェントの設定後、シャットダウンエ<br />
ージェントの状態表示画面に "TestFailed" が表示される<br />
Q1-5-9 IPMIシャットダウンエージェントを使用している場合、<br />
/var/log/messagesに以下のメッセージが出力される<br />
The SA to test host has exceeded<br />
its configured timeout, will be terminated<br />
WARNING : is not able to be terminated. The SA<br />
is now disabled from host <br />
Q1-5-10 SPARC Enterprise M4000,M5000,M8000,M9000で、シャットダウ<br />
ン機構の設定を行ったところ 7042 番のエラーメッセージが出<br />
力され、 XSCF シャットダウンエージェント (SA_xscfp.so,<br />
○ ○<br />
○ -<br />
○ ○<br />
○ ○<br />
○ -<br />
○ -<br />
○ -<br />
- ○<br />
- ○<br />
○ -<br />
13
第1章 インストール・環境構築時のトラブル<br />
14<br />
No. 現象<br />
SA_rccu.so, SA_xscfr.so) のテスト状態(Test State) が<br />
TestFailedになった<br />
Solaris Linux<br />
Q1-5-11 VMGuest シャットダウンエージェントの設定後、シャットダウ<br />
ンエージェントの状態表示画面に "TestFailed" が表示される<br />
- ○<br />
Q1-5-1 シャットダウンエージェントの状態表示画面に "InitFailed"、"TestFailed" が表示<br />
される<br />
現象<br />
対処<br />
SF 設定後、シャットダウンエージェントの状態表示画面に以下の状態が表示された。<br />
- Init State が InitFailed<br />
- Test State が TestFailed (赤字)<br />
/var/adm/messages ファイル (Solaris)、あるいは /var/log/messages ファイル (Linux)、お<br />
よびコンソールにエラーメッセージが出力されていないか確認してください。<br />
● エラーメッセージが出力されている場合(Solaris/Linux)<br />
出力されたメッセージの内容に従い対処してください。対処方法については、<br />
"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
● エラーメッセージが出力されていない場合(Solaris)<br />
以下の点を確認してください。<br />
1) ESF(Enhanced Support Facility) がインストールされているかを以下のコマンド<br />
で確認してください。<br />
# pkginfo -l FJSVbse<br />
ESF がインストールされていない場合、「エラー: “FJSVbse” に関する情報が見<br />
つかりません。」というメッセージが出力されます。この場合、ESF をインストー<br />
ルしてください。<br />
2) RCI シャットダウンエージェントを設定している場合、エージェントが起動されて<br />
いることを次のコマンドで確認します。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl<br />
RCI シャットダウンエージェントが起動していない場合、"The devscfd daemon does<br />
not exist." というメッセージが出力されます。次のコマンドで RCIシャットダウ<br />
ンエージェントを起動します。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl start<br />
RCI シャットダウンエージェントが起動したことを次のコマンドで確認します。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl<br />
3) RCCU シャットダウンエージェントを設定している場合、RCCU シャットダウンエー<br />
ジェントが起動されていることを次のコマンドで確認します。<br />
# /etc/opt/FJSVcluster/bin/clrccumonctl<br />
RCCU シャットダウンエージェントが起動していない場合、"The devrccud daemon<br />
does not exist." というメッセージが表示されます。次のコマンドで RCCU シャ<br />
ットダウンエージェントを起動します。<br />
# /etc/opt/FJSVcluster/bin/clrccumonctl start<br />
4) 表示されている画面から[戻る]を選択して、SF 構成を再設定します。<br />
● エラーメッセージが出力されていない場合(Linux)<br />
SF の設定を見直してください。詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シ<br />
ャットダウン機構の設定" を参照してください。
管理LAN上の通信速度に問題がないかを確認してください。<br />
1.5 SF 設定時のトラブル<br />
IPMI シャットダウンエージェントを使用している場合、 iRMC またはiRMCに接続されて<br />
いるスイッチの通信速度の設定に誤りがある可能性があります。その場合は、通信速度の<br />
設定を見直してください。<br />
(例)通信速度を1000Mbps(固定)からAutoに変更する。<br />
iRMCの設定についてはリモートマネジメントコントローラのユーザーズガイド、スイッチ<br />
の設定については各機種のユーザーズガイドを参照してください。<br />
Q1-5-2 Shutdown Facility の設定を実施したが、待機系の XSCF 関連の状態のみ<br />
"TestFailed" となる<br />
原因<br />
以下の条件の時、7042 番のエラーメッセージが出力され、XSCF シャットダウンエージェント<br />
(SA_xscfp.so, SA_rccu.so, SA_xscfr.so) のテスト状態が "TestFailed" になることがありま<br />
す。<br />
1) PRIMEPOWER 250,450 を使用している場合。かつ、<br />
2) コンソールに XSCF を使用している場合。かつ、<br />
3) XSCF シャットダウンエージェントを使用するようシャットダウン機構 (SF) の設定を行った<br />
場合。<br />
[7042 番のエラーメッセージ]<br />
FJSVcluster: エラー: DEV: 7042: コンソールへの接続ができません。<br />
(node:sa01721 portno:8010 detail:-1)<br />
対処<br />
以下の手順にて、コンソール情報を変更してください。<br />
1. ノード sa01721でclrccusetup –a コマンドを実行し、コンソール情報を変更してくださ<br />
い。<br />
clrccusetup コマンドの使用法については、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
# /etc/opt/FJSVcluster/bin/clrccusetup -a xscf IP-address user-name<br />
Enter Password:<br />
Re-enter Password:<br />
― IP-address には、XSCF の IP アドレスまたは /etc/inet/hosts に登録されてい<br />
る XSCF のホスト名を指定してください。<br />
― user-name には、XSCF の制御ポートへログインするためのユーザ名を指定してく<br />
ださい。<br />
― Password には、XSCF の制御ポートへログインするためのパスワードを入力してく<br />
ださい。<br />
2. 全ノードで clrccusetup –l コマンドを実行し、登録されたコンソール情報を確認してく<br />
ださい。手順1.で登録したコンソール情報がすべてのノードで出力されない場合、再度 手<br />
順1. からやり直してください。<br />
# /etc/opt/FJSVcluster/bin/clrccusetup -l<br />
device-name cluster-host-name IP-address host-name user-name<br />
15
第1章 インストール・環境構築時のトラブル<br />
16<br />
---------------------------------------------------------------------------xscf<br />
sa01721 SA01721.cmw.co.jp root<br />
^^^^ ← 特にsa01721のdevice-nameが""xscf""と表示されることを確認してください。<br />
xscf sa01722 SA01722.cmw.co.jp root<br />
----------------------------------------------------------------------------<br />
3. 全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool -e<br />
# /opt/SMAW/bin/sdtool -b<br />
4. 30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作してい<br />
ることを確認してください。<br />
# /opt/SMAW/bin/sdtool -s<br />
Cluster Host Agent SA State Shut State Test State Init State<br />
------------ ----- -------- ---------- ---------- ---------sa01721<br />
SA_pprcip.so Idle Unknown Unknown InitFailed<br />
sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_pprcir.so Idle Unknown Unknown InitFailed<br />
sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcip.so Idle Unknown Unknown InitFailed<br />
sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcir.so Idle Unknown Unknown InitFailed<br />
sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
※ SA_xscfp.so、SA_rccu.so、SA_xscfr.so の Test State の欄がすべて "TestWorked"<br />
であれば OK です。<br />
Q1-5-3 SF 設定後、SF デーモン (rcsd) を起動させたが、コンソールにメッセージが表示さ<br />
れ、SF デーモンの起動に失敗する<br />
原因<br />
対処<br />
“Advertisement server: can't bind local address, errno 126”<br />
/etc/opt/SMAW/SMAWsf/rcsd.cfg に記載した myadmnIPx (管理 LAN の IP アドレス、<br />
/etc/inet/hosts(Solaris の場合)、または /etc/hosts(Linux の場合)に登録されているホス<br />
ト名)が誤っている可能性があります。<br />
CFName1,weight=weight1,admIP=myadmnIP1:agent=SA_ppricip,timeout=20...<br />
以下のマニュアルを参照して、myadmnIPx を修正してください。<br />
■Solaris/Linux<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定"
1.5 SF 設定時のトラブル<br />
Q1-5-4 各シャットダウンエージェントのタイムアウト値の推奨値と設定方法がわからない<br />
対処<br />
● RCI シャットダウンエージェントのタイムアウト値は 20 (秒) に設定してください<br />
● RCCU シャットダウンエージェントのタイムアウト値は以下の式に従って決定してくださ<br />
い<br />
【4.1 の場合】<br />
― 2 ノードの場合<br />
タイムアウト値 = 25 (秒)<br />
― 3 ノード以上の場合<br />
タイムアウト値 = 20 + 17×(n - 2) (秒) [n = クラスタの構成ノード数]<br />
1. 全ノードの /etc/opt/SMAW/SMAWsf/rcsd.cfg の以下の下線部分を、すべての行について、<br />
算出したタイムアウト値に編集してください。<br />
fuji1,weight=X,admIP=IPaddress:agent=SA_pprcip,timeout=20:agent=SA_rccu,timeout<br />
=25:agent=SA_pprcir,timeout=20<br />
注) RCI シャットダウンエージェントは、SA_pprcip, SA_pprcir です。RCCU シャットダ<br />
ウンエージェントは SA_rccu です。<br />
2. 全ノードで以下のコマンドを実行してください。<br />
# sdtool -e<br />
# sdtool -b<br />
【4.1A10 以降の場合】<br />
"<strong>PRIMECLUSTER</strong> Cluster Foundation 導入運用手引書 4.1" の "8.5.3 タイムアウト値の<br />
設定" に従い、各シャットダウンエージェントのタイムアウト値を算出した値に変更して<br />
ください。<br />
【4.1A20 以降の場合】<br />
RCCU シャットダウンエージェントの推奨タイムアウト値は 20 秒です。<br />
XSCF シャットダウンエージェントの推奨タイムアウト値は 20 秒です。<br />
XSCF シャットダウンエージェントは SA_xscfp, SA_xscfr です。<br />
Solaris の 4.1A20 以降の場合、詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2.3<br />
タイムアウト値の設定" を参照してください。<br />
Linux の場合、詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構<br />
の設定" または "5.1.2.3.1 MMBシャットダウン機構の設定" を参照してください。<br />
Q1-5-5 RCI アドレスを変更してノードを起動したらエラーメッセージが出力された<br />
FJSVcluster: エラー: DEV: 7003: RCI の異常を検出しました。<br />
(node:nodename address:a dre s status:status)」<br />
FJSVcluster: エラー: DEV: 7004: RCI アドレス異常のため RCI 非同期監視機能を<br />
停止します。(node:nodename address:a dre s)<br />
FJSVcluster: エラー: DEV: 7035: RCI アドレス異常を検出しました。<br />
17
第1章 インストール・環境構築時のトラブル<br />
18<br />
(node:nodename address:address)<br />
対処<br />
マシン管理を使用して、RCI アドレスが正しく設定されているかを確認してください。正しく設<br />
定されていない場合、再度 RCI アドレスを変更してください。<br />
正しく設定されている場合、エラーメッセージが出力されたノードで以下のコマンドを実行し、<br />
RCI 非同期監視デーモンを復旧してください。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl restart<br />
# sdtool -e<br />
# sdtool -b<br />
4.1A20 パッチ 913381-03 適用以降または 4.1A30 以降では、以下のコマンドを実行する必要は<br />
ありません。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl restart<br />
Q1-5-6 シャットダウン構成ウィザードで、「詳細な設定」から「編集」を選択し、<br />
をクリックしたら、以下のメッセージがポップアップされた<br />
2906<br />
設定ファイルに記録されているシャットダウンエージェント RCI Panic のタイムアウト (20)<br />
がデフォルトタイムアウト (90) と異なります。デフォルトタイムアウトの値を設定します<br />
か?<br />
はい いいえ<br />
対処<br />
をクリックしてください。<br />
Q1-5-7 シャットダウンエージェントとして、RCI パニック (SA_pprcip) と RCI リセット<br />
(SA_pprcir) を設定し、RCI ケーブルを抜いたが、強制停止(カーネルパニック)が発生しない<br />
原因<br />
対処<br />
RCI ケーブルを抜いても、シャットダウンエージェントによる強制停止は行われません。<br />
シャットダウンエージェントによる強制停止は、クラスタインタコネクトを抜く等で確認できま<br />
す。
1.5 SF 設定時のトラブル<br />
Q1-5-8 MMB シャットダウンエージェントの設定後、シャットダウンエージェントの状態表示<br />
画面に "TestFailed" が表示される<br />
原因1<br />
対処1<br />
原因2<br />
対処2<br />
snmptrapd デーモンが起動していない可能性があります。<br />
ps(1) コマンド等により snmptrapd のプロセスの存在を確認してください。デーモンが起動さ<br />
れていない場合は snmptrapd デーモンを起動するように設定を変更してください。<br />
MMB シャットダウンエージェントに登録されたユーザのパスワードが誤っている、または、アカ<br />
ウントに Administrator 権限が付加されていない可能性があります。<br />
MMB シャットダウンエージェントに登録されたユーザのパスワード、および Administrator 権<br />
限について確認してください。<br />
MMB シャットダウン機構では Remote Management Control Protocol(RMCP)を使用するため、<br />
RMCP が使用できる MMB のアカウント(MMB ユーザ)を clmmbsetup コマンド(-a オプション)<br />
で指定する必要があります。<br />
詳細については "PRIMEQUEST 480/440 リファレンスマニュアル: GUI/ コマンド" を参照してく<br />
ださい。<br />
以下に操作例を示します。<br />
1. Web-UI 画面にログインします。<br />
2. ナビゲーションバーから "Network" を選択します。<br />
3. サブメニュー階層表示バーから "Remote Server Management" を選択します。<br />
4. "Remote Server Management" 画面より、clmmbsetup コマンド(-a オプション)で指定<br />
したユーザ名を選択し、[Edit]を押します。<br />
5. "Password"、"Confirm Password"、および "Privilege" を適宜変更します。<br />
6. "Status" を「Enabled」に変更し、[Apply]ボタンを押します。<br />
7. Web-UI 画面をログアウトします。<br />
8. 全ノードで以下のコマンドを実行し、シャットダウン機構(SF)を停止します。<br />
# /opt/SMAW/bin/sdtool -e<br />
9. 全ノードで以下のコマンドを実行し、シャットダウン機構(SF)を起動します。<br />
# /opt/SMAW/bin/sdtool -b<br />
Q1-5-9 IPMI シャットダウンエージェントを使用している場合、/var/log/messagesに以下の<br />
メッセージが出力される<br />
The SA to test host has exceeded its configured timeout,<br />
will be terminated<br />
19
第1章 インストール・環境構築時のトラブル<br />
20<br />
WARNING : is not able to be terminated. The SA is now disabled from<br />
host <br />
原因<br />
対処<br />
シャットダウン機構の定期的な状態確認処理において、メッセージに出力されているシャットダ<br />
ウンエージェントがタイムアウトした可能性があります。<br />
以下の手順で対処を行ってください。<br />
1. /etc/opt/FJSVcllkcd/etc/SA_lkcd.toutのPANICINFO_TIMEOUTの値を以下のように変更し<br />
てください。<br />
変更前<br />
PANICINFO_TIMEOUT 10<br />
変更後<br />
PANICINFO_TIMEOUT 15<br />
2. 以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool –e<br />
# /opt/SMAW/bin/sdtool –b<br />
3. 以 下 の コ マ ン ド を 実 行 し 、 各 シ ャ ッ ト ダ ウ ン エ ー ジ ェ ン ト の "Test State" が<br />
"TestWorked" と表示されていることを確認してください。<br />
# /opt/SMAW/bin/sdtool –s<br />
上記の対処を行っても現象が発生する場合は、当社技術員に連絡してください。<br />
Q1-5-10 SPARC Enterprise M4000,M5000,M8000,M9000で、シャットダウン機構の設定を行っ<br />
たところ 7042 番のエラーメッセージが出力され、 XSCF シャットダウンエージェント<br />
(SA_xscfp.so, SA_rccu.so, SA_xscfr.so) のテスト状態(Test State)が TestFailedになった<br />
原因1<br />
対処1<br />
クラスタノードからXSCFへ SSH による接続確認が行われていないために、接続先の識別ができ<br />
ず、XSCFへ接続できない可能性があります。<br />
以下の手順でホスト認証を行ったあと、シャットダウン機構を再起動してください。<br />
1. 各ノードから、接続先の全てのXSCFへSSHでログインできることを確認してください。<br />
初回接続時に、接続先ホストを識別するための情報(フィンガープリント)が表示されます<br />
ので、"yes"を入力し、XSCFの識別情報をサーバに記録します。<br />
例)XSCFのIPアドレスが 10.20.21.10 の場合<br />
# ssh -l ユーザ名 10.20.21.10
1.5 SF 設定時のトラブル<br />
ホスト '10.20.21.10 (10.20.21.10)' の認証を確立できません.<br />
RSA 鍵フィンガープリントは af:fq:87:01:0f:6c:6:3f:e6:70:09:aa:85:40:59:97 です<br />
本当に接続を継続してもよろしいですか (yes/no)? yes<br />
警告: 既知ホストのリストに '10.20.21.10' (RSA) を追加しました。<br />
ユーザ名@10.20.21.10 のパスワード:<br />
#<br />
2. 全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool –e<br />
# /opt/SMAW/bin/sdtool –b<br />
3. 30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作してい<br />
ることを確認してください。<br />
# /opt/SMAW/bin/sdtool –s<br />
Cluster Host Agent SA State Shut State Test State Init State<br />
------------ ----- -------- ---------- ---------- ---------sa01721<br />
SA_pprcip.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_pprcir.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcip.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcir.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
原因2<br />
SSHのユーザ認証で、公開鍵認証が使用されている可能性があります。<br />
対処2<br />
クラスタノードからXSCFへ接続する場合のユーザ認証方法として公開鍵認証を無効化し、UNIX<br />
標準のパスワードによる認証に変更してください。<br />
その後、以下の手順でシャットダウン機構を再起動してください。<br />
1. 各ノードから、接続先の全てのXSCFへSSHでログインできることを確認してください。<br />
2. 全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool –e<br />
# /opt/SMAW/bin/sdtool -b<br />
3. 30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作してい<br />
ることを確認してください。<br />
# /opt/SMAW/bin/sdtool –s<br />
Cluster Host Agent SA State Shut State Test State Init State<br />
------------ ----- -------- ---------- ---------- ---------sa01721<br />
SA_pprcip.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_pprcir.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
21
第1章 インストール・環境構築時のトラブル<br />
22<br />
sa01722 SA_pprcip.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcir.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
原因3<br />
DNSサーバの設定に誤りがある可能性があります。<br />
対処3<br />
以下の手順で DNS サーバの設定を見直し、シャットダウン機構を再起動してください。<br />
1. XSCF から DNS サーバへのアクセスが正しく行えるか確認します。<br />
XSCF にログインして、nslookup(8)コマンドによりホスト名( DNS 登録されているもので<br />
あれば何でも可)のルックアップを行ってください。<br />
2. 手順1.でnslookup(8)コマンドの実行から結果の表示までに20秒以上かかる場合、XSCFの<br />
DNSネームサーバ設定が間違っている可能性があるため、以下を確認してください。<br />
コマンドの詳細については、「SPARC Enterprise M4000/M5000/M8000/M9000 サーバ XSCF<br />
ユーザーズガイド」を参照してください。<br />
― setnameserver(8)により指定されているサーバのIPアドレスに誤りがないか<br />
― setroute(8)で設定しているルーティング情報に誤りがないか<br />
3. 全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool –e<br />
# /opt/SMAW/bin/sdtool -b<br />
4. 30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作してい<br />
ることを確認してください。<br />
# /opt/SMAW/bin/sdtool –s<br />
Cluster Host Agent SA State Shut State Test State Init State<br />
------------ ----- -------- ---------- ---------- ---------sa01721<br />
SA_pprcip.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_pprcir.so Idle Unknown TestWorked InitWorked<br />
sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcip.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_pprcir.so Idle Unknown TestWorked InitWorked<br />
sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked<br />
Q1-5-11 VMGuest シャットダウンエージェントの設定後、シャットダウンエージェントの状<br />
態表示画面に "TestFailed" が表示される<br />
原因1<br />
VMGuest シャットダウンエージェントに登録された管理OSのユーザ名、ユーザのパスワードまた
は、管理LANのIPアドレスが誤っている可能性があります。<br />
1.5 SF 設定時のトラブル<br />
対処1<br />
VMGuest シャットダウンエージェントに登録された管理OSのユーザ名、ユーザのパスワード、お<br />
よび管理OSの管理LANのIPアドレスについて確認してください。<br />
VMGuest シャットダウン機構では ノードを強制停止できる管理OSのアカウント(FJSVvmSP)、ア<br />
カウントのパスワード、および、管理LANのIPアドレスをclvmgsetup コマンド(-a オプション)<br />
で指定する必要があります。<br />
clvmgsetupコマンドの使用法については、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
以下に操作例を示します。<br />
1. clvmgsetup -a コマンドを実行し、ゲストOSの情報を登録します。<br />
全ゲストOS(ノード)上で実行してください。<br />
# /etc/opt/FJSVcluster/bin/clvmgsetup -a host-user-name host-IPaddress<br />
Enter User's Password:<br />
Re-enter User's Password:<br />
#<br />
― host-user-name<br />
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザ名<br />
ユーザ名には、FJSVvmSP を指定してください。<br />
― host-IPaddress<br />
ゲストOSが属する仮想マシンシステムの管理OSで、MMBに接続された管理LANのIPア<br />
ドレス<br />
― User's Password<br />
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザのパ<br />
スワード<br />
2. 全ゲストOS(ノード)上でclvmgsetup -l コマンドを実行し、登録されたゲストOS情報を<br />
確認します。<br />
手順1.で登録したゲストOSの情報が全ノードで出力されない場合、再度手順1.からやり直<br />
してください。<br />
# /etc/opt/FJSVcluster/bin/clvmgsetup -l<br />
cluster-host-name host-IPaddress host-user-name domain-name<br />
-----------------------------------------------------------node1<br />
10.10.10.2 FJSVvmSP node1<br />
#<br />
3. 全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool -e<br />
# /opt/SMAW/bin/sdtool –b<br />
4. 全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確<br />
認してください。<br />
# /opt/SMAW/bin/sdtool -s<br />
Cluster Host Agent SA State Shut State Test State Init State<br />
------------ ----- -------- ---------- ---------- ---------node1<br />
SA_vmgp Idle Unknown TestWorked InitWorked<br />
node2 SA_vmgp Idle Unknown TestWorked InitWorked<br />
※ Test State の欄がすべて "TestWorked" であることを確認してください。<br />
23
第1章 インストール・環境構築時のトラブル<br />
24<br />
原因2<br />
管理OSに対しての SSH初回時のユーザ問い合わせ(RSA 鍵の生成)が完了してない可能性があり<br />
ます。<br />
対処2<br />
VMGuest シャットダウン機構は、管理OSに対してSSHでアクセスするため、SSH初回時のユーザ問<br />
い合わせ(RSA 鍵の生成)を済ませておく必要があります。全ゲストOS(ノード)上で、clvmgsetup<br />
で登録した管理OSのIPアドレスに対して、 clvmgsetup で登録した管理OSのユーザ名でログイン<br />
を実行してください。<br />
以下に操作例を示します。<br />
1. clvmgsetup -l コマンドを実行し、登録されたゲストOS情報を確認します。<br />
# /etc/opt/FJSVcluster/bin/clvmgsetup -l<br />
cluster-host-name host-IPaddress host-user-name domain-name<br />
-----------------------------------------------------------node1<br />
10.10.10.2 FJSVvmSP node1<br />
node2 10.10.10.2 FJSVvmSP node2<br />
#<br />
2. すべてのノード上から host-IPaddress の欄で表示されているIP アドレスに対して<br />
host-user-name の欄で表示されているアカウントで SSH でログインを実行してくださ<br />
い。<br />
# ssh -l FJSVvmSP 10.10.10.2<br />
The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established.<br />
RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx.<br />
Are you sure you want to continue connecting (yes/no)? yes ←yes と入力<br />
#<br />
3. 全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。<br />
# /opt/SMAW/bin/sdtool -e<br />
# /opt/SMAW/bin/sdtool –b<br />
4. 全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確<br />
認してください。<br />
# /opt/SMAW/bin/sdtool -s<br />
Cluster Host Agent SA State Shut State Test State Init State<br />
------------ ----- -------- ---------- ---------- ---------node1<br />
SA_vmgp Idle Unknown TestWorked InitWorked<br />
node2 SA_vmgp Idle Unknown TestWorked InitWorked<br />
※ Test State の欄がすべて "TestWorked" であることを確認してください。
1.6 CRM 設定時のトラブル<br />
CRM 設定時のトラブル対処方法です。<br />
■トラブル一覧<br />
1.6 CRM 設定時のトラブル<br />
No. 現象 Solaris Linux<br />
Q1-6-1 "6001 メモリ資源が不足しています。" と表示された ○ ○<br />
Q1-6-2 "6002 ディスク資源またはシステム資源が不足しています。" と<br />
表示された<br />
○ ○<br />
Q1-6-3 "6201 クラスタ制御の構成管理機構で内部矛盾が発生しました。"<br />
または "6209 指定されたファイルまたはクラスタ構成データベ<br />
ースが存在しません。" と表示された<br />
○ ○<br />
Q1-6-4 "7500 クラスタリソース管理機構で内部矛盾が発生しました。”<br />
と表示された<br />
○ ○<br />
Q1-6-5 クラスタインタコネクトの全パス故障による強制停止後、再起動<br />
したノードの起動が完了しない場合がある<br />
○ ○<br />
Q1-6-6 "2927 ノード(node) でディスク装置を新規に検出しました。<br />
(disk)" と出力される<br />
○ -<br />
Q1-6-7 自動構成にて登録された共用ディスク装置のインスタンス番号が<br />
連番で作成されない<br />
○ -<br />
Q1-6-8 Web-Based Admin ViewのCluster Admin から CRM タブを参照する<br />
と別のクラスタセットの設定内容が表示される<br />
○ ○<br />
Q1-6-9 自動構成(クラスタ自動リソース登録)を行うと、以下のメッセー<br />
ジが表示され自動構成に失敗する<br />
"6911 クラスタ自動リソース登録を行うには全ノードで装置情報<br />
を一致化させる必要があります。"<br />
○ -<br />
Q1-6-10 自動構成を実行したが、増設したディスク装置が登録されない ○ -<br />
Q1-6-11 マルチパスドライバを使用している環境で、自動構成を実行する<br />
と、マルチパスとして mplb ではなく mphd が登録される。また<br />
は、マルチパスが登録されない<br />
○ -<br />
Q1-6-12 自動構成を実行して mplb 等の論理パスを登録したが、希望する<br />
インスタンス番号で論理パスが作成されない<br />
○ -<br />
Q1-6-13 自動リソース登録を実行したところ、mplb リソースが、0 番から<br />
採番される<br />
○ -<br />
Q1-6-14 自動構成(クラスタ自動リソース登録)を行うと、以下のメッセー<br />
ジが表示され自動構成に失敗する<br />
"6905: Automatic resource registration processing is aborted<br />
due to mismatch<br />
instance number of logical device between nodes."<br />
○ -<br />
Q1-6-15 Cluster Admin の CRM メインウィンドウで[ツール]-[初期構成<br />
設定]を選択したところ、"0712 すでに設定が完了しています。"<br />
のポップアップが出力され、自動構成が選択できない<br />
○ -<br />
Q1-6-16 リソースデータベースの設定 (clsetup コマンド)が異常復帰す<br />
る<br />
- ○<br />
Q1-6-17 CRM の初期構成設定を実施したところ、以下のメッセージが表示<br />
され設定できません<br />
”リソースデータベース初期構成設定に失敗しました”<br />
○ ○<br />
25
第1章 インストール・環境構築時のトラブル<br />
26<br />
Q1-6-1 "6001 メモリ資源が不足しています。"と表示された<br />
原因<br />
対処<br />
メモリ資源の不足以外に、共用メモリが不足している可能性もあります。<br />
6001 番のメッセージの対処を実施しても解決しない場合は、6005 番のメッセージの対処を実施<br />
してください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
Q1-6-2 "6002 ディスク資源またはシステム資源が不足しています。"と表示された<br />
対処<br />
以下の 3 点を確認してください。<br />
● クラスタ制御の動作に必要なディスクの空き容量があるか<br />
ディスク容量が不足している場合、不要なファイルを削除する等を行い、ディスク容量を<br />
確保してください。クラスタ制御の動作に必要なディスク容量は、各製品に添付されてい<br />
る<strong>PRIMECLUSTER</strong> インストールガイドを参照してください。<br />
● カーネルパラメタの設定値が正しいか<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "付録 A カーネルパラメタ・ワークシート" を参照<br />
し、リソースデータベースを使用する場合のカーネルパラメタの設定値が正しいことを確<br />
認してください。<br />
設定が正しくない場合は、設定変更後、システムを再起動してください。<br />
● メモリ資源が不足していないか<br />
メモリ資源が不足している場合、6001 番のメッセージの対処を実施してください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
Q1-6-3 "6201 クラスタ制御の構成管理機構で内部矛盾が発生しました。" または "6209 指定<br />
されたファイルまたはクラスタ構成データベースが存在しません。" と表示された<br />
原因<br />
メモリまたはディスク資源が不足している可能性もあります。<br />
対処<br />
6201 番のメッセージの対処を実施しても解決しない場合は、6001 番および 6002 番のメッセー<br />
ジの対処を実施してください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
Q1-6-4 "7500 クラスタリソース管理機構で内部矛盾が発生しました。"と表示された<br />
原因<br />
ディスク資源が不足している可能性もあります。<br />
対処<br />
7501 番のメッセージの対処を実施してください。
詳細は、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
1.6 CRM 設定時のトラブル<br />
Q1-6-5 クラスタインタコネクトの全パス故障による強制停止後、再起動したノードの起動が<br />
完了しない場合がある<br />
原因<br />
対処<br />
3 ノード以上のクラスタ構成で、クラスタインタコネクトの全パス故障によりノードが強制停止<br />
された後、クラスタインタコネクトを復旧し強制停止したノードが再起動した場合に、クラスタ<br />
構成データベースの不一致により、再起動したノードの起動が完了しない場合があります。<br />
【Solaris 版 4.0A10, 4.1, 4.1A10】<br />
起動が完了しないノードを再起動してください。<br />
クラスタインタコネクトが故障していないかは、cftool(1M) コマンドまたは Cluster<br />
Admin GUI のCF メインウィンドウで確認できます。<br />
【Solaris 版 4.1A10 + 912725-01 以降、および Linux 版】<br />
クラスタ構成データベースに不一致が生じています。<br />
クラスタ構成データベースに不一致が生じると、クラスタ構成データベースの不一致を検<br />
出したノードに、「6200: クラスタ制御の構成管理機構でクラスタ構成データベースの不<br />
一致が発生しました。(name:name node:node (node-number))」のエラーメッセージが出<br />
力されます。本メッセージが出力されていないノードが、クラスタ構成データベースが不<br />
一致となっているノードですので、本メッセージが出力されていないノードを再起動して<br />
ください。<br />
name は不一致となったクラスタ構成データベース名、node は、クラスタ構成データベー<br />
スが古いノードのノード識別名、node-number の node はクラスタ構成データベースが正<br />
常なノードのノード識別番号、number はクラスタ構成データベースの一致化処理の処理<br />
識別番号です。<br />
Q1-6-6 "2927 ノード (node)でディスク装置を新規に検出しました。(disk)" と出力される<br />
対処 1<br />
対処 2<br />
新たに検出したディスク装置 (disk) をリソースデータベースに登録してください。<br />
リソースデータベースへのディスク装置の登録は、clautoconfig(1M) コマンド、または CRM メ<br />
インウィンドウから行うことができます。clautoconfig(1M) コマンドの詳細については、<br />
"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
node はディスク装置を新規に検出したノード識別名、disk は新たに検出したディスク装置を示<br />
します。新規に検出したディスク数が多い場合、disk の末尾に ”...” が付加されます。その場合、<br />
node に表示されたノードの /var/adm/messages ファイルで 2914 番のメッセージを検索するこ<br />
とで新規に検出したすべてのディスク装置を参照できます。<br />
表示されたメッセージの "(disk)" に示されるデバイスが DVD-ROM 装置の場合は、システムに<br />
影響はないため、対処の必要はありません。<strong>PRIMECLUSTER</strong> では、DVD-ROM 装置を共用ディスク<br />
として使用することはありません。<br />
メッセージを回避するには、ノードを起動する際に、DVD-ROM 装置に DVD または CD-ROM 媒体<br />
が挿入していないようにしてください。<br />
27
第1章 インストール・環境構築時のトラブル<br />
28<br />
Q1-6-7 自動構成にて登録された共用ディスク装置のインスタンス番号が連番で作成されな<br />
い<br />
原因<br />
対処<br />
自動構成は、過去にディスク装置と対応付けを行ったインスタンス番号を記録しています。<br />
このため、ディスク装置の削除後に別のディスク装置を追加するなどの構成変更を行うと、イン<br />
スタンス番号が連番で作成されない場合があります。<br />
以下の手順で、共用ディスク装置のリソースを再作成してください。<br />
1. /var/opt/FJSVcluster/data/ACF/acfmpinstnotable ファイルを削除します。<br />
※ファイルの削除は全てのノードで実施してください。<br />
ファイルが存在しない場合もあります。<br />
2. 共用ファイル装置のリソースを削除します。<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "8.9 ハードウェアリソースの削除" を参照して対<br />
象となるハードウェアリソースを削除してください。<br />
3. 再度、自動構成を実施してください。詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の<br />
"5.1.3.2 自動構成" を参照してください。<br />
本手順で、問題が解消しない場合には、Q1-6-12 の対処を行ってください。<br />
Q1-6-8 Web-Based Admin ViewのCluster Admin から CRM タブを参照すると別のクラスタセ<br />
ットの設定内容が表示される<br />
原因<br />
1 台の運用管理サーバで複数のクラスタセットを管理する設定を行った可能性があります。<br />
複数のクラスタセットを1台の運用管理サーバで管理することは未サポートです。<br />
対処<br />
クラスタセット毎に別々の運用管理サーバを使用してください。<br />
Q1-6-9 自動構成(クラスタ自動リソース登録)を行うと、以下のメッセージが表示され自動構<br />
成に失敗する<br />
"6911 クラスタ自動リソース登録を行うには全ノードで装置情報を一致化させる必要があり<br />
ます。"<br />
原因<br />
自動リソース登録を行うためには、ノード間で sfdsk ドライバ (GDS) のメジャー番号を合わせ<br />
る必要があります。そのため、クラスタシステムのインストール時にメジャー番号の予約を行っ<br />
ていますが、すでに他のドライバがメジャー番号を使用中であった等の理由で予約に失敗し、ノ<br />
ード間でメジャー番号が不一致となることがあります。この場合、自動リソース登録が 6911 の<br />
メッセージでエラー終了します。
1.6 CRM 設定時のトラブル<br />
対処<br />
本現象が発生した場合は、以下の手順で、各ドライバのメジャー番号を一致させてください。<br />
1. メジャー番号の確認<br />
全てのノードにログインし、/etc/name_to_major ファイルの内容を確認します。<br />
例)<br />
node1 # cat /etc/name_to_major<br />
:<br />
sfdsk 253<br />
:<br />
node2 # cat /etc/name_to_major<br />
:<br />
sfdsk 259<br />
: ^^^メジャー番号が node1 と異なる<br />
2. メジャー番号の予約<br />
各ノードの /etc/name_to_major ファイルの内容から、いずれのノードでも使用されてい<br />
ないメジャー番号を確認してください。その際のメジャー番号は一番小さい値となるよう<br />
に選択してください。<br />
clrsvmajor コマンドを使用し、sfdsk ドライバに対して、現在使用されていないメジャ<br />
ー番号が割り当たるように予約を行ってください。<br />
全てのノードで同じメジャー番号となるように予約を行ってください。<br />
例) メジャー番号 263 が未使用であった場合<br />
node1 # /etc/opt/FJSVcluster/bin/clrsvmajor -M 263 sfdsk<br />
253<br />
node1 #<br />
node2 # /etc/opt/FJSVcluster/bin/clrsvmajor -M 263 sfdsk<br />
259<br />
node2 #<br />
clrsvmajor コマンドは以前割り当てられていたメジャー番号を表示します。<br />
3. ノードの再起動<br />
メジャー番号の予約を行ったノードを shutdown(1M) コマンドを使用して再起動し、メジ<br />
ャー番号の変更を反映させます。<br />
4. メジャー番号の確認<br />
任意のノードで clchkmajor コマンドを実行し、復帰値が 0 となることを確認してくだ<br />
さい。<br />
例)<br />
node1 # /etc/opt/FJSVcluster/sys/clchkmajor<br />
node1 # echo $?<br />
(この例はシェルが sh である場合の例です)<br />
※復帰値が 0 とならない場合には、ノード間でメジャー番号が一致していないドライバ<br />
が、存在しますので、再度確認してください。<br />
5. 自動構成を再実行<br />
29
第1章 インストール・環境構築時のトラブル<br />
30<br />
Q1-6-10 自動構成を実行したが、増設したディスク装置が登録されない<br />
原因<br />
対処<br />
以下の場合に、増設したディスク装置がリソース登録されない場合があります。<br />
● 他のクラスタシステムで使用していたディスク装置を移設した場合<br />
● 既存のディスク装置から増設したディスク装置へ VTOC を含めてディスクの内容をコピ<br />
ーした場合<br />
自動構成は、ディスク装置の VTOC にボリューム名を書き込むことでディスク装置を管理してま<br />
す。このため、クラスタで管理しているボリューム名と同一のボリューム名が増設したディスク<br />
装置に設定されていた場合、そのディスク装置はリソース登録しません。この場合、コンソール<br />
等にエラーメッセージは表示されません。<br />
format(1M) コマンドを使用して、登録されなかったディスク装置のボリューム名をクリアし、再<br />
度自動構成を実行してください。<br />
Q1-6-11 マルチパスドライバを使用している環境で、自動構成を実行すると、マルチパスと<br />
して mplb ではなく mphd が登録される。または、マルチパスが登録されない<br />
原因<br />
対処<br />
マルチパスドライバを使用する場合、cldiskadm コマンドをマルチパスドライバに同梱されてい<br />
るものに置き換える必要があります。<br />
cldiskadm コマンドを置き換えていない場合、自動構成が正しく動作しない場合があります。<br />
cldiskadm コマンドをマルチパスドライバに同梱されているものに置き換えていない場合、以下<br />
のようにシンボリックリンクを再作成して、cldiskadm コマンドを置き換えてください。<br />
例)<br />
# rm /etc/opt/FJSVcluster/sys/cldiskadm<br />
# ln -s /etc/opt/FJSVmplb/bin/cldiskadm /etc/opt/FJSVcluster/sys/cldiskadm<br />
置き換え後、正しくシンボリックリンクが作成されたことを ls コマンドで確認してください。<br />
例)<br />
# ls -l /etc/opt/FJSVcluster/sys/cldiskadm<br />
lrwxrwxrwx 1 root root 31 Dec 14 15:21 /etc/opt/FJSVcluster/sys/cldiskadm -><br />
/etc/opt/FJSVmplb/bin/cldiskadm<br />
Q1-6-12 自動構成を実行して mplb 等の論理パスを登録したが、希望するインスタンス番号<br />
で論理パスが作成されない<br />
原因<br />
自動構成は、共用ディスクを検出した順番や過去に割り当てたインスタンス番号などから自動的
対処<br />
にインスタンス番号を割り当てます。<br />
※インスタンス番号: デバイス名 (mplb2048) の番号 (2048) のこと<br />
1.6 CRM 設定時のトラブル<br />
自動的にインスタンス番号を割り当てるのではなく、希望のインスタンス番号を割り当て論理パ<br />
スを作成したい場合、自動構成の前に手動で論理パスを作成する方法があります。通常、自動構<br />
成は、論理パスの作成とリソース登録を行いますが、事前に論理パスが作成されている場合には<br />
作成されている論理パスのリソース登録のみを行います。<br />
論理パスの作成方法については、"マルチパスディスク制御説明書" や、"マルチパスドライバユ<br />
ーザーズガイド" を参照してください。<br />
論理パスを手動で作成する場合、ディスク装置を共用している全てのノードで、同じディスク装<br />
置に対しては同じインスタンス番号である必要があります。<br />
同じディスク装置に対して同じインスタンス番号でない場合には、以下のエラーで自動構成が失<br />
敗します。<br />
6905 論理パスのインスタンス番号がノード間で異なっているため自動リソース登録を中<br />
止します。<br />
Q1-6-13 自動リソース登録を実行したところ、mplb リソースが、0 番から採番される<br />
原因<br />
対処<br />
過去に手動で mplb のインスタンス番号を 0 番から採番した後に、自動リソース登録を実行して<br />
いた可能性があります。<br />
インスタンス番号を 2048 番から作成を行ないたい場合は、以下の手順で再作成してください。<br />
■現在のインスタンス番号を mplb0 ~ から mplb2048 ~ へ連番で再登録する場合<br />
1. /var/opt/FJSVcluster/data/ACF/acfmpinstnotable ファイルの削除<br />
acfmpinstnotable ファイルを削除してください。<br />
― 両ノードで実施してください。<br />
― acfmpinstnotable ファイルは、世代管理されていますので、cfmpinstnotable.1、<br />
acfmpinstnotable.2 などがありましたら全て削除してください。<br />
2. ハードウェアリソースの削除<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書"の "8.9 ハードウェアのリソースの削除" を参照してく<br />
ださい。<br />
ここでは、以下のコマンドを実施してください。<br />
# /etc/opt/FJSVcluster/bin/cldeldevice -c MPHD -a<br />
上記実施後、clgettree コマンドにて、共用ディスク装置のリソース (mplb0 ~<br />
mplb55) が削除されていることを確認してください。<br />
3. 自動リソース登録の実施<br />
31
第1章 インストール・環境構築時のトラブル<br />
32<br />
自動リソース登録を再度実施してください。<br />
自動リソース登録に関しての説明は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.3 クラス<br />
タリソース管理機構の初期設定" の "5.1.3.2 自動構成" を参照してください。<br />
自動リソース実施後、"Cluster Admin" の crm タブまたは、clgettree コマンド<br />
を実行し、共用ディスク装置が、mplb2048 から連番で作成されていることを確認<br />
してください。<br />
Q1-6-14 自動構成(クラスタ自動リソース登録)を行うと、以下のメッセージが表示され自動<br />
構成に失敗する<br />
"6905: Automatic resource registration processing is aborted due to mismatch<br />
instance number of logical device between nodes."<br />
原因<br />
対処<br />
自動リソース登録では、ディスクにユニークなボリューム名を設定しています。<br />
複数のクラスタシステムから同一の共用ディスクに対して自動リソース登録が行われたことによ<br />
り、ボリューム名が重複し、6905 番のエラーとなっている可能性があります。詳細は<br />
"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
同一のディスクが複数のクラスタシステムから認識しないよう対処してください。<br />
Q1-6-15 Cluster Admin の CRM メインウィンドウで [ツール]-[初期構成設定] を選択した<br />
ところ、"0712 すでに設定が完了しています。" のポップアップが出力され、自動構成が選<br />
択できない<br />
原因<br />
対処<br />
<strong>PRIMECLUSTER</strong> の初期構成設定前に GDS でシステムディスクのミラーリングを設定したため、エ<br />
ラーメッセージが出力されている可能性があります。<br />
両ノードで全てのミラーリングを解除後、リソースデータベースのリセットを行ってください。<br />
リソースデータベースのリセットは clinitreset コマンドで行います。clinitreset コマンドの<br />
使用方法は以下のとおりです。<br />
1. clinitreset コマンドの実行<br />
両ノードで以下のコマンドを実行してください。<br />
# /etc/opt/FJSVcluster/etc/bin/clinitreset<br />
2. 再起動<br />
両ノードで以下のコマンドを実行してください。<br />
# /usr/sbin/shutdown -y -g0 -i6
Q1-6-16 リソースデータベースの設定 (clsetup コマンド) が異常復帰する<br />
1.6 CRM 設定時のトラブル<br />
原因<br />
clsetup コマンド実行時に行う相手ノードへのアクセスが、Firewall のセキュリティチェック<br />
により失敗している可能性があります。<br />
対処<br />
システムのセキュリティ設定で "Firewall あり" に設定している場合は、"Firewall なし" に<br />
再設定してください。<br />
確認事項<br />
システムのセキュリティ設定が "Firewall あり" になっていませんか?<br />
Q1-6-17 CRM の初期構成設定を実施したところ、以下のメッセージが表示され設定できませ<br />
ん<br />
”リソースデータベース初期構成設定に失敗しました”<br />
原因<br />
導入時に、SUPPLEMENT CD を使わずインストールを行うなど、<strong>PRIMECLUSTER</strong>として必要なパッケ<br />
ージが正常にインストールされていない可能性があります。<br />
対処<br />
<strong>PRIMECLUSTER</strong> の再インストールを実施し、初期構成設定を実施してください。<br />
33
第1章 インストール・環境構築時のトラブル<br />
1.7 再起動時のトラブル<br />
34<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q1-7-1 <strong>PRIMECLUSTER</strong> インストール後、マシンを再起動したが、コンソ<br />
ールにメッセージが連続して出力された<br />
○ ○<br />
Q1-7-2 ノードの起動処理が完了しない ○ ○<br />
Q1-7-3 ノードの再起動を行うと以下の clprobedisk のメッセージが表<br />
示される<br />
情報: clprobedisk:2927:ノード (NodeName) でディスク装置を<br />
新規に検出しました。<br />
○ -<br />
Q1-7-4 以下のメッセージが表示されノードが起動しない<br />
WARNING: sfcfsrm: 5001 Starting the sfcfrmd daemon suspended<br />
because quorum does not exist<br />
○ ○<br />
Q1-7-1 <strong>PRIMECLUSTER</strong> インストール後、マシンを再起動したが、コンソールにメッセージが<br />
連続して出力された<br />
原因<br />
<strong>PRIMECLUSTER</strong> インストール後、マシンを再起動したが、コンソールにメッセージが連続して出<br />
力された。<br />
(SMAWsf, 50, 3) : The RCSF-CF initialization failed, status 9218<br />
LOG3.010376198181080028 3 2 50 4.1A10 SMAWsf<br />
: The RCSF-CF initialization failed, status 9218<br />
LOG3.010376198231080028 1 2 10 4.1A10 SMAWsf<br />
: rcsd died abnormally. Restart it.<br />
LOG3.010376198261080028 3 2 50 4.1A10 SMAWsf<br />
: The RCSF-CF initialization failed, status 9218<br />
(SMAWsf, 50, 3) : The RCSF-CF initialization failed, status 9218<br />
LOG3.010376198311080028 1 2 10 4.1A10 SMAWsf<br />
: rcsd died abnormally. Restart it.<br />
シャットダウン機構がまだ設定されていないために出力されるメッセージなので問題ありません。<br />
対処<br />
CF の設定後、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照し<br />
てシャットダウン機構を設定してください。<br />
Q1-7-2 ノードの起動処理が完了しない<br />
対処<br />
他のクラスタノードが運用中である場合、そのノード上で cftool –n を実行し、起動途中のノー<br />
ドの状態を確認してください。<br />
もし、LEFTCLUSTER であれば、cftool -k を実行して DOWN 状態にしてください。<br />
この現象が発生する場合、シャットダウン機構の設定が正しく行われていない可能性があります。<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照して SF の設定<br />
が正しく行われているかを確認してください。
Q1-7-3 ノードの再起動を行うと以下の clprobedisk のメッセージが表示される<br />
情報:clprobedisk:2927:ノード (NodeName)でディスク装置を新規に検出しました。<br />
原因<br />
対処<br />
1.7 再起動時のトラブル<br />
DVD-ROM ドライブに媒体を挿入したまま再起動しているため、DVD-ROM ドライブをディスクとし<br />
て認識し、メッセージを表示している可能性があります。<br />
DVD-ROM ドライブから媒体を取り出し、再起動を行ってください。<br />
Q1-7-4 以下のメッセージが表示されノードが起動しない<br />
WARNING: sfcfsrm: 5001 Starting the sfcfrmd daemon suspended because quorum does not<br />
exist<br />
説明<br />
対処<br />
本メッセージは、ノード起動時、または、マルチユーザモード遷移時に、クラスタ整合状態が保<br />
証されていないため、sfcfrmd デーモンの起動が保留されたことを示しています。sfcfrmd デー<br />
モンの起動方法を wait に設定している場合、ノードの起動が保留されます。通常は、クラスタ<br />
整合状態が保証されない状態は、すべての運用ノードが起動するまでの一時的な状態であり、ク<br />
ラスタ整合状態が保証され次第、sfcfrmd デーモンの起動の保留が解除され、ノードが起動する<br />
ため、対処は必要ありません。<br />
ただし、以下の場合は、クラスタ整合状態が保証されない状態が続くため対処が必要です。<br />
● クラスタパーティションが発生した。<br />
● クラスタを構成するすべてのノードを停止している状態から、一部のノードだけを起動し<br />
GFS の運用を行おうとした。<br />
"<strong>PRIMECLUSTER</strong> Global File Services 説明書" の "sfcfrmd デーモンが起動しない場合の対処"<br />
を参照してください。<br />
35
第1章 インストール・環境構築時のトラブル<br />
1.8 仮想マシン環境での環境構築時のトラブル<br />
36<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q1-8-1 仮想マシン環境でクラスタシステム構築中、ゲストOSの初期設定<br />
処理のvmSPinitコマンドで以下のメッセージが出力された<br />
vmSPinit:: initialize failed: time out<br />
- ○<br />
Q1-8-2 ゲストOSの初期設定に失敗した - ○<br />
Q1-8-1 仮想マシン環境でクラスタシステム構築中、ゲストOSの初期設定処理のvmSPinitコマ<br />
ンドで以下のメッセージが出力された<br />
vmSPinit:: initialize failed: time out<br />
原因<br />
クラスタシステムを構築するゲストOSに「サービス支援機能オプション(vmSP)」がインストール<br />
されていない可能性があります。<br />
または、管理OSまたはゲストドメインが高負荷の可能性があります。<br />
対処<br />
クラスタシステムを構築するゲストOSに「サービス支援機能オプション(vmSP)」をインストール<br />
してください。<br />
または、しばらく時間を置いてから再度実行してください。<br />
Q1-8-2 ゲストOSの初期設定に失敗した<br />
原因<br />
エラー原因の詳細は"PRIMEQUEST 仮想マシン機能ユーザーズマニュアル"を参照してください。<br />
対処<br />
ゲストOSの初期設定に失敗した場合、リカバリが必要となります。<br />
ゲストOSのリカバリは、その時点のゲストOSの状態によってリカバリ方法が異なります。<br />
リカバリ方法の詳細は"PRIMEQUEST 仮想マシン機能ユーザーズマニュアル"を参照してください。
第2章 クラスタアプリケーションのトラブル<br />
本章では、クラスタアプリケーションに関するトラブルの内容および対処方法を、以下の状況に<br />
分けて説明します。<br />
● クラスタアプリケーションの作成<br />
● クラスタアプリケーションの実行<br />
37
第2章 クラスタアプリケーションのトラブル<br />
2.1 クラスタアプリケーションの作成<br />
38<br />
userApplication Configuration Wizard(Solaris)または RMS Wizard Tools(Linux)で、ク<br />
ラスタアプリケーションの作成時に起こるトラブルの対処方法を説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q2-1-1 ファイルシステムのマウントポイントの設定時に、マウントポイ<br />
ントのリストが表示されない<br />
○ ○<br />
Q2-1-2 RMS Wizard Tools から Activate を実行すると、下記のメッセー<br />
ジが表示され Activate が失敗する<br />
The machine <br />
was found to be dead, not accessible (via cfsh/rsh), not<br />
properly installed, or not responding. If activation<br />
continues, the machine will be excluded from the next<br />
activation steps.<br />
Do you want to continue anyway [no]? Choose an action:<br />
- ○<br />
Q2-1-3 Configuration-Activate を実行してもコンフィグレーションに<br />
失敗する<br />
- ○<br />
Q2-1-4 Gds リソースを含むクラスタアプリケーションの構成変更時、コ<br />
ンソールにメッセージが出力される<br />
○ ○<br />
Q2-1-5 登録したプロシジャリソースの起動順序が設定できない ○ ○<br />
Q2-1-6 ホットスタンバイ運用の設定を行う Cmdline リソースを作成し<br />
たが、Standby 状態にならない<br />
○ ○<br />
Q2-1-7 Fsystem リソースを userApplication に登録して OS のリブー<br />
トを実施したが、エラーが発生しマウントされなかった<br />
○ ○<br />
Q2-1-8 userApplication Configuration Wizard からリソースを選択で<br />
きない<br />
○ -<br />
Q2-1-9 状態遷移プロシジャを登録する際、GUI にて [Resource の作成]<br />
の中の [プロシジャのリソースの選択] で、0896 のメッセージ<br />
が出力されリソースが作成できない<br />
○ -<br />
Q2-1-10 Cmdline リソースを登録する際に、「実行可能なファイルではあ<br />
りません。」というメッセージが出力されて、登録に失敗する<br />
○ -<br />
Q2-1-11 共用ディスクをクラスタリソースから削除し、マルチパスディス<br />
クを作成した。その後再度クラスタで使用するため、iompadm コ<br />
マンドでマルチパスを解除し、自動リソース登録を行うと、6905<br />
のエラーメッセージが出力された<br />
○ -<br />
Q2-1-12 Cmdline リソースの登録時にエラーが出力される ○ -<br />
Q2-1-13 自動リソース登録を実行すると 6911 番のエラーメッセージが<br />
出力される<br />
○ -<br />
Q2-1-14 2 ノード構成のクラスタにて、1 ノードの <strong>PRIMECLUSTER</strong> を再イ<br />
ンストールし、自動リソース登録を行ったところ 0769 番のエ<br />
ラーメッセージが出力された<br />
○ -<br />
Q2-1-15 userApplication Configuration Wizard か ら 任 意 の<br />
userApplication を作成した後、hvw コマンドにて Wizard for<br />
NAS の userApplication を作成すると、userApplication<br />
Configuration Wizard から作成した任意の userApplication が<br />
表示されない<br />
○ -<br />
Q2-1-16 Global Disk Services 管理画面にて、共用ディスククラス構成<br />
設定を行ったが、"shared" オプションが選択できない<br />
○ ○
2.1 クラスタアプリケーションの作成<br />
No. 現象 Solaris Linux<br />
Q2-1-17 userApplication Configuration Wizard にて、プロセス監視リ<br />
ソース作成時に以下のエラーが表示され、リソース作成が続行で<br />
きない<br />
0859 指定されたファイルまたはディレクトリが見つかりま<br />
せん。<br />
Q2-1-18 Cmdline リソースの Check スクリプトに、常に exit 0 で終了<br />
するよう指定すると、Offline 時にリソース異常となる<br />
Q2-1-19 userApplication Configration Wizard で RMS 構成を作成し起<br />
動したところ、claddprocrsc コマンドで設定した起動優先度の<br />
順序でプロシジャリソースが起動しない<br />
Q2-1-20 userApplication Configuration Wizard から追加した Resource<br />
が Cluster Admin 画面に表示されない<br />
Q2-1-21 userApplication Configuration Wizard で Interstage のプロ<br />
シジャリソース作成時に、「プロシジャのクラス」画面でプロシ<br />
ジャクラス選択後「次へ」ボタンを押下すると 0896 番のエラー<br />
メッセージが出力される<br />
0896 Resource に設定できるプロシジャリソースの候補一覧<br />
を取得出来ませんでした。処理を終了します。<br />
Q2-1-22 userApplication Configuration Wizard でスケーラブルアプリ<br />
ケーションを作成したところ、0888 のエラーメッセージが出力<br />
され、その後、削除できないリソース ScalableCtrl_0 が表示さ<br />
れる<br />
Q2-1-23 userApplication 作成時に、作成済みのリソースが「利用可能な<br />
Resourse」に表示されない。<br />
○ -<br />
○ ○<br />
○ -<br />
○ -<br />
○ -<br />
○ -<br />
○ ○<br />
Q2-1-1 ファイルシステムのマウントポイントの設定時に、マウントポイントのリストが表示<br />
されない<br />
現象<br />
原因<br />
対処<br />
userApplication Configuration Wizard または RMS Wizard Tools でファイルシステムのマウ<br />
ンポイントの設定時に、マウントポイントのリストが表示されない。<br />
以下の原因が考えられます。<br />
1. /etc/vfstab (Solaris) あるいは /etc/fstab (Linux) に、#RMS# から始まるマウントポ<br />
イントの設定がない。<br />
2. /etc/vfstab (Solaris) あるいは /etc/fstab (Linux) の、#RMS# から始まるマウントポ<br />
イントの設定が、クラスタシステムのノード間で異なっている。<br />
1. に対する対処<br />
/etc/vfstab (Solaris) あるいは /etc/fstab (Linux) に、使用するマウントポイントを<br />
定義しておく必要があります。行の先頭は、必ず #RMS# で始まるようにしてください。<br />
例 : /etc/vfstab (Solaris)<br />
#RMS#/dev/sfdsk/class0001/dsk/volume0001 /dev/sfdsk/class0001/rdsk/volume0001<br />
/disk1 sfxfs - no -<br />
39
第2章 クラスタアプリケーションのトラブル<br />
40<br />
例: /etc/fstab (Linux)<br />
#RMS#/dev/sdd1 /mnt/swdsk1 ext3 defaults 1 2<br />
2. に対する対処<br />
#RMS# から始まるマウントポイントの設定が、クラスタシステムのノード間で同一になる<br />
ように修正してください。<br />
Q2-1-2 RMS Wizard Tools から Activate を実行すると、下記のメッセージが表示され<br />
Activate が失敗する<br />
The machine was found to be dead, not accessible (via cfsh/rsh), not properly<br />
installed, or not responding. If activation continues, the machine will be excluded<br />
from the next activation steps.<br />
Do you want to continue anyway [no]? Choose an action:<br />
原因<br />
cfregd (CF を構成するプロセス)が異常終了している可能性があります。<br />
対処<br />
クラスタシステム構成する各ノードで、ps(1) コマンド等を使用し cfregd プロセスが起動して<br />
いるか確認してください。<br />
cfregd プロセスが起動していないノードが1つでも存在する場合、クラスタシステムを構成す<br />
るすべてのノードで CF を再起動してください。<br />
Q2-1-3 Configuration-Activate を実行してもコンフィグレーションに失敗する<br />
現象<br />
対処<br />
RMS Wizard Tools のウィザードメニューで Configuration-Activate を実行しても以下メッ<br />
セージが出力されてコンフィグレーションに失敗する。<br />
The current configuration could not be saved.<br />
The current configuration could not be restored on all machines.<br />
Please care for this manually prior to start RMS.<br />
The activation was not done.<br />
両ノードの /etc/default/cluster.config に 以下の記述を行った後、再度<br />
Configuration-Activate を実行してください。<br />
CFCP “cfcp”<br />
CFSH “cfsh”
2.1 クラスタアプリケーションの作成<br />
Q2-1-4 Gds リソースを含むクラスタアプリケーションの構成変更時、コンソールにメッセー<br />
ジが出力される<br />
現象<br />
対処<br />
Gds リソースを含むクラスタアプリケーションの構成変更時に以下のいずれかのメッセージが<br />
コンソールに出力される。<br />
FJSVcluster: エラー: clrmd: 7516: リソースの非活性処理で異常が発生しました。<br />
(resource:resource rid:rid detail:301990007)<br />
または、<br />
FJSVcluster: ERROR: clrmd: 7516: An error occurred by the resource deactivation<br />
processing. (resource:resource rid:rid detail:301990007)<br />
対処の必要はありません。<br />
本メッセージが出力されるだけで動作に問題ありません。リソースの非活性処理は実行されます。<br />
Q2-1-5 登録したプロシジャリソースの起動順序が設定できない<br />
原因<br />
対処<br />
プロシジャリソースの起動停止に優先度を設定する必要があります。<br />
以下のマニュアルを参照して、優先度を設定してください。<br />
■Solaris<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.1.6.2 設定方法" に記載されている "Resource の関<br />
連付け"<br />
■Linux<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.3.6 プロシジャリソースの設定"<br />
Q2-1-6 ホットスタンバイ運用の設定を行う Cmdline リソースを作成したが、Standby 状態に<br />
ならない<br />
原因<br />
対処<br />
Cmdline リソースの STANDBYCAPABLE 属性または ALLEXITCODES 属性が有効になっていない可能<br />
性があります。<br />
Cmdline リソースの STANDBYCAPABLE 属性および ALLEXITCODES 属性を有効にしてください。詳<br />
細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書 (Solaris(TM)オペーレーティングシステム版)" の<br />
"6.6.1.1 Cmdline リソースの作成" または、"<strong>PRIMECLUSTER</strong> 導入運用手引書(Linux版)" の<br />
"6.7.3.1 Cmdline リソースの作成" を参照してください。<br />
41
第2章 クラスタアプリケーションのトラブル<br />
42<br />
Q2-1-7 Fsystem リソースを userApplication に登録して OS のリブートを実施したが、エ<br />
ラーが発生しマウントされなかった<br />
原因1<br />
対処1<br />
原因2<br />
対処2<br />
複数の userApplication に Fsystemリソースまたは Gds リソースを登録したが、/etc/vfstab<br />
(Solaris) または /etc/fstab (Linux) に誤りがあり、それぞれの userApplication のマウント<br />
ポイント同士が多段マウントになっている可能性があります。<br />
複数の userApplication のマウントポイントを多段マウントとして、関連性を持たせないでく<br />
ださい。<br />
マウントするファイルシステムに、GFS ローカルファイルシステムを使用しているが、各ノード<br />
で sfxnode コマンドを実行していない可能性があります。<br />
GFS ローカルファイルシステムを使用する場合、各ノードで sfxnode コマンドを実行してくだ<br />
さい。<br />
Q2-1-8 userApplication Configuration Wizard からリソースを選択できない<br />
原因<br />
対処<br />
リソースの作成で、リソースを作成していない可能性があります。<br />
リソースを作成し、再度 userApplication Configuration Wizard の設定を行ってください。<br />
Q2-1-9 状態遷移プロシジャを登録する際、GUI にて [Resource の作成] の中の [プロシジャ<br />
のリソースの選択] で、0896 のメッセージが出力されリソースが作成できない<br />
原因<br />
対処<br />
claddprocrsc コマンドでの設定内容が各ノード間で異なっている可能性があります。<br />
登録されたプロシジャを両ノードで削除した後、再登録してください。
2.1 クラスタアプリケーションの作成<br />
Q2-1-10 Cmdline リソースを登録する際に、「実行可能なファイルではありません。」という<br />
メッセージが出力されて、登録に失敗する<br />
原因<br />
対処<br />
Cmdline リソースのスクリプトに実行権がついていない可能性があります。<br />
Cmdline リソースのスクリプトに、両ノードで実行権をつけてください。<br />
Q2-1-11 共用ディスクをクラスタリソースから削除し、マルチパスディスクを作成した。そ<br />
の後再度クラスタで使用するため、iompadm コマンドでマルチパスを解除し、自動リソース登<br />
録を行うと、6905 のエラーメッセージが出力された<br />
原因<br />
対処<br />
複数のクラスタシステムから、同一の共有ディスクに対して自動リソース登録され、複数の DISK<br />
で同じ volumename になっているためです。<br />
複数のクラスタシステムから同一の共用ディスクのリソースを登録しないでください。<br />
Q2-1-12 Cmdline リソースの登録時にエラーが出力される<br />
原因<br />
対処<br />
Cmdline リソースとして登録するスクリプトをノードに配置せずに、Cmdline リソースの登録を<br />
行った可能性があります。<br />
Cmdline リソースとして登録するスクリプトをノードに配置してください。<br />
Q2-1-13 自動リソース登録を実行すると 6911 番のエラーメッセージが出力される<br />
原因<br />
対処<br />
/etc/name_to_major にて定義されている sfdsk ドライバの major 番号がクラスタを構成する<br />
ノード間で異なっている可能性があります。<br />
clrsvmajor コマンドにて sfdsk ドライバの major 番号の一致化を実施してください。<br />
クラスタシステムを構成するノードにおいて、機種(モデル)が混在している、または、各ノー<br />
ドにインストールされている OS 世代、パッケージ、パッチの構成が異なる、または、各ノード<br />
への OS、パッケージ、パッチの適用順番が異なる場合は、以下の手順で対処してください。<br />
43
第2章 クラスタアプリケーションのトラブル<br />
44<br />
1. 任意の 1 ノードで、以下のコマンドを実行し、現在の状態を確認します。<br />
この例では、sfdsk ドライバのメジャー番号が各ノードで異なっていることが確認できま<br />
す。<br />
# /etc/opt/FJSVcluster/bin/clrsvmajor<br />
ID NodeName Major sfdsk<br />
--------------------------------------<br />
0 coll2e00 reserve 259 OK<br />
0 coll2e00 real 259 OK<br />
--------------------------------------<br />
1 coll2e04 reserve 262 NG<br />
1 coll2e04 real 262 NG<br />
--------------------------------------<br />
NG<br />
2. 各ノードで /etc/name_to_major ファイルの内容からいずれのノードでも使用していな<br />
いメジャー番号を確認し、手順1.で確認したドライバに対して、全ノードでメジャー番号<br />
が一致するように、全ノードで次のコマンドを実行します。<br />
# /etc/opt/FJSVcluster/bin/clrsvmajor -M 263 sfdsk<br />
259<br />
↑前回の予約値<br />
3. 以下のコマンドを実行し、復帰コードが 0 になることを確認します。<br />
# /etc/opt/FJSVcluster/sys/clchkmajor<br />
# echo $?<br />
0<br />
手順 2.で、メジャー番号に 256 以上の値を設定した場合、以下の手順を引き続き実施し<br />
ます。255 以下の値を設定した場合は、ここで作業は完了です。<br />
4. 一旦、現状のまま自動リソース登録を実施し、"6903 論理パスの作成に失敗しました" の<br />
エラーを発生させます。<br />
5. 全ノードで以下のコマンドを実行します。<br />
# /etc/opt/FJSVcluster/bin/clsetacfparam -d none<br />
6. format コマンドを使用して、共用ディスク装置に識別情報(vtoc の volname フィール<br />
ドの文字列)を設定します。問題発生時には、異なるディスク装置 (LUN) 間で識別情報<br />
が重複しているため、異なる文字列を再設定してください。<br />
注)<br />
― 識別情報の設定は、いずれか 1 ノードから作業すること<br />
― マルチパスディスクの場合、いずれか 1 つのパスに対してのみ設定すること<br />
[設定例]<br />
以下は、c3t4d0~c3t4d7とc4t14d0~c4t14d7 のマルチパス環境での例です。<br />
----------------------------------------------------------------------------<br />
# format<br />
Searching for disks...done
2.1 クラスタアプリケーションの作成<br />
AVAILABLE DISK SELECTIONS:<br />
0. c1t0d0 00760001<br />
/pci@9,600000/SUNW,qlc@2/fp@0,0/ssd@w21000004cffd010d,0<br />
1. c1t1d0 00760000<br />
/pci@9,600000/SUNW,qlc@2/fp@0,0/ssd@w21000004cffd036c,0<br />
2. c3t4d0 00107000<br />
~~~~~~~~*<br />
* 識別情報が、c3t4t0~c3t4d7 で同じ値。<br />
/pci@8,600000/fibre-channel@1/hddv@4,0<br />
3. c3t4d1 00107000<br />
/pci@8,600000/fibre-channel@1/hddv@4,1 ~~~~~~~~*<br />
~ 省略 ~<br />
17. c4t14d7 000107000<br />
/pci@8,600000/fibre-channel@2/hddv@e,7 ~~~~~~~~~*<br />
Specify disk (enter its number): 2 * 2 を選択<br />
selecting c3t4d0: 00107000<br />
[disk formatted]<br />
~ 省略 ~<br />
format> volname * 識別情報を 00107000 から、00107001 に書き換える *<br />
Enter 8-character volume name (remember quotes)[""00107000""]:00107001<br />
~~~~~~~~~~~~~~~~~~~~*<br />
Ready to label disk, continue? y<br />
format> disk 3<br />
selecting c3t4d1: 00107000<br />
[disk formatted]<br />
format> volname * 識別情報を 00107000 から、00107002 に書き換える *<br />
Enter 8-character volume name (remember quotes)[""00107000""]:00107002<br />
~~~~~~~~~~~~~~~~~~~~*<br />
Ready to label disk, continue? y<br />
~ 省略 ~<br />
----------------------------------------------------------------------------<br />
7. 任意の 1 ノードで clautoconfig コマンドを実行します。<br />
8. 以下のコマンドを実行し、設定を元に戻します。<br />
# /etc/opt/FJSVcluster/bin/clsetacfparam -d auto<br />
# /etc/opt/FJSVcluster/bin/clsetacfparam -d<br />
auto<br />
Q2-1-14 2 ノード構成のクラスタにて、1 ノードの <strong>PRIMECLUSTER</strong> を再インストールし、自動<br />
リソース登録を行ったところ 0769 番のエラーメッセージが出力された<br />
原因<br />
対処<br />
一部のノードにのみ、<strong>PRIMECLUSTER</strong> の再インストールを行ったためです。<br />
すべてのノードで <strong>PRIMECLUSTER</strong> の再インストールを行ってください。<br />
45
第2章 クラスタアプリケーションのトラブル<br />
46<br />
Q2-1-15 userApplication Configuration Wizard から任意の userApplication を作成した<br />
後、hvw コマンドにて Wizard for NAS の userApplication を作成すると、userApplication<br />
Configuration Wizard から作成した任意の userApplication が表示されない<br />
原因<br />
対処<br />
userApplication Configuration Wizard か ら userApplication を 作 成 し た 場 合 、 RMS<br />
Configuration 名は "config"(変更可) が使用されます。<br />
hvw コマンドで Wizard for NAS の userApplication を登録する際に、userApplication<br />
Configuration Wizard で使用している定義名:RMSConfiguration 名を指定していない場合、新た<br />
な環境が構築されます。<br />
そのため、クラスタの構成情報を確認すると新たな RMS Configuration ファイルが使用されるの<br />
で、Wizard for NAS の userApplicaton のみが表示され、userApplication Configuration Wizard<br />
から作成した userApplication が表示されなくなります。<br />
userApplication Configuration Wizard で "config"(変更可) が使用されている場合、hvw コ<br />
マンドで指定する定義名は "config" を指定してください。<br />
userApplication Configuration Wizard で使用する RMS Configuration 名を変更する場合は、<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.6 RMS Configuration 名の変更" を参照してください。<br />
Q2-1-16 Global Disk Services 管理画面にて、共用ディスククラス構成設定を行ったが、<br />
"shared" オプションが選択できない<br />
原因1<br />
対処1<br />
原因2<br />
対処2<br />
原因3<br />
対処3<br />
該当のディスクがクラスタリソース管理機構の共用リソースに登録されていないためと考えられ<br />
ます。<br />
自動リソース登録を実施してください。<br />
クラスタリソース管理機構が動作していないためと考えられます。<br />
/var/adm/messages または /var/log/messages にクラスタリソース管理機構のメッセージが出<br />
力されています。出力されたメッセージの対処に従ってください。<br />
片側ノードにおいて、共用ディスクが物理的に正しく認識できていない可能性があります。<br />
当社技術員 (CE) により結線を直し、ディスクを正しく認識させてください。
2.1 クラスタアプリケーションの作成<br />
ディスクが両ノードから同じように見えているか、format コマンドにより確認を行ってくださ<br />
い。<br />
Q2-1-17 userApplication Configuration Wizard にて、プロセス監視リソース作成時に以下<br />
のエラーが表示され、リソース作成が続行できない<br />
0859 指定されたファイルまたはディレクトリが見つかりません<br />
原因<br />
対処<br />
プロセス監視リソース作成時に指定する起動/停止コマンドで使用するコマンドが、フルパスで指<br />
定されていない可能性があります。<br />
プロセス監視リソース作成時に指定する起動/停止コマンドで使用するコマンドをフルパスで指<br />
定してください。<br />
Q2-1-18 Cmdline リソースの Check スクリプトに、常に exit 0 で終了するよう指定すると、<br />
Offline 時にリソース異常となる<br />
原因<br />
対処<br />
Check スクリプトは、Cmdline リソースから起動するユーザアプリケーションの状態を正しく<br />
チェックできる内容のスクリプトである必要があります。常に exit 0 で終了する場合リソース<br />
異常となります。<br />
Check スクリプトを見直してください。Check スクリプトの設定方法の詳細は、"<strong>PRIMECLUSTER</strong><br />
活用ガイド" の "3.2 スクリプト作成時の注意事項" を参照<br />
してください。<br />
Q2-1-19 userApplication Configration Wizard で RMS 構成を作成し起動したところ、<br />
claddprocrsc コマンドで設定した起動優先度の順序でプロシジャリソースが起動しない<br />
原因<br />
対処<br />
Web-Based Admin View クライアント (Web ブラウザ) を起動した状態で、claddprocrsc コマン<br />
ドを使用しプロシジャリソースの登録を行ったため、userApplication Configuration Wizard が<br />
持つプロシジャリソースの情報が更新されていない状態でアプリケーションを作成した可能性が<br />
あります。<br />
以下の対処を実施してください。<br />
1. Web-Based Admin View クライアントが起動している Web ブラウザ (IE, Netscape 等)<br />
を終了します。<br />
2. Web ブラウザを起動します。<br />
47
第2章 クラスタアプリケーションのトラブル<br />
48<br />
3. Web-Based Admin View を起動します。<br />
4. userApplication Configuration Wizard を起動します。<br />
5. アプリケーションを削除します。<br />
なお削除はアプリケーションのみで、配下のリソースを削除する必要はありません。<br />
6. 削除したアプリケーションを再度作成します。<br />
Q2-1-20 userApplication Configuration Wizard から追加した Resource が Cluster Admin<br />
画面に表示されない<br />
原因<br />
対処<br />
userApplication の構成変更において、追加した Resource が userApplication に属していませ<br />
ん。<br />
userApplication に属さない Resource が存在する場合、RMS は元の構成情報で起動するため、<br />
追加した Resource が Cluster Admin 画面に表示(反映)されません。<br />
確認方法<br />
作成したすべての Resource を userApplication に登録してください。<br />
userApplication Configuration Wizard を起動して、config のアイコンが赤色になっていない<br />
か確認してください。config のアイコンが赤色になっている場合、RMS 構成情報が矛盾してい<br />
ることを意味します。<br />
Q2-1-21 userApplication Configuration Wizard で Interstage のプロシジャリソース作成<br />
時に、「プロシジャのクラス」画面でプロシジャクラス選択後「次へ」ボタンを押下すると 0896<br />
番のエラーメッセージが出力される<br />
0896 Resource に設定できるプロシジャリソースの候補一覧を取得出来ませんでした。処理を<br />
終了します<br />
原因<br />
対処<br />
clsetproc コマンドでの状態遷移プロシジャの登録、及び、claddprocrsc コマンドでのアプリ<br />
ケーションリソースの登録が、状態遷移プロシジャを実行する全てのノードにおいて行なわれて<br />
いないため。<br />
clsetproc コマンドでの状態遷移プロシジャの登録、及び、claddprocrsc コマンドでのアプリ<br />
ケーションリソースの登録は、状態遷移プロシジャを実行する全てのノードにおいて実行してく<br />
ださい。<br />
確認方法<br />
/etc/opt/FJSVcluster/bin/clgettree コマンドを実行し、プロシジャリソースが一部のノード<br />
にのみ登録されている場合(★部分)は本現象と判断できます。<br />
# /etc/opt/FJSVcluster/bin/clgettree
2.1 クラスタアプリケーションの作成<br />
Cluster 1 SKFTN_CLUSTER<br />
Domain 2 SKFTN_CLUSTER<br />
(省略)<br />
Node 3 skftn101 ON<br />
SDX_DC 52 ClassFtn OFF-STOP<br />
SDX_DC 55 ClassLog OFF-STOP<br />
SDX_DC 58 ClassClu OFF-STOP<br />
Ethernet 41 fjgi0 UNKNOWN<br />
Ethernet 42 fjqe1 UNKNOWN<br />
IP_Address 60 fjqe1:1 UNKNOWN<br />
Ethernet 43 fjqe2 UNKNOWN<br />
IP_Address 63 fjqe2:1 UNKNOWN<br />
SDX_DC 49 RootClass01 UNKNOWN<br />
BasicApplication 102 SYSTEMWALKEROM OFF-STOP<br />
SystemState3 116 Linkexpress OFF-STOP<br />
BasicApplication 118 IS_INTERSTAGE UNKNOWN<br />
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<br />
★IS_INTERSTAGE のリソースが skftn101 ノードしか無い。<br />
DISK 19 c0t0d0 UNKNOWN<br />
DISK 20 c1t0d0 UNKNOWN<br />
DISK 22 c3t16d0 UNKNOWN<br />
DISK 24 c3t16d2 UNKNOWN<br />
DISK 26 c3t16d3 UNKNOWN<br />
DISK 28 c3t16d14 UNKNOWN<br />
DISK 30 c3t16d16 UNKNOWN<br />
DISK 32 c3t16d17 UNKNOWN<br />
Node 5 skftn201 ON<br />
SDX_DC 53 ClassFtn ON<br />
SDX_DC 56 ClassLog ON<br />
SDX_DC 59 ClassClu ON<br />
Ethernet 44 fjgi0 UNKNOWN<br />
Ethernet 45 fjqe1 UNKNOWN<br />
IP_Address 61 fjqe1:1 UNKNOWN<br />
Ethernet 46 fjqe2 UNKNOWN<br />
IP_Address 64 fjqe2:1 UNKNOWN<br />
SDX_DC 50 RootClass02 UNKNOWN<br />
BasicApplication 103 SYSTEMWALKEROM ON<br />
SystemState3 117 Linkexpress ON<br />
DISK 33 c0t0d0 UNKNOWN<br />
DISK 34 c1t0d0 UNKNOWN<br />
DISK 35 c3t16d0 UNKNOWN<br />
DISK 36 c3t16d2 UNKNOWN<br />
DISK 37 c3t16d3 UNKNOWN<br />
DISK 38 c3t16d14 UNKNOWN<br />
DISK 39 c3t16d16 UNKNOWN<br />
DISK 40 c3t16d17 UNKNOWN<br />
Q2-1-22 userApplication Configuration Wizard でスケーラブルアプリケーションを作成し<br />
たところ、0888 のエラーメッセージが出力され、その後、削除できないリソース<br />
49
第2章 クラスタアプリケーションのトラブル<br />
50<br />
ScalableCtrl_0 が表示される<br />
原因<br />
対処<br />
<strong>PRIMECLUSTER</strong> の予約語をアプリケーション名やリソース名やに指定し、スケーラブルアプリケー<br />
ションを作成している可能性があります。<br />
<strong>PRIMECLUSTER</strong>の予約語をアプリケーション名に指定し、スケーラブルアプリケーションを作成し<br />
ないでください。<strong>PRIMECLUSTER</strong>の予約語については、”<strong>PRIMECLUSTER</strong> 活用ガイド”の”2.1.2 設定時の注意点”を参照してください。<br />
削除できないリソース ScalableCtrl_0は以下の手順で削除してください。<br />
1. userApplication Configuration Wizard が使用する RMS 構成名を確認します。<br />
以下のコマンドを実行してください。<br />
# /etc/opt/FJSVwvucw/bin/wgcnfclient -g config-name<br />
実行の結果、何も出力されない場合は "config" が RMS 構成名となります。<br />
出力があった場合は、出力された名前が RMS 構成名となります。<br />
例:何も出力されない場合<br />
# /etc/opt/FJSVwvucw/bin/wgcnfclient -g config-name<br />
#<br />
例:出力がある場合<br />
# /etc/opt/FJSVwvucw/bin/wgcnfclient -g config-name<br />
config2<br />
#<br />
2. 全ノードで、ScalableCtrl_0 を削除します。<br />
例:<br />
# rm /opt/SMAW/SMAWRrms/build/wizard.d//ScalableCtrl_0.m<br />
3. userApplication Configuration Wizard 画面左側のツリービュー左上に表示された、RMS<br />
構成名アイコンを右クリックし、「RMS 構成情報の生成」を選択します。<br />
Q2-1-23 userApplication 作成時に、作成済みのリソースが「利用可能な Resourse」に表示<br />
されない<br />
原因<br />
userApplication Configuration Wizard が使用する一時ファイルと同名のファイルが既に存在し<br />
ている可能性があります。<br />
以下のファイルが存在するか確認してください。<br />
/tmp/hostcheck<br />
/tmp/sdxinfo<br />
/tmp/work
対処<br />
/tmp/workc<br />
/tmp/workn<br />
/tmp/macaddr<br />
/tmp/wgcnf000.tmp<br />
/tmp/wgcnf001.tmp<br />
/tmp/wgcnf002.tmp<br />
/tmp/wgcnf003.tmp<br />
該当のファイルが存在する場合、削除してください。<br />
2.1 クラスタアプリケーションの作成<br />
51
第2章 クラスタアプリケーションのトラブル<br />
2.2 クラスタアプリケーションの実行<br />
52<br />
クラスタアプリケーション実行時のトラブルについて対処法を説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q2-2-1 クラスタアプリケーションがフェイルオーバするが、原因が<br />
わからない<br />
○ ○<br />
Q2-2-2 引継ぎネットワークリソースを使用するクラスタアプリ<br />
ケーションが Online にならない<br />
○ -<br />
Q2-2-3 リソースの異常発生時、または、ノードの停止時に、クラス<br />
タアプリケーションが他ノードにフェイルオーバしない<br />
○ ○<br />
Q2-2-4 ノードを起動してもクラスタアプリケーションが Online<br />
にならない<br />
○ ○<br />
Q2-2-5 Oracle RAC のクラスタアプリケーションが、RMS 起動時に<br />
正常に動作しない<br />
○ ○<br />
Q2-2-6 hvenv.local ファイルを変更後、RMS が起動できなくなった ○ ○<br />
Q2-2-7 RMS のメッセージが syslog に出力される ○ ○<br />
Q2-2-8 StandbyTransitions 属性に StartUp が設定されていない<br />
クラスタアプリケーションが、RMS の起動時に Standby 状<br />
態に遷移した<br />
○ ○<br />
Q2-2-9 一定時間内にクラスタアプリケーションが Offline になら<br />
ない場合、shutdown により自動フェイルオーバしない<br />
○ ○<br />
Q2-2-10 クラスタアプリケーションを構成するすべてのノードで<br />
RMS が起動しないと、クラスタアプリケーションが自動起動<br />
しない<br />
○ ○<br />
Q2-2-11 クラスタアプリケーションが Faulted 状態になり、切替え<br />
が失敗する<br />
○ ○<br />
Q2-2-12 クラスタアプリケーションが Online-Standby にならず、<br />
Online-Offline になる<br />
○ ○<br />
Q2-2-13 クラスタアプリケーションの状態が Inconsistent になる ○ ○<br />
Q2-2-14 移動待機構成においてクラスタアプリケーションの切替え<br />
が発生した場合、切替えが発生したアプリ以外の待機が<br />
Offline となる<br />
○ ○<br />
Q2-2-15 クラスタアプリケーション停止時に、切替えが発生しない ○ ○<br />
Q2-2-16 プロシジャリソースに登録しているアプリケーションのプ<br />
ロセスを強制停止させても、プロセスが再起動しない(状態<br />
遷移も行われない)<br />
○ ○<br />
Q2-2-17 プロセス監視リソースを定義したクラスタアプリケーショ<br />
ンを起動したところ、コンソールに 2207 番のメッセージが<br />
表示され、Faulted 状態になった<br />
○ -<br />
Q2-2-18 ク ラ ス タ ア プ リ ケ ー シ ョ ン の AutoSwitchOver 属 性 に<br />
"ShutDown" を設定しているにもかかわらず、ノードを<br />
シャットダウンさせてもクラスタアプリケーションのフェ<br />
イルオーバが行われない<br />
○ ○<br />
Q2-2-19 Fsystem リソースのリソース故障が発生しましたという<br />
メッセージが出力され、クラスタアプリケーションがフェイ<br />
ルオーバしたが原因がわからない<br />
○ ○<br />
Q2-2-20 Fsystem リソースが故障となりフェイルオーバした際に、切<br />
替え先でもリソース故障が発生する<br />
○ ○
2.2 クラスタアプリケーションの実行<br />
No. 現象 Solaris Linux<br />
Q2-2-21 両ノードを再起動した際、本来は運用系ノードで Online 状<br />
態になるクラスタアプリケーションが、待機系ノードで<br />
Online 状態になった<br />
○ ○<br />
Q2-2-22 Cmdline リソースの状態が Standby にならない ○ ○<br />
Q2-2-23 Cmdline リソースを設定したクラスタアプリケーションの<br />
起動に失敗する<br />
○ ○<br />
Q2-2-24 userApplication に AutoSwitchOver 属性を設定している<br />
にも関わらず、切替えが実行されない<br />
○ ○<br />
Q2-2-25 2:1運用待機のクラスタ構成で、Oracle と ListManagerを<br />
別々のクラスタアプリケーションで起動させたときに、<br />
Oracle の起動が完了する前に ListManager の起動が開始<br />
し、Oracle への接続エラーとなり起動に失敗する<br />
○ -<br />
Q2-2-26 ファイルシステムのマウントに失敗し、クラスタアプリケー<br />
ションが起動できない<br />
○ -<br />
Q2-2-27 クラスタ環境を NFS サーバとして使用し、NFS クライアン<br />
トから NFS マウントを行っているまま userApplication<br />
を待機系へ切替えた後、NFS クライアントで NFS マウント<br />
が正しく行われない<br />
○ -<br />
Q2-2-28 Oracle リソースに異常が発生し、クラスタアプリケーショ<br />
ンが Faulted 状態になる<br />
○ ○<br />
Q2-2-29 クラスタアプリケーションが両ノードで Faulted 状態とな<br />
る<br />
○ -<br />
Q2-2-30 共用ディスクを追加し、Fsystem リソースのマウントポイン<br />
トに追加後、クラスタアプリケーションが起動できない<br />
○ ○<br />
Q2-2-31 Fsystem リソースの Online 処理が失敗する ○ ○<br />
Q2-2-32 クラスタに登録されているアプリケーションを起動すると、<br />
アプリケーション起動時に設定している環境変数LANG=jaが<br />
有効にならない<br />
○ ○<br />
Q2-2-1 クラスタアプリケーションがフェイルオーバするが、原因がわからない<br />
原因<br />
対処<br />
運用中に意図的に停止するようなプロセスを check スクリプトで監視すると、プロセスが終了<br />
した場合にフェイルオーバが発生します。<br />
check スクリプトで監視しているプロセスは、クラスタフアプリケーションの offline 処理で<br />
停止してください。<br />
確認事項<br />
フェイルオーバが発生した場合、原因となったリソースに関係するログファイルを確認してくだ<br />
さい。<br />
ログファイルの参照方法については、"第9章 RMS に関するトラブル情報の収集" を参照してく<br />
ださい。<br />
Cmdline リソースの場合、check スクリプトで監視しているプロセスが異常終了した原因を確認<br />
し、そのプロシジャが正常に動作するかプログラムの見直しを行ってください。プロセス監視リ<br />
ソースに障害が発生した場合は、監視しているプログラムが異常終了した原因を確認してくださ<br />
い。Gds リソース、Gls リソースに障害が発生した場合は、それぞれの機能のマニュアルを参照<br />
53
第2章 クラスタアプリケーションのトラブル<br />
54<br />
してエラーの原因を確認してください。<br />
なお、フェイルオーバにより、待機ノードが運用となり、業務が継続して運用可能な状態であれ<br />
ば、<strong>PRIMECLUSTER</strong> としては正常動作です。<br />
Q2-2-2 引継ぎネットワークリソースを使用するクラスタアプリケーションが、Online にな<br />
らない<br />
現象<br />
原因<br />
引継ぎネットワークリソースを使用するクラスタアプリケーションを構築したが、クラスタアプ<br />
リケーション を起動すると、IP アドレスの Online 処理に失敗して Online にならない。この<br />
とき switchlog には以下のメッセージが出力されていた。<br />
ERROR: There is no interface interface in /usr/opt/reliant/etc/hvipalias, aborting<br />
startup.: ====<br />
(SCR, 9): ERROR: FAULT REASON: failed to execute script with resource<br />
: Exited with a non-zero code: 1<br />
/opt/SMAW/SMAWRrms/etc/hvipalias ファイルに引継ぎネットワークリソースに使用するインタ<br />
フェースが登録されていない可能性が考えられます。<br />
"<strong>PRIMECLUSTER</strong> RMS 導入運用手引書" を参照して hvipalias ファイルに使用するインタフェー<br />
スを登録してください。<br />
Q2-2-3 リソースの異常発生時、または、ノードの停止時に、クラスタアプリケーションが他<br />
ノードにフェイルオーバしない<br />
原因<br />
クラスタアプリケーションの AutoSwitchOver 属性に適切な値が設定されていないことが原因で<br />
す。<br />
対処<br />
userApplication Configuration Wizard または RMS Wizard Tool を使用して該当のクラスタア<br />
プリケーション に適切な AutoSwitchOver 属性を設定してください。AutoSwitchOver 属性の詳<br />
細については、以下のマニュアルを参照してください。<br />
■Solaris<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.5 属性の説明"<br />
■Linux<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.5 属性の説明"<br />
Q2-2-4 ノードを起動してもクラスタアプリケーションが Online にならない<br />
原因<br />
RMS 環境変数 HV_RCSTART が 0 に設定されている、または、クラスタアプリケーションの<br />
AutoStartUp 属性が Yes に設定されていない可能性があります。
2.2 クラスタアプリケーションの実行<br />
対処<br />
ノード起動時に RMS を自動起動させるために、/opt/SMAW/SMAWRrms/bin/hvenv.local ファイル<br />
に export HV_RCSTART=1 を設定するか、HV_RCSTART の設定を削除します。<br />
また、RMS 起動時に、クラスタアプリケーションが自動的に online にさせるために、<br />
userApplication Configuration Wizard または RMS Wizard Tool を使用してクラスタアプリケー<br />
ションの AutoStartUp 属性を Yes に設定します。<br />
ノード起動時にクラスタアプリケーションを自動的に起動する場合には、上記の両方を設定して<br />
ください。<br />
Q2-2-5 Oracle RAC のクラスタアプリケーションが、RMS 起動時に正常に動作しない<br />
現象<br />
原因<br />
Oracle RAC のクラスタアプリケーションにおいて、RMS を起動すると AutoStartUp 属性が No<br />
にもかかわらず、その subApplication が Online になった。一方クラスタアプリケーションは<br />
Online にはならず、Inconsistent となった。<br />
RMS を起動する前に、RAC を Oracle のコマンドを使用して直接起動していたことが原因です。<br />
Oracle を起動する場合は、必ず RMS のコマンド (hvswitch(1M)) を使用してください。<br />
Q2-2-6 hvenv.local ファイルを変更後、RMS が起動できなくなった<br />
現象<br />
原因<br />
hvenv.local ファイルを変更後、RMS が起動できなくなった。このとき switchlog に以下のメッ<br />
セージが出力されていた。<br />
(ADC, 3): ERROR: Remote host reported the checksum (X) which is different from<br />
the local checksum (Y).<br />
原因として以下の可能性が考えられます。<br />
● RMS のグローバル環境変数の設定がノード間で異なる。<br />
● hvenv.local を修正した後、すべてのノードで RMS を再起動していない。<br />
● 異なる RMS 構成情報を指定して RMS を実行している。<br />
対処<br />
すべてのノードの hvenv.local ファイルに記載されている RMS グローバル環境変数の設定が同<br />
じかどうかを確認し、すべてのノードで RMS を再起動してください。その際、同一の RMS 構成<br />
情報を指定してください。<br />
55
第2章 クラスタアプリケーションのトラブル<br />
56<br />
Q2-2-7 RMS のメッセージが syslog に出力される<br />
(WRP, 28): ERROR: RMS monitor has encountered an irregular sequence of timer interrupts,<br />
off by _OFFSET_ seconds.<br />
原因<br />
NTP による時刻同期が異常になっていることが考えられます。<br />
対処<br />
RMS は、タイマ割込みが毎秒発生することをチェックしています。時刻変更によりタイマの割込<br />
み間隔が不規則になると、本メッセージが出力されることがあります。NTP の設定を見直してく<br />
ださい。<br />
Q2-2-8 StandbyTransitions 属性に StartUp が設定されていないクラスタアプリケーション<br />
が、RMS の起動時に Standby 状態に遷移した<br />
原因<br />
クラスタアプリケーションの StandbyTransitions 属性に StartUp が設定されていない場合に<br />
も、AutoStarUp 属性が Yes に設定されている場合は、RMS 起動時にクラスタアプリケーション<br />
が Standby 状態に遷移します。<br />
対処<br />
Cluster Admin の RMS メインウィンドウから [Offline (hvutil -f)] を実行するか、hvutil(1M)<br />
コマンドを-f オプションで実行して、Standby 状態に遷移したアプリケーションを Offline 状<br />
態にしてください。<br />
Q2-2-9 一定時間内にクラスタアプリケーションが Offline にならない場合、shutdown によ<br />
り自動フェイルオーバしない<br />
原因<br />
shutdown に よ る 自 動 フ ェ イ ル オ ー バ を し な い 原 因 と し て は 、 RMS の 環境変数<br />
RELIANT_SHUT_MIN_WAIT の値が少ないことが考えられます。クラスタアプリケーションの<br />
Offline 処 理が正常に終了するのに必要な時間を見積もり、RMS 環境変数<br />
RELIANT_SHUT_MIN_WAIT に設定してください。<br />
対処<br />
クラスタアプリケーションの AutoSwitchOver 属性に Shutdown を定義することで、クラスタア<br />
プリケーションはshutdown を契機にフェイルオーバします。しかし、RMS の環境変数<br />
RELIANT_SHUT_MIN_WAIT の値(デフォルト 150 秒)以内にクラスタアプリケーションが Offline<br />
状態にならない場合は、RMS の強制停止処理が実行され、shutdown はするものの、クラスタアプ<br />
リケーションは自動フェイルオーバしません。この場合、以下のように、hvshut コマンドがタイ<br />
ムアウトしたため RMS を強制停止する旨のメッセージが /var/adm/messages(Solaris)、あるい<br />
は /var/log/messages(Linux) に出力されます。<br />
[/var/adm/messages] または [/var/log/messages]
scfreport shutdown was executed.<br />
(SWT, 42): NOTICE: hvshut -l has been invoked on host fuji2RMS.<br />
2.2 クラスタアプリケーションの実行<br />
(ADM, 103): NOTICE: app1: Shutdown in progress. AutoSwitchOver (ShutDown) attribute is set, invoking<br />
a switchover to next priority host<br />
(US, 18): NOTICE: app1: starting Offline processing.<br />
(ADC, 51): WARNING: hvshut utility has timed out.<br />
(ADC, 52): NOTICE: Waiting for application to finish its before shutdown.<br />
(ADM, 101): NOTICE: Processing forced shutdown request for node fuji2RMS.<br />
(BM, 48): NOTICE: RMS monitor has been normally shut down.<br />
クラスタアプリケーションの Offline 処理が正常に終了するのに必要な時間を見積もり、RMS 環<br />
境変数 RELIANT_SHUT_MIN_WAIT に設定してください。<br />
Q2-2-10 クラスタアプリケーションを構成するすべてのノードでRMSが起動しないと、クラス<br />
タアプリケーションが自動起動しない<br />
原因<br />
クラスタアプリケーションの AutoStartUp 属性に1を定義することで、クラスタアプリケーショ<br />
ンは RMS の起動を契機に自動起動します。しかし、クラスタアプリケーションを構成するすべ<br />
てのノードで RMS が起動しないと、クラスタアプリケーションは自動起動しません。RMS の<br />
HV_AUTOSTART_WAIT 環境変数の値(デフォルト 60 秒)以内にクラスタアプリケーションを構成<br />
す る す べ て の ノ ー ド の RMS が 起 動 し な い と 、 /var/adm/messages(Solaris)、あるいは<br />
/var/log/messages(Linux) に以下の警告メッセージが出力されます。<br />
[/var/adm/messages] または [/var/log/messages]<br />
(SWT, 27): NOTICE: Cluster host is not yet online for application .<br />
(SWT, 1): WARNING: The 'AutoStartUp' attribute is set and the HV_AUTOSTART_WAIT time for the user<br />
application has expired, without an automatic start up having yet taken place. Reason: not<br />
all necessary cluster hosts are online!<br />
本メッセージが出力された後もクラスタアプリケーションを構成するすべてのノードで RMS の<br />
起動の待合せ処理は継続されます。残りのノードで RMS が起動した時点で、クラスタアプリケー<br />
ションは自動起動します。<br />
保守のために、ノードを一時的にクラスタから除外する必要がある場合は、RMS の<br />
HV_AUTOSTARTUP_IGNORE 環境変数に、クラスタから除外するノードをリストアップしてください。<br />
これにより、リストアップされているノードでの RMS の起動を待ち合わせることなくクラスタ<br />
アプリケーションを自動起動することができます。<br />
Q2-2-11 クラスタアプリケーションが Faulted 状態になり、切替えが失敗する<br />
原因<br />
対処<br />
クラスタノードの他に、GLS 高速切替方式を使用している通信相手ノードが存在しない可能性が<br />
あります。<br />
GLS 高速切替方式を使用している場合、クラスタシステムで使用しているノード以外に、GLS 高<br />
速切替方式が設定されている通信相手ノードが別途必要です。<br />
57
第2章 クラスタアプリケーションのトラブル<br />
58<br />
詳細は、"<strong>PRIMECLUSTER</strong> GLS 説明書(伝送路二重化機能編)" の "5.1 クラスタシステムへの対応<br />
概要" に記載されている、注意事項を参照してください。<br />
通信相手ノードの設定については、"B.1.1 シングルシステムによる設定例" を参照してくださ<br />
い。<br />
確認事項<br />
GLS 高速切替方式を使用しているクラスタノードの他に、GLS 高速切替方式を使用している通信<br />
相手ノードがありますか?<br />
Q2-2-12 クラスタアプリケーションが Online-Standby にならず、Online-Offline になる<br />
原因1<br />
対処1<br />
RMS Wizard のクラスタアプリケーションのリソース設定にて、STANDBYCAPABLE が設定されてい<br />
ない可能性があります。<br />
クラスタアプリケーションを Online-Standby 運用する場合、STANDBYCAPABLE の設定が必要で<br />
す。<br />
■Solaris の場合<br />
Cmdline リソースを使用する場合、設定の詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.1.1<br />
Cmdlineリソースの設定" を参照してください。<br />
プロシジャリソースを使用する場合、設定の詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の<br />
"6.6.1.6 プロシジャリソースの設定" を参照してください。<br />
■Linuxの場合<br />
Cmdline リソースを使用する場合、設定の詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.3.1<br />
Cmdlineリソースの設定" を参照してください。<br />
プロシジャリソースを使用する場合、設定の詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の<br />
"6.7.3.6 プロシジャリソースの設定" を参照してください。<br />
確認事項1<br />
原因2<br />
対処2<br />
RMS Wizard のクラスタアプリケーションのリソース設定にて、STANDBYCAPABLE は設定されてい<br />
ますか?<br />
Cmdline のリソースの設定にて、ALLEXITCODES が設定されていない可能性があります。<br />
Cmdline リソースを使用したクラスタアプリケーションを Online-Standby 運用する場合、<br />
ALLEXITCODES の設定が必要です。<br />
■Solaris の場合<br />
設定の詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.1.1 Cmdlineリソースの設定" を参照し<br />
てください。<br />
■Linux の場合<br />
設定の詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.3.1 Cmdlineリソースの設定" を参照し<br />
てください。<br />
確認事項2<br />
Cmdline リソースを使用している場合、リソースの設定にて ALLEXITCODES は設定されています<br />
か?
原因3<br />
対処3<br />
2.2 クラスタアプリケーションの実行<br />
RMS Wizard のクラスタアプリケーションの設定にて、StandbyTransitions が設定されていない<br />
可能性があります。<br />
クラスタアプリケーションを Online-Standby 運用する場合、StandbyTransitions の設定が必<br />
要です。詳細については以下を参照してください。<br />
■Solaris の場合<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.2.1 スタンバイ運用のクラスタアプリケーション作<br />
成"<br />
■Linux の場合<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.2.1 スタンバイ運用のクラスタアプリケーション作<br />
成"<br />
確認事項3<br />
原因4<br />
対処4<br />
RMS Wizard のクラスタアプリケーションの設定にて、StandbyTransitions は設定されています<br />
か?<br />
2 ノードの相互待機構成で業務優先度を設定している場合、クラスタアプリケーションは<br />
Online-Offline になります。これは <strong>PRIMECLUSTER</strong> の仕様です。<br />
2 ノードの相互待機構成でクラスタアプリケーションを Online-Standby 状態で使用する場合<br />
は、業務優先度を設定を解除してください。詳細については以下を参照してください。<br />
■Solaris の場合<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.3.1 クラスタアプリケーションの排他関係を設定す<br />
る"<br />
■Linux の場合<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.2.1 スタンバイ運用のクラスタアプリケーション作<br />
成"<br />
確認事項4<br />
2 ノードの相互待機構成で、業務優先度を設定していませんか?<br />
Q2-2-13 クラスタアプリケーションの状態がInconsistent になる<br />
原因<br />
対処<br />
クラスタアプリケーションの起動前にリソースが Online になっている場合、クラスタリソース<br />
の状態に矛盾が発生し、クラスタアプリケーションが Inconsistent になる可能性があります。<br />
例えば、ClusterExclusive 属性が "1" に設定されているリソースが、クラスタアプリケーショ<br />
ンを起動する前に待機系で Online 状態になっている場合に、クラスタアプリケーションを起動<br />
するとクラスタアプリケーションの状態が Inconsistent と表示されます。<br />
矛盾が発生する要因は、クラスタアプリケーション起動前にリソースが Online になっているこ<br />
59
第2章 クラスタアプリケーションのトラブル<br />
60<br />
とです。<br />
Gds リソースを設定している場合、クラスタアプリケーションの起動前に Gds リソースが活性<br />
化されている可能性があります。<br />
Solaris の場合は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.1.3 Gds リソースの作成" で、ディ<br />
スククラスの用途が排他使用 ”する”と設定されているかどうか確認してください。<br />
また、Gds リソースの設定を CUI で行った場合は、設定前に hvgdsetup コマンドを実行したか<br />
どうか確認してください。<br />
Linux の場合は、Gds リソース設定前に hvgdsetup コマンドを実行したかどうか確認してくだ<br />
さい。詳細は "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.7.3.3 Gds リソースの設定" を参照して<br />
ください。<br />
Q2-2-14 移動待機構成においてクラスタアプリケーションの切替えが発生した場合、切替え<br />
が発生したアプリ以外の待機が Offline となる<br />
原因<br />
<strong>PRIMECLUSTER</strong> の仕様です。移動待機構成において、クラスタアプリケーションの切替えが発生<br />
した場合、待機ノードにて切替えが発生したアプリケーション以外のアプリケーション状態が<br />
Standby にならず、Offline となります。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "2.3.1 スタンバイ運用" を参照してください。<br />
Q2-2-15 クラスタアプリケーション停止時に、切替えが発生しない<br />
原因<br />
対処<br />
アプリケーションの状態を監視する Cmdline リソースの Check スクリプトが作成されていな<br />
い可能性があります。<br />
Check スクリプトがない場合、アプリケーションの状態 (正常状態、sleep 状態、ハング状態等)<br />
を判断することができません。このため、アプリケーションが異常停止しても、クラスタインタ<br />
コネクトのハートビートが正常に行われている間は切替えが発生しません。<br />
このような状態を回避するため、アプリケーションの状態を監視する Check スクリプトを別途<br />
作成し、Cmdline リソースに設定する必要があります。<br />
Check スクリプトの作成方法については、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照してください。<br />
確認事項<br />
アプリケーションの状態を監視する Check スクリプトを作成していますか?<br />
Q2-2-16 プロシジャリソースに登録しているアプリケーションのプロセスを強制停止させて<br />
も、プロセスが再起動しない(状態遷移も行われない)<br />
原因<br />
プロシジャリソースで登録されているアプリケーションのプロセスを停止させても状態遷移は<br />
発生しません。また、プロセスを再起動するといった処理も行いません。Procesure リソースで
対処<br />
2.2 クラスタアプリケーションの実行<br />
は、状態遷移の指示タイミングにて exitcode がエラーになった場合にリソースの異常、状態遷<br />
移が発生します。<br />
プロシジャリソースは "<strong>PRIMECLUSTER</strong> 導入運用手引書" の "<strong>PRIMECLUSTER</strong> 対応製品一覧表"<br />
に記載されている製品をリソース登録する場合に使用されます。<br />
それ以外のアプリケーションをクラスタアプリケーションとして登録したい場合は、Cmdline リ<br />
ソースを使用してください。<br />
また、プロセスの生存監視を行いたい場合は、プロセス監視リソースを使用してください。<br />
Q2-2-17 プロセス監視リソースを定義したクラスタアプリケーションを起動したところ、コ<br />
ンソールに 2207 番のメッセージが表示され、Faulted 状態になった<br />
原因<br />
対処<br />
プロセス監視リソースの設定画面 ("<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.1.7.3 設定方法"<br />
を参照)において、起動後直ちに終了してしまうプログラムを起動コマンドに指定したことが考<br />
えられます。<br />
例えば、以下の例のような複数のプログラムを起動し、自身は直ちに終了するスクリプトを前述<br />
の起動コマンドに指定した場合、プロセス監視リソースを定義したクラスタアプリケーションは<br />
その Online 処理に失敗し Faulted 状態になります。<br />
#!/bin/sh<br />
/opt/bin/process0 &<br />
/opt/bin/process1 &<br />
/opt/bin/process2 &<br />
exit 0<br />
プロセス監視機能は、クラスタアプリケーションに対する Online 指示が発行された際、前述の<br />
起動コマンドに指定されたプログラムを生存監視対象として認識しそれを起動しようとします。<br />
しかし、前述の例のようにそれが起動後直ちに終了してしまうスクリプトであった場合、プロセ<br />
ス監視機能から見ると、生存監視対象が起動後に突然終了したように見えてしまうため、プロセ<br />
ス監視リソースに異常が発生したと判断し当該リソースを Faulted 状態にします。<br />
前述の起動コマンドに指定できるのは、起動後に動作し続けるプログラムです。<br />
例えば前述の例において process0、process1、process2 が起動後に動作し続けるプログラムで<br />
あり、それらの生存状態をプロセス監視機能によって監視した場合、それらを別々のプロセス監<br />
視リソースとして定義し、各起動コマンドには process0、process1、process2 をそれぞれ指定<br />
してください。<br />
Q2-2-18 クラスタアプリケーションの AutoSwitchOver 属性に "ShutDown" を設定している<br />
にもかかわらず、ノードをシャットダウンさせてもクラスタアプリケーションのフェイルオー<br />
バが行われない<br />
原因<br />
クラスタアプリケーションが Fault 状態となっている可能性があります。<br />
61
第2章 クラスタアプリケーションのトラブル<br />
62<br />
対処<br />
クラスタアプリケーションが Fault となった原因を確認し、Fault 状態をクリアしてから<br />
シャットダウンを行ってください。<br />
Q2-2-19 Fsystem リソースのリソース故障が発生しましたというメッセージが出力され、ク<br />
ラスタアプリケーションがフェイルオーバしたが原因がわからない<br />
原因1<br />
対処1<br />
原因2<br />
対処2<br />
Fsystem リソースで監視しているマウントポイント名が、リネームされた可能性があります。<br />
Fsystem リソースで監視しているマウントポイントは、リネームしないでください。<br />
マウントポイント名を変更する際は、RMS を停止して Fsystem リソースの再作成を行ってくだ<br />
さい。<br />
/etc/vfstab (Solaris) または /etc/fstab (Linux) に記載されている Fsystem リソースが使<br />
用するエントリ情報が、両ノードで異なっている可能性があります。<br />
userApplication を構成するすべてのクラスタノードの /etc/vfstab (Solaris) ま た は<br />
/etc/fstab (Linux) ファイルへ、マウントポイントのエントリを追加してください。<br />
Q2-2-20 Fsystem リソースが故障となりフェイルオーバした際に、切替え先でもリソース故<br />
障が発生する<br />
原因<br />
対処<br />
Fsystem リソースの Online 処理(マウント処理)に失敗し、fsck が ScriptTimeout 属性の値の<br />
範囲で処理が完了しなかったためにリソース故障が発生している可能性があります。<br />
環境に合わせて、ScriptTimeout の値をチューニングしてください。<br />
Q2-2-21 両ノードを再起動した際、本来は運用系ノードで Online 状態になるクラスタアプ<br />
リケーションが、待機系ノードで Online 状態になった<br />
原因<br />
再起動前にクラスタアプリケーションが運用系ノードで Faulted となっている場合、Faulted<br />
状態をクリアせず、PersistentFault が有効であると、システムが再起動されても Faulted 状<br />
態が継続されるため、待機系ノードが Online となります。
対処<br />
Faulted 状態をクリアしてから、再起動を行なってください。<br />
Q2-2-22 Cmdline リソースの状態がStandbyにならない<br />
原因1<br />
対処1<br />
原因2<br />
対処2<br />
2.2 クラスタアプリケーションの実行<br />
Cmdline リソースの Flag である ALLEXITCODES が "Yes" に設定されていない可能性がありま<br />
す。<br />
Cmdline リソースの Flag である ALLEXITCODES を "Yes" に設定してください。<br />
Offline 処理にて、Cmdline リソースが "unknown" 状態を返していたため、次の Standby 処理<br />
が実行できない可能性があります。<br />
Cmdline リソースの Check スクリプトが "unknown" 状態から "Offline" 状態を返すことがで<br />
きるように Check スクリプトの条件に合わせて環境を見直してください。<br />
Q2-2-23 Cmdline リソースを設定したクラスタアプリケーションの起動に失敗する<br />
原因<br />
対処<br />
Cmdline リソースの Online スクリプトが異常終了しているためクラスタアプリケーションが<br />
起動しなかった可能性があります。<br />
実行時に異常になった、Cmdline リソースの各種スクリプトを見直してください。<br />
また、手動でスクリプトを実行し、正常に動作する場合は、手動で実行している場合と、実行権<br />
限、環境変数等の違いが考えられます。<br />
Q2-2-24 userApplication に AutoSwitchOver 属性を設定しているにも関わらず、切替えが<br />
実行されない<br />
原因<br />
対処<br />
HaltFlag 属性の値が "No"(Solaris)、Halt 属性が "0"(Linux) の場合で、ダブルフォルトが発<br />
生した場合は、SF(Shutdown Facility) からの強制停止、強制停止後の切替え処理も実行されま<br />
せん。<br />
HaltFlag 属性の値を "Yes" に設定してください (Solaris)。Halt 属性を "1" に設定してくだ<br />
さい (Linux)。<br />
63
第2章 クラスタアプリケーションのトラブル<br />
64<br />
Q2-2-25 2:1運用待機のクラスタ構成で、Oracle と ListManager を別々のクラスタアプリ<br />
ケーションで起動させたときに、Oracle の起動が完了する前に ListManager の起動が開始<br />
し、Oracle への接続エラーとなり起動に失敗する<br />
原因<br />
対処<br />
2:1 運用待機構成で、Oracle のリソース (Wizard for Oracle) と ListManager のリソース<br />
(cmdline リソース) が、別々のクラスタアプリケーションに登録されているために、起動順番<br />
が保障できない設定となっています。<br />
Oracle のリソースと ListManager のリソースを同一のクラスタアプリケーションとして登録<br />
してください。<br />
Q2-2-26 ファイルシステムのマウントに失敗し、クラスタアプリケーションが起動できない<br />
原因<br />
対処<br />
ファイルシステムに不整合が生じているため、ファイルシステムのマウントに失敗し、クラスタ<br />
アプリケーションの起動が行えない可能性があります。<br />
fsck を実行し、ファイルシステムの修復を行った後にクラスタアプリケーションを起動してく<br />
ださい。<br />
【コマンド実行例】<br />
# fsck -F ufs -y /dev/sfdsk/class0001/rdsk/volume0001<br />
Q2-2-27 クラスタ環境を NFS サーバとして使用し、NFS クライアントから NFS マウントを<br />
行っているまま userApplication を待機系へ切替えた後、NFS クライアントで NFS マウント<br />
が正しく行われない<br />
原因<br />
対処<br />
NFS クライアントから NFS マウント時に使用される Fsystem リソースと Gls リソースが異な<br />
る userApplication に登録されている可能性があります。<br />
NFS マウントで使用される Fsystem リソースと、Gls リソースを 1 つの userApplication に<br />
登録してください。
2.2 クラスタアプリケーションの実行<br />
Q2-2-28 Oracle リソースに異常が発生し、クラスタアプリケーションが Faulted 状態にな<br />
る<br />
原因<br />
対処<br />
Oracle が使用しているファイルシステムへ アーカイブファイルが出力される等の理由で、ファ<br />
イルシステムがいっぱいになっている可能性があります。<br />
Oracle が使用しているファイルシステムから不要なファイルを削除してください。<br />
Q2-2-29 クラスタアプリケーションが両ノードで Faulted 状態となる<br />
原因<br />
対処<br />
1 つの NIC に対し、引継ぎネットワークリソースと GLS の設定が行われているため、引継ぎ<br />
ネットワークリソースの活性化に失敗している可能性があります。<br />
引継ぎネットワークリソースと、GLS で使用する NIC を別々の NIC に分けて再設定してくださ<br />
い。<br />
Q2-2-30 共用ディスクを追加し、Fsystem リソースのマウントポイントに追加後、クラスタ<br />
アプリケーションが起動できない<br />
原因<br />
対処<br />
追加したマウントポイントのファイルシステムが作成されていない可能性があります。<br />
手動でマウントを行い、ファイルシステムが作成されているかどうか確認し、作成されていない<br />
場合はファイルシステムを作成してください。<br />
Q2-2-31 Fsystem リソースの Online 処理が失敗する<br />
原因<br />
対処<br />
Fsystem リソースに設定されたマウントポイントに、ファイルシステムが作成されていない可能<br />
性があります。<br />
Fsystem リソースに設定されたマウントポイントにファイルシステムを作成してください。<br />
65
第2章 クラスタアプリケーションのトラブル<br />
66<br />
Q2-2-32クラスタに登録されているアプリケーションを起動すると、アプリケーション起動時<br />
に設定している環境変数LANG=jaが有効にならない<br />
原因<br />
対処<br />
<strong>PRIMECLUSTER</strong> では RMS 起動時に、環境変数 LANG=C,LC_ALL=C を設定しており、 ロケールの設<br />
定でLANGよりLC_ALLの設定が優先されるためです。<br />
ロケールの設定を行いたい場合は、Cmdline リソースのスクリプト内で環境変数 LC_ALLの設定<br />
を行ってください。ロケールの設定方法の詳細については、各OSのマニュアルを参照してくださ<br />
い。
第3章 運用時のトラブル<br />
本章では、<strong>PRIMECLUSTER</strong> の環境設定や運用時に発生するトラブルの内容および対処方法につい<br />
て説明します。<br />
67
第3章 運用時のトラブル<br />
3.1 基本的な設定に関するトラブル<br />
68<br />
クラスタシステムを運用する上で、基本的な設定が行われていないことが原因で発生するトラブ<br />
ルについて説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-1-1 運用ノードで異常が発生したが、フェイルオーバが行われ<br />
なかった<br />
○ ○<br />
Q3-1-2 RMS 構成が正しく設定されているにもかかわらず、フェイ<br />
ルオーバが行われない<br />
○ ○<br />
Q3-1-3 リソース作成後、RMS が起動できない。エラーメッセージ<br />
「FATAL ERROR:RMS HAS FAILED TO START」が表示される<br />
○ ○<br />
Q3-1-4 運用中にパニックが発生し、その後、パニックしたノード<br />
が自動的に再起動される<br />
○ -<br />
Q3-1-5 引継ぎネットワークリソースを MAC アドレス引継ぎ設定<br />
ありで設定している NIC の物理インタフェースが<br />
ifconfig -a から見えなくなる場合がある<br />
○ -<br />
Q3-1-6 OS 設定で local-mac-address を true から false にし<br />
たところ、クラスタから切り離されて再起動を繰り返す<br />
○ -<br />
Q3-1-7 クラスタインタコネクトが二本ある環境で、片方の LAN<br />
ケーブルだけを抜くと、ノードの強制停止が発生する<br />
○ ○<br />
Q3-1-8 Cmdline リソースが起動スクリプトでタイムアウトとな<br />
り、リソース故障が発生した。Cmdline リソースの起動ス<br />
クリプトのタイムアウト値を変更する方法を知りたい<br />
○ ○<br />
Q3-1-9 クラスタインタコネクトの CIP を活性化すると、運用ノー<br />
ドの業務LANの通信が不安定になる<br />
○ ○<br />
Q3-1-10 <strong>PRIMECLUSTER</strong> へ Systemwalker Operation Manager を登録<br />
後、リソース異常が発生する<br />
○ ○<br />
Q3-1-11 ifconfig -a を実行して CIP ネットワークインタフェース<br />
の状態を表示すると、CF 構築時に設定したネットマスクと<br />
異なる値が表示される<br />
○ -<br />
Q3-1-1 運用ノードで異常が発生したが、フェイルオーバが行われなかった<br />
原因<br />
待機ノードで、RMS が起動されていない可能性があります。<br />
または、userApplicationのAutoSwitchOver 属性が設定されていない可能性があります。<br />
対処<br />
待機ノードで、RMS が起動されているかを確認してください。<br />
または、userApplicationのAutoSwitchOver 属性<br />
で "HostFailure"、"ResourceFailure"、"ShutDown" を指定してください。
3.1 基本的な設定に関するトラブル<br />
Q3-1-2 RMS 構成が正しく設定されているにもかかわらず、フェイルオーバが行われない<br />
原因<br />
待機ノードで、RMS が起動されていない可能性があります。<br />
または、userApplicationのAutoSwitchOver 属性が設定されていない可能性があります。<br />
対処<br />
待機ノードで RMS が起動されているかを確認してください。<br />
または、userApplicationのAutoSwitchOver 属性<br />
で "HostFailure"、"ResourceFailure"、"ShutDown" を指定してください。<br />
Q3-1-3 リソース作成後、RMS が起動できない。エラーメッセージ「FATAL ERROR:RMS HAS FAILED<br />
TO START」が表示される<br />
原因<br />
クラスタアプリケーションが作成されていないために、RMS が起動できません。<br />
対処<br />
クラスタアプリケーションを作成してください。<br />
Q3-1-4 運用中にパニックが発生し、その後、パニックしたノードが自動的に再起動される<br />
対処<br />
/etc/syetem に以下の設定を行い、再起動してください。<br />
set halt_on_panic=1<br />
本設定により、パニック発生後、ノードは OBP モードで停止します。<br />
Q3-1-5 引継ぎネットワークリソースを MAC アドレス引継ぎ設定ありで設定している NIC の<br />
物理インタフェースが ifconfig -a から見えなくなる場合がある<br />
原因<br />
MAC アドレス引継ぎを設定しているにも関わらず、引継ぎ IP アドレスのインタフェース属性に<br />
おいて、BASE フラグの設定を "virtual" にしているためです。<br />
対処<br />
設定値を "virtual" から "base" に変更してください。<br />
Q3-1-6 OS 設定で local-mac-address を true から false にしたところ、クラスタから切り<br />
離されて再起動を繰り返す<br />
原因<br />
OS 起動時に、クラスタインタコネクトが使用する NIC が、half-duplex で起動することが原因<br />
です。<br />
対処<br />
Switching Hub の Port の設定または、ノードの NIC の negotiation の設定を見直してくださ<br />
69
第3章 運用時のトラブル<br />
70<br />
い。<br />
Q3-1-7 クラスタインタコネクトが二本ある環境で、片方の LAN ケーブルだけを抜くと、ノー<br />
ドの強制停止が発生する<br />
原因<br />
クラスタインタコネクトで使用しているインタフェースに IP アドレスが設定されているため、<br />
クラスタインタコネクトとして使用できていないと考えられます。<br />
対処<br />
両ノードの /etc/inet/hosts(Solaris)または /etc/hosts(Linux)ファイルの設定を変更し、<br />
IPアドレスを設定しないようにしてください。<br />
Q3-1-8 Cmdline リソースが起動スクリプトでタイムアウトとなり、リソース故障が発生した。<br />
Cmdline リソースの起動スクリプトのタイムアウト値を変更する方法を知りたい<br />
対処<br />
RMS 環境変数 "SCRIPTS_TIME_OUT" をデフォルト 300 秒から、ユーザ環境に合わせた値に変更<br />
してください。<br />
Q3-1-9 クラスタインタコネクトの CIP を活性化すると、運用ノードの業務 LAN の通信が不<br />
安定になる<br />
原因<br />
系間パスの LAN と業務 LAN が混同している可能性があります。<br />
対処<br />
系間パスの LAN と業務 LAN の結線を見直してください。<br />
Q3-1-10 <strong>PRIMECLUSTER</strong> へ Systemwalker Operation Manager を登録後、リソース異常が発生<br />
する<br />
原因<br />
"Systemwalker Operation Manager11.0 クラスタ適用ガイド <strong>PRIMECLUSTER</strong> 編" にある、"2.2.3<br />
デーモンの自動起動・停止設定の解除" および "2.2.4 クラスタ情報の登録" を実施せずに、<br />
<strong>PRIMECLUSTER</strong> への登録を行っている可能性があります。<br />
対処<br />
Systemwalker Operation Manager の手順書に従って、<strong>PRIMECLUSTER</strong> への登録処理を行ってくだ<br />
さい。
3.1 基本的な設定に関するトラブル<br />
Q3-1-11 ifconfig -a を実行して CIP ネットワークインタフェースの状態を表示すると、CF<br />
構築時に設定したネットマスクと異なる値が表示される<br />
原因<br />
CIP に設定されたネットマスクが、CF 構築時に設定したネットマスクと異なってます。<br />
対処<br />
Interstage Security Director がインストールされている場合、CIP のネットマスクが変更さ<br />
れる場合があります。<br />
本現象が発生した場合、/etc/inet/netmasks に CIP のネットワークアドレス、ネットマスクを<br />
追記してください。ネットワークアドレス、ネットマスクを追記した後、クラスタノードを再起<br />
動してください。<br />
なお CIP のネットワークアドレス、ネットマスクは以下の手順で確認することができます。<br />
1. /etc/cip.cf から、CIP ノード名とネットマスクを取得します。<br />
下記の例のように記載されている場合、以下のようになります。<br />
node0 node0RMS:netmask:255.255.255.0<br />
― CIP ノード名 : node0RMS<br />
― ネットマスク : 255.255.255.0<br />
2. /etc/inet/hosts ファイルから、手順 1.で取得した CIP ノード名の IP アドレスを取得<br />
します。<br />
下記の例のように記載されている場合、以下のようになります。<br />
192.168.1.1 node0RMS<br />
― IP アドレス : 192.168.1.1<br />
3. 手順 1.で取得したネットマスクと、手順 2. で取得した IP アドレスからネットワーク<br />
アドレスを取得します。例の場合、以下のようになります。<br />
― IP アドレス : 192.168.1.1<br />
― ネットマスク : 255.255.255.0<br />
上記からネットワークアドレスは、以下のようになります。<br />
― ネットワークアドレス : 192.168.1.0<br />
上記手順で取得したネットマスクとネットワークアドレスを /etc/inet/netmasks に追記しま<br />
す。<br />
71
第3章 運用時のトラブル<br />
3.2 運用全般に関するトラブル<br />
72<br />
<strong>PRIMECLUSTER</strong> の運用全般に関するトラブルシューティングについて説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-2-1 RMS 起動時、クラスタアプリケーションが自動的に<br />
Online 状態にならず、Inconsistency 状態 となる<br />
○ ○<br />
Q3-2-2 クラスタアプリケーションが Faulted 状態となった後、<br />
故障原因を解決し、Faulted 状態となったノードを再起動<br />
しても、クラスタアプリケーションが Faulted 状態のま<br />
ま起動されない<br />
○ ○<br />
Q3-2-3 NFS サーバをクラスタ化しているシステムにおいて、<br />
hvdet_system プロセスが大量に動作している<br />
○ -<br />
Q3-2-4 全ノード同時に起動または再起動を行っても、クラスタア<br />
プリケーションが起動されない<br />
○ ○<br />
Q3-2-5 クラスタアプリケーションにダブルフォルト(二重故障)<br />
が発生した場合に、クラスタアプリケーションがフェイル<br />
オーバしない<br />
○ ○<br />
Q3-2-6 クラスタアプリケーション起動時に、一部のリソースが起<br />
動されない<br />
○ ○<br />
Q3-2-7 フェイルオーバが発生すると、共用ディスクへのアクセス<br />
を行なうプロセスが強制停止される<br />
○ ○<br />
Q3-2-8 クラスタアプリケーションを Online へ状態遷移させた<br />
とき、Fsystem リソースで異常が発生するまた、クラスタ<br />
アプリケーションを起動すると、以下の Fsystem リソー<br />
スのメッセージが表示される<br />
RMSWT : WARNING: If the major/minor<br />
device numbers are not the same on all cluster hosts,<br />
clients will be required to remount the file systems<br />
- ○<br />
Q3-2-9 リソース故障が発生した後、フェイルオーバ処理に異常が<br />
発生すると強制停止が発生する<br />
○ ○<br />
Q3-2-10 クラスタアプリケーションの状態遷移に失敗した後、RCI<br />
により強制停止された形跡がある<br />
○ -<br />
Q3-2-11 クラスタパーティション発生時にリブートが行われない - ○<br />
Q3-2-12 クラスタパーティション発生時に全ノードが同時にリ<br />
ブートされた<br />
○ ○<br />
Q3-2-13 運用中のアプリケーションが動作するノードが突然再起<br />
動される<br />
○ ○<br />
Q3-2-14 再起動後に Faulted 状態になった RMS のクラスタアプ<br />
リケーションおよびリソースの故障が通知されない<br />
○ ○<br />
Q3-2-15 再起動後に RMS のクラスタアプリケーション およびリ<br />
ソースがすべて Faulted 状態になる<br />
○ ○<br />
Q3-2-16 運用ノードのリブート時間が遅い ○ ○<br />
Q3-2-17 RSB によるノードの強制電源断が行えない - ○<br />
Q3-2-18 Java 関連のコアダンプが採取される ○ ○
■トラブル一覧(続き)<br />
3.2 運用全般に関するトラブル<br />
No. 現象 Solaris Linux<br />
Q3-2-19 コンソールに XSCF を使用した PRIMEPOWER 250,450 の<br />
クラスタシステムの運用中、「FJSVcluster: エラー: DEV:<br />
7040: コンソールへの接続ができなくなりました。」とコ<br />
ンソールに表示され、コンソール非同期監視が停止した。<br />
また、シャットダウンエージェント SA_xscfp.so,<br />
SA_rccu.so, SA_xscfr.so のテスト状態(Test State)が<br />
TestFailed になった<br />
○ -<br />
Q3-2-20 以下のメッセージが表示され、リソース故障となる<br />
NOTICE: failed to open device "" with<br />
errno 6<br />
○ ○<br />
Q3-2-21 Scalable コントローラを使用した環境にて、クラスタア<br />
プリケーションの OnlinePriority 属性を設定している<br />
にもかかわらず、有効にならない<br />
○ ○<br />
Q3-2-22 運用中に以下のメッセージが出力される<br />
WARNING: doopenread<br />
of "/dev/sfdsk/class0001/rdsk/smaf01-AP" (pid 5970),<br />
counter=1 not done yet reporting status, waiting ...<br />
○ ○<br />
Q3-2-23 userApplication の起動および切替えができない ○ ○<br />
Q3-2-24 引継ぎネットワークリソースを作成し、業務 LAN に引継<br />
ぎ IP アドレスを 設定した環境で、業務 LAN ケーブルを<br />
抜いてもリソース故障が発生しない<br />
○ -<br />
Q3-2-25 Online/Standby 運用時、Cmdline リソースのスクリプト<br />
が実行されると HV_LAST_DET_REPORT 環境変数が<br />
standby ではなく、Offline となる<br />
○ ○<br />
Q3-2-26 userApplication Configuration Wizard で引継ぎネット<br />
ワークリソースを作成中に「0880 未分類のエラーが発生<br />
しました。」のメッセージが表示される<br />
○ -<br />
Q3-2-27 "255.255.254.0"と設定されたネットマスク値<br />
が "255.255.0.0" に変わってしまった<br />
○ ○<br />
Q3-2-28 リソース故障が発生しましたというメッセージが出力さ<br />
れ、クラスタが切り替わった<br />
○ ○<br />
Q3-2-29 リソース故障が発生した後、ノードがパニックする場合と<br />
しない場合がある<br />
○ ○<br />
Q3-2-30 クラスタアプリケーションに登録している Oracle リ<br />
ソースを削除すると、共用ディスクのファイルシステムが<br />
マウントできなくなった<br />
○ -<br />
Q3-2-31 切替え動作中に強制的なファイルシステムチェックの<br />
ERROR メッセージが出力され、切替えが失敗する<br />
- ○<br />
Q3-2-32 IO 負荷の WARNING が出力される - ○<br />
Q3-2-33 ユーザ独自のアプリケーションを起動しようとすると、<br />
ノードがパニックしてしまう<br />
Q3-2-34 GUI 画面にて、1422 番のオペレータ介入要求メッセージ<br />
に応答した際に /var/adm/messages ファイルに出力され<br />
る 2621 番のメッセージが文字化けする<br />
Q3-2-35 運用系において telnet も受け付けられず、DB にもアク<br />
セスできない状態にも関わらず、系切替えが行われない<br />
○ ○<br />
○ -<br />
- ○<br />
73
第3章 運用時のトラブル<br />
74<br />
■トラブル一覧(続き)<br />
No. 現象 Solaris Linux<br />
Q3-2-36 シャットダウン機構に関する以下のメッセージが出力さ<br />
れた<br />
can't bind local address, errno 126<br />
○ ○<br />
Q3-2-37 クラスタ運用中に /etc/vfstab を修正して共用ディスク<br />
をアンマウントしたら、パニックが発生した<br />
○ ○<br />
Q3-2-38 /tmp 配下に巨大なファイルを作成したノードで パニッ<br />
クが発生した<br />
○ ○<br />
Q3-2-39 定期保守実施後、システムを起動して RMS を自動起動さ<br />
せたが、Gls リソースが Standby に遷移できなかったた<br />
めに、RMS が正常に起動できなかった<br />
○ ○<br />
Q3-2-40 hostname コマンドを実行すると、両ノードで同じ結果が<br />
出力される<br />
○ -<br />
Q3-2-41 引継ぎネットワークリソースが異常となり、切替えが発生<br />
したが、切替え先でも同様となり、システムが停止した<br />
○ -<br />
Q3-2-42 クラスタインタコネクトが全パス切断された場合に、ダン<br />
プが採取できないノードがある<br />
- ○<br />
Q3-2-43 GDS リソースを使用しているクラスタアプリケーション<br />
がエラーで停止した。復旧作業のため、共用ディスク上の<br />
ファイルシステムをマウントしたい<br />
○ ○<br />
Q3-2-44 共用ディスクとサーバを接続する FC カードが故障し、<br />
フェイルオーバが発生した<br />
○ ○<br />
Q3-2-45 Cmdline リソースに登録したシェルスクリプトの出力が<br />
コンソールに出力されない<br />
○ ○<br />
Q3-2-46 クラスタアプリケーションの Maintenance モードを解除<br />
した際に、Cmdline リソースが Online にもかかわらず、<br />
再度起動処理が行われる<br />
○ ○<br />
Q3-2-47 <strong>PRIMECLUSTER</strong> を使用したシステムでアプリケーションを<br />
一切動作させていない状況で 10 分間隔で sar の %wio<br />
値が高くなる<br />
○ ○<br />
Q3-2-48 フェイルオーバを発生させると、Standby 型の<br />
userApplication が 2 回 Online となり、Cmdline リ<br />
ソースから呼ばれるアプリケーションが二重起動でエ<br />
ラーとなる<br />
○ ○<br />
Q3-2-49 クラスタの RMS 起動処理後に Fsystem に異常が発生し、<br />
待機系へ状態遷移した<br />
○ ○<br />
Q3-2-50 運用中に RMS の (SYS, 88) のメッセージが表示される ○ ○<br />
Q3-2-51 サブシステムハングによって業務が停止した ○ ○<br />
Q3-2-52 クラスタノードが起動しているにもかかわらず、Cluster<br />
Admin の CRM メインウィンドウでクラスタノードが起動<br />
状態 (緑色のアイコン) にならない<br />
○ ○<br />
Q3-2-53 運用中に 7210 のメッセージが表示される<br />
An error was detected in MMB. (node:nodename<br />
mmb_ipaddress1:mmb_ipaddress1<br />
mmb_ipaddress2:mmb_ipaddress2<br />
node_ipaddress1:node_ipaddress1<br />
node_ipaddress2:node_ipaddress2 status:status<br />
detail:detail)<br />
- ○
■トラブル一覧(続き)<br />
3.2 運用全般に関するトラブル<br />
No. 現象 Solaris Linux<br />
Q3-2-54 クラスタアプリケーションを Online へ遷移させたとき、<br />
以下のメッセージが表示され状態遷移プロシジャリソー<br />
スで異常が発生する<br />
FJSVcluster: ERROR: clexecproc: 6817: An error<br />
occurred during state transition procedure<br />
execution.(error procedure:procedure<br />
detail:code1-code2-code3-code4-code5-code6-code7)<br />
○ ○<br />
Q3-2-55 現象 1:シャットダウン時に「clonltrc: ERROR: Module<br />
clonltrc is in use」のメッセージが出力される<br />
現象 2:システム起動時に「rc: Starting clonltrc:<br />
failed」のメッセージが出力される<br />
- ○<br />
Q3-2-56 ノード故障が発生していないにもかかわらず、ノード故障<br />
を通知する以下のメッセージが表示される<br />
"FJSVcluster: エラー: claddfaultrsc: 6751: SysNode<br />
故障が発生しました。"<br />
○ -<br />
Q3-2-57 PersistentFault 属性を 1(Yes) に設定しているにもか<br />
かわらず、userApplication が起動時 Faulted にならな<br />
い<br />
○ -<br />
Q3-2-58 hvlogcleanコマンドを実行した際に以下のメッセージが<br />
syslog、およびCluster Adminに出力される<br />
clwatchlogd: FJSVcluster: ERROR: exec_chg_line: 6000:<br />
An internal error occurred. (function:fopen<br />
detail:0x30000071-0x2-0-0xffff)<br />
○ ○<br />
Q3-2-59 状態遷移中にリソース故障が発生した場合、Faultedのク<br />
リア操作を行っていなくても以下のメッセージが出力さ<br />
れることがある<br />
cldelfaultrsc: FJSVcluster: INFO: cldelfaultrsc:<br />
2700: The resource fail has recovered.SysNode:SysNode<br />
userApplication:userApplication Resorce:resource<br />
○ ○<br />
Q3-2-60 ネットワークカード交換後、ネットワークがアップしない - ○<br />
Q3-2-61 富士通 MW の <strong>PRIMECLUSTER</strong> 対応製品において、状態遷移<br />
プロシジャからプロセス監視を使用せずにプロセスを起<br />
動する場合、そのプロセスのファイルディスクリプタ(fd)<br />
がハード/ソフトリミット共に 1024となる<br />
○ ○<br />
Q3-2-62 運用系でシステム停止中に、以下のエラーメッセージが出<br />
力された<br />
cldelmsg: FJSVcluster: ERROR: cldelmsg: 6000: An<br />
internal error occurred. (function:_ClExecGetNode<br />
detail:0x300a0006-0xfffffff4-0-0)<br />
○ ○<br />
Q3-2-1 RMS 起動時、クラスタアプリケーションが自動的にOnline 状態にならず、<br />
Inconsistency 状態となる<br />
原因1<br />
RMS 起動時に、クラスタアプリケーションを構成するリソースが両ノードで Online 状態になって<br />
いる場合、RMS は Inconsistency 状態に遷移し、AutoStartup 属性を設定していても自動起動を<br />
行ないません。<br />
75
第3章 運用時のトラブル<br />
76<br />
GDS リソース、Fsystem リソースおよび CmdLine リソースで、この現象が多く発生します。<br />
または、CUI により GDS リソースを作成した際に、GDS リソースを RMS で制御させるための<br />
hvgdsetup コマンドが実行されていないため、クラスタアプリケーションが Inconsistency 状態<br />
になっている可能性があります。<br />
対処1<br />
RMS 起動前にすでにリソースが Online 状態になっているのであれば、運用状態に問題(人為的な<br />
ミス)がある可能性があります。運用状態に問題が無かったのかを確認してください。<br />
hvgdsetup コマンドを実行していない場合は、以下の手順を行ってください。<br />
1. Inconsistency 状態のクラスタアプリケーションの Fault のクリア<br />
2. すべてのノードの RMS を停止<br />
3. 任意のノードで以下のコマンドを Gds リソースが登録してあるクラスごとに実行<br />
# /usr/opt/reliant/bin/hvgdsetup -a "classname" <br />
例)# /usr/opt/reliant/bin/hvgdsetup -a de_cls01 <br />
4. すべてのノードの RMS を起動<br />
5. 確認のため再度すべてのノードの RMS を停止後、ノードの再起動を実施して本現象が回<br />
避されているかを確認してください。<br />
原因2<br />
userApplication の状態が、Offline または Faulted の状態のときに、配下のリソースが、Online<br />
または Faulted になった可能性があります。その原因として、以下のことが考えられます。<br />
● Cmdline リソースの check スクリプトは、正常復帰 (0復帰) しかしないようになって<br />
いる (exit 0 しか記載していない)。そのため、Cmdline リソースは必ず Online になる。<br />
対処2<br />
Cmdline リソースの check スクリプトを見直してください。<br />
Q3-2-2 クラスタアプリケーションが Faulted 状態となった後、故障原因を解決し、Faulted<br />
状態となったノードを再起動しても、クラスタアプリケーションが Faulted 状態のまま起動<br />
されない<br />
原因<br />
クラスタアプリケーションの PersistentFault 属性が "1" に設定されているため、再起動後に<br />
Faulted 状態のままとなっている可能性があります。<br />
対処<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "7.2.2.4 Faulted 状態のクラスタアプリケーションを運用<br />
状態にする" を参照し、Faulted 状態をクリアしてください。<br />
再起動により、Faulted 状態がクリアされるようにしたい場合、PersistentFault 属性に "0" を<br />
設定してください。<br />
Q3-2-3 NFS サーバをクラスタ化しているシステムにおいて、hvdet_system プロセスが大量<br />
に動作している<br />
原因<br />
<strong>PRIMECLUSTER</strong> の仕様です。NFS サーバ上では、リモートファイルシステムごとに Fsystem リ<br />
ソースを設定し、そのリソース数分ディテクタ (hvdet_system) が起動されます。これにともな<br />
い、hvdet_system プロセスが複数動作することがあります。
対処<br />
対処は不要です。<br />
3.2 運用全般に関するトラブル<br />
Q3-2-4 全ノード同時に起動または再起動を行っても、クラスタアプリケーションが起動され<br />
ない<br />
原因<br />
RMS は、クラスタアプリケーションが1ノードでのみ Online 状態になることを保証します。<br />
このため、RMS 起動時に、クラスタアプリケーションが動作可能なノードの RMS 同士が互いに<br />
通信しあい、起動しようとするクラスタアプリケーションがいずれのノードでも Online 状態に<br />
なっていないことを確認します。<br />
よって、クラスタアプリケーションが動作可能なノードのうち 1 つでも RMS が停止している場<br />
合は、そのノードで RMS の起動が行われても、クラスタアプリケーションがいずれのノードに<br />
おいても Online 状態になっていないことが確認されるまでは、自動起動されません。<br />
対処<br />
以下のいずれかの方法により対処してください。<br />
「故障リソース特定とオペレータ介入要求」機能が設定されていない場合<br />
syslog(/var/adm/messages)にRMSの(SWT, 1)の警告メッセージが出力されます。<br />
(SWT, 1): WARNING: The 'AutoStartUp' attribute is set and the<br />
HV_AUTOSTART_WAIT time for the user application has<br />
expired, without an automatic start up having yet taken place.<br />
Reason: not all necessary cluster hosts are online!<br />
この場合は、 に示すクラスタアプリケーションが、クラスタ内のいずれの<br />
ノードでも Online 状態になっていなことを確認した上で、hvswitch –f を使用してクラスタア<br />
プリケーションを起動してください。<br />
「故障リソース特定とオペレータ介入要求」機能が設定されている場合<br />
1421 番 の オ ペ レ ー タ 介 入 メ ッ セ ー ジ が ClusterAdmin お よ び syslog ( コ ン ソ ー ル と<br />
/var/adm/messages) に表示されますので、該当するクラスタアプリケーションがいずれのノー<br />
ドでも Online 状態になっていないことを確認した上でオペレータ介入メッセージに "Yes" と<br />
応答し、クラスタアプリケーションを起動してください。<br />
また、1423 番のオペレータ介入メッセージが表示された場合、表示されているリソースの故障<br />
が回復しているかどうかを確認の上、オペレータ介入メッセージに "Yes" と応答し、クラスタ<br />
アプリケーションを起動してください。<br />
なお、これらのメッセージに "Yes" と応答する場合は、他ノードでクラスタアプリケーション<br />
が Online となっていないことを確認の上、実施してください。<br />
保守停止などの理由により、クラスタアプリケーションが動作可能なノードの一部を一定<br />
期間起動できない場合<br />
RMS の HV_AUTOSTARTUP_IGNORE 環境変数に、保守停止などにより起動できないノードを設定し<br />
ておくことで、クラスタアプリケーションを構成するすべてのノードで RMS が起動しなくても、<br />
クラスタアプリケーションを自動起動させることができます。詳細は、"<strong>PRIMECLUSTER</strong> RMS 導入<br />
運用手引書" を参照してください。<br />
なお、保守停止完了後は、必ず HV_AUTOSTARTUP_IGNORE 環境変数を削除してください。この属<br />
性に設定されているノードに対しては、RMS はクラスタアプリケーションが Online 状態になっ<br />
ていないかの確認をしないため、一つのクラスタアプリケーションが複数のノードで Online 状<br />
態になってしまうことを RMS が抑止することができません。<br />
77
第3章 運用時のトラブル<br />
78<br />
Q3-2-5 クラスタアプリケーションにダブルフォルト(二重故障)が発生した場合に、クラス<br />
タアプリケーションがフェイルオーバしない<br />
原因1<br />
クラスタアプリケーションの Halt 属性が有効になっていない場合、ダブルフォルト(二重故障)<br />
が発生してもフェイルオーバは行いません。<br />
対処1<br />
ダブルフォルト(二重故障)発生時、フェイルオーバさせたい場合は、"<strong>PRIMECLUSTER</strong> 導入運用<br />
手引書"を参照して、Halt 属性を有効にしてください。<br />
原因2<br />
ダブルフォルト(二重故障)が発生している可能性があります。ダブルフォルトが発生した場合、<br />
クラスタアプリケーションの属性である "Halt" 属性が 0(無効)と設定されている場合、もう一<br />
方のノードからの強制停止処理が実施されないため、クラスタアプリケーションのフェイルオー<br />
バは発生ません。<br />
対処2<br />
ダブルフォルトが発生した原因を確認し、対処を行ってください。例えば、リソース故障が発生<br />
した場合の Offline 処理でタイムアウトが発生した場合は、タイムアウト値の見直しを行って<br />
ください。<br />
また、ダブルフォルト発生時、フェイルオーバさせたい場合は、"<strong>PRIMECLUSTER</strong> 導入運用手引書"<br />
を参照して、Halt 属性を有効にしてください。<br />
原因3<br />
リソースのダブルフォルト(二重故障)発生後、シャットダウン機構によるノード強制停止が失<br />
敗している可能性があります。<br />
シャットダウン機構によるノード強制停止が失敗した原因は、シャットダウンエージェントに<br />
SCON が設定されている可能性があります。<br />
対処3<br />
シャットダウンエージェントに SCON が設定されていないかどうかなど、シャットダウン機構の<br />
設定を見直して、ノード強制停止が行なえるようにしてください。<br />
Q3-2-6 クラスタアプリケーション起動時に、一部のリソースが起動されない<br />
原因<br />
別のクラスタアプリケーションに設定された依存関係のあるリソースが先に起動していなかっ<br />
たため、リソースの起動に失敗した可能性があります。<br />
対処<br />
依存関係のあるリソースが別々のクラスタアプリケーションに設定されている場合は、それらの<br />
クラスタアプリケーションをスケーラブル運用とするクラスタアプリケーションを作成し、起動<br />
順番を設定してください。<br />
Oracle を使用した環境では、Oracle リソース起動前に Gls リソースが起動するよう設定が必<br />
要です。Oracle リソースと Gls リソースが別々のクラスタアプリケーションに設定されている<br />
場合は、それらのクラスタアプリケーションをスケーラブル運用するクラスタアプリケーション<br />
を作成し、起動順番を設定してください。
3.2 運用全般に関するトラブル<br />
Q3-2-7 フェイルオーバが発生すると、共用ディスクへのアクセスを行なうプロセスが強制停<br />
止される<br />
原因<br />
<strong>PRIMECLUSTER</strong> の仕様です。<br />
Fsystem リソースを含むクラスタアプリケーションのフェイルオーバが発生した際、Fsystem リ<br />
ソースで設定したマウントポイントにアクセスしているプロセスがあると、このプロセスが強制<br />
的に停止されます。<br />
対処<br />
対処は不要です。<br />
Q3-2-8 クラスタアプリケーションを Online へ状態遷移させたとき、Fsystem リソースで異<br />
常が発生する<br />
また、クラスタアプリケーションを起動すると、以下の Fsystem リソースのメッセージが表<br />
示される<br />
RMSWT : WARNING: If the major/minor device numbers are not the same on<br />
all cluster hosts, clients will be required to remount the file systems<br />
原因<br />
CUI により Fsystem リソースを作成し、NFS マウントしているマウントポイントを指定した場<br />
合、必ず表示されますがマウントが正常に行えていれば問題はありません。<br />
対処<br />
システム運用管理<strong>ソフトウェア</strong>などで、メッセージ監視を行っている場合は、WARNING で表示さ<br />
れるメッセージのうち、本メッセージを無視するように設定してください。<br />
Q3-2-9 リソース故障が発生した後、フェイルオーバ処理に異常が発生すると強制停止が発生<br />
する<br />
原因<br />
クラスタアプリケーションの Halt 属性を有効にした環境で、ダブルフォルト(二重故障)が発<br />
生したため、シャットダウン機構により強制停止(パニックなど) が行われています。<br />
システムの動作としては正常です。<br />
対処<br />
ダブルフォルト(二重故障)発生時に強制停止させたくない場合は、クラスタアプリケーション<br />
のHalt 属性を無効にしてください。ただし、その場合はダブルフォルト(二重故障)発生後の<br />
フェイルオーバが行われなくなります。<br />
なお、二重故障が発生した場合、switchlog に以下のようなメッセージが表示されます。<br />
(UAP, 36): FATAL ERROR: : double fault occurred,<br />
but Halt attribute is set. RMS will exit immediately in order to<br />
allow a failover!<br />
(BM, 47): NOTICE: RMS monitor has exited with the exit code .<br />
(SYS, 9): NOTICE: Attempting to shut down the cluster host<br />
79
第3章 運用時のトラブル<br />
80<br />
by invoking a Shutdown Facility via (sdtool -k ).<br />
Q3-2-10 クラスタアプリケーションの状態遷移に失敗した後、RCI により強制停止された形<br />
跡がある<br />
原因<br />
クラスタアプリケーションの状態遷移中にダブルフォルト(二重故障)が発生したため、RCI に<br />
より強制停止されています。システムの動作としては正常です。<br />
対処<br />
ダブルフォルト(二重故障)発生時に強制停止させたくない場合は、クラスタアプリケーション<br />
の Halt 属性を無効にしてください。ただし、その場合はダブルフォルト(二重故障)発生後の<br />
フェイルオーバが行われなくなります。<br />
なお、二重故障が発生した場合、switchlog に以下のようなメッセージが表示されます。<br />
(UAP, 36): FATAL ERROR: : double fault occurred,<br />
but Halt attribute is set. RMS will exit immediately in order to<br />
allow a failover!<br />
(BM, 47): NOTICE: RMS monitor has exited with the exit code .<br />
(SYS, 9): NOTICE: Attempting to shut down the cluster host<br />
by invoking a Shutdown Facility via (sdtool -k ).<br />
Q3-2-11 クラスタパーティション発生時にリブートが行われない<br />
原因1(Solaris の場合)<br />
/etc/opt/SMAW/SMAWsf/SA_rccu.cfg の設定内容が誤っている可能性があります。<br />
対処1<br />
RCCU の IP アドレス、ユーザ名、パスワードの設定に誤りがないことを確認してください。<br />
また、RCCU の IP アドレスに Ping が成功することも確認してください。<br />
設定の詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照<br />
してください。<br />
確認事項1<br />
/etc/opt/SMAW/SMAWsf/SA_rccu.cfg の設定内容に誤りはありませんか?<br />
原因2(Linux の場合)<br />
RSB の接続が行われていない可能性があります。<br />
対処2<br />
GLS で使用する切替方式によって RSB の接続方法が異なります。<br />
確認事項2<br />
RSB の接続方法が誤っていませんか?<br />
原因3(Linux の場合)<br />
シャットダウン機構の設定が誤っている可能性があります。<br />
対処3<br />
RSB の IP アドレス、ID/Password の設定値に誤りがないことを確認してください。また、RSB の<br />
IP アドレスに Ping コマンドが成功することも確認してください。
3.2 運用全般に関するトラブル<br />
設定の詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照<br />
してください。<br />
確認事項3<br />
/etc/opt/SMAW/SMAWsf/SA_rsb.cfg の設定内容に誤りはありませんか?<br />
Q3-2-12 クラスタパーティション発生時に全ノードが同時にリブートされた<br />
原因<br />
SF のノードの重みと RMS の shutdown priority の設定により、生存優先度が同じになってい<br />
る可能性があります。<br />
対処<br />
SF 設定におけるノードの重み、および RMS Wizard で設定している shutdown priority の設定<br />
を確認してください。<br />
生存優先度(SF のノードの重み +shutdown priority) の値が一致していると、両ノードが互い<br />
に相手ノードを異常と認識し、同時にリブート処理を行う場合があります。<br />
SF のノードの重みおよび RMS の shutdown priority の設定を変更することで、クラスタパー<br />
ティションが発生した場合に生存させるノードと強制停止させるノードを特定できます。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照してく<br />
ださい。<br />
確認事項<br />
SF のノードの重みと RMS の shutdown priority の設定を行っていますか?<br />
Q3-2-13 運用中のアプリケーションが動作するノードが突然再起動される<br />
原因1<br />
ノード/アプリケーションの優先度付けが適切ではない状態で、クラスタインタコネクトに異常<br />
などが発生し、クラスタパーティションが発生した可能性があります。<br />
対処1<br />
クラスタパーティションが発生した場合、優先度が低いノードが再起動されます。ノード/アプ<br />
リケーションの優先度付けを適切に設定してください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照してく<br />
ださい。<br />
確認事項1<br />
クラスタインタコネクトに異常がありませんか?<br />
原因2<br />
クラスタアプリケーションのリソース状態で矛盾が発生している可能性があります。<br />
対処2<br />
Inconsistent 状態のクラスタアプリケーションが存在するノードに切替えられた場合、矛盾を<br />
解消するためノードが再起動されます。<br />
矛盾が解消されない場合、事象ログを参照し、Inconsistent 状態のアプリケーションを正常な<br />
状態としてください。<br />
確認事項2<br />
Inconsistent 状態のクラスタアプリケーションはありませんか?<br />
81
第3章 運用時のトラブル<br />
82<br />
Q3-2-14 再起動後に Faulted 状態になったRMS のクラスタアプリケーションおよびリソー<br />
スの故障が通知されない<br />
原因<br />
userApplication オブジェクトの PersistentFault 属性を "yes" に変更している可能性があ<br />
ります。<br />
対処<br />
PersistentFault 属性が "yes" の場合、システム再起動後のクラスタアプリケーションおよび<br />
RMS リソースは再起動前の状態のまま起動されるため、リソースの故障は通知されません。<br />
PersistenFault 属性を "No" にしてください。<br />
確認事項<br />
userApplication オブジェクトの PersistentFault 属性を "yes" に設定していませんか?<br />
Q3-2-15 再起動後にRMS のクラスタアプリケーションおよびリソースがすべてFaulted状態<br />
になる<br />
原因<br />
userApplication オブジェクトの PersistentFault 属性を "yes" に変更している可能性があ<br />
ります。<br />
対処<br />
PersistentFault 属性が "yes" の場合、システム再起動後のクライアントアプリケーションお<br />
よび RMS リソースは、再起動前の状態のまま起動されます。<br />
クラスタアプリケーションおよびリソースに対して Fault のクリア (hvutil –c コマンド)を実<br />
施し、Faulted 状態から Offline 状態へ遷移させてください。<br />
確認事項<br />
userApplication オブジェクトの PersistentFault 属性を "yes" に設定していませんか?<br />
Q3-2-16 運用ノードのリブート時間が遅い<br />
原因<br />
RMS を停止させずにリブート処理を行ったため、リブート時間が遅くなる可能性があります。<br />
対処<br />
本機能は制限事項です。運用ノードを停止する場合は、必ず事前に hvswitch コマンドでクラス<br />
タアプリケーションを切替えるか、hvshut –l または hvshut –a コマンドで停止してください。<br />
確認事項<br />
リブート前に RMS を停止していますか?<br />
Q3-2-17 RSB によるノードの強制電源断が行えない<br />
原因 1<br />
RSB シャットダウンエージェント (/etc/opt/SMAW/SMAWsf/SA_rsb.cfg) の設定値が誤っており、<br />
RSB によるノードの強制電源断が行われない可能性があります。
3.2 運用全般に関するトラブル<br />
対処 1<br />
RSB シャットダウンエージェントの設定を修正してください。詳細は、"<strong>PRIMECLUSTER</strong> 導入運用<br />
手引書" の "5.1.2 シャットダウン機構の設定" を参照してください。<br />
確認事項 1<br />
RSB の IP アドレスと RSB シャットダウンエージェントの設定値<br />
(/etc/opt/SMAW/SMAWsf/SA_rsb.cfg) に不整合はありませんか?<br />
原因 2<br />
RSB の電源が OFF では RSB によるノードの強制電源断が行われない可能性があります。<br />
対処 2<br />
RSB の電源を ON にして再度強制停止を行ってください。なお、RSB の電源断を防止するため、<br />
UPS (無停電電源装置)の導入をおすすめします。<br />
確認事項 2<br />
RSB の電源が ON になっていますか?<br />
原因 3<br />
RSB の IP に Ping が送れない場合、RSB によるノードの強制電源断が行われない可能性があり<br />
ます。<br />
対処 3<br />
各ノードから全ノードの RSB に接続できるように LAN を設計してください。<br />
確認事項 3<br />
全ノードから RSB の IP に Ping が送れますか?<br />
Q3-2-18 Java 関連 のコアダンプが採取される<br />
原因<br />
JavaVM の問題や JavaVM で使用するテンポラリ領域の不足によりコアダンプが採取される可能<br />
性があります。<br />
サポートする JRE よりも古いバージョンの JRE を使用するとコアダンプが発生しやすい場合<br />
があります。<br />
対処<br />
適切なバージョンの JRE がインストールされているか確認し、"<strong>PRIMECLUSTER</strong> インストールガ<br />
イド" を参照して、適切なバージョンの JRE をインストールしてください。<br />
Web-Based Admin View が動作していない場合には "Web-Based Admin View 操作手引書" を参照<br />
して Web-Based Admin View を再起動してください。<br />
確認事項<br />
適切なバージョンの JRE がインストールされていますか?<br />
Q3-2-19 4.1A20 パッチ913381-04 適用前または、4.1A30 パッチ913897-01 適用前の環境で、<br />
コンソールに XSCF を使用した PRIMEPOWER 250,450 のクラスタシステムの運用中、<br />
「FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなくなりました。」とコンソー<br />
ルに表示され、コンソール非同期監視が停止した。また、シャットダウンエージェント<br />
83
第3章 運用時のトラブル<br />
84<br />
SA_xscfp.so, SA_rccu.so, SA_xscfr.so のテスト状態 (Test State) が TestFailed になった<br />
対処<br />
コンソールに XSCF を使用した PRIMEPOWER 250,450 のクラスタシステムでは、RCI を使用した<br />
シャットダウンエージェント 2 つ RCI(Panic, Reset) と、XSCF を使用したシャットダウンエー<br />
ジェント XSCF(Console Break) の、合計 3 つだけを設定してください。設定方法は以下のとお<br />
りです。<br />
シャットダウン構成ウィザードを起動し、「簡単な設定(推奨)」からシャットダウン機構を設定<br />
してください。その際、使用するシャットダウンエージェントとして以下を選択してください。<br />
● RCI Panic<br />
● Console Break<br />
● RCI Reset<br />
また、Console Break エージェントとして以下を選択してください。<br />
● XSCF Break<br />
シャットダウン構成ウィザードの操作方法については、"<strong>PRIMECLUSTER</strong> 導入運用手引書"<br />
の "5.1.2 シャットダウン機構の設定" を参照してください。その際、使用するシャットダウン<br />
エージェントについては、上記のように読み替えてください。<br />
4.1A20 パッチ913381-04 以降または4.1A30 パッチ913897-01 以降が適用されている、または、<br />
4.1A40以降では、本現象は発生しません。<br />
確認事項<br />
シャットダウンエージェントの設定は正しいですか?<br />
Q3-2-20 以下のメッセージが表示され、リソース故障となる<br />
NOTICE: failed to open device "" with errno 6<br />
原因 1<br />
Fsystem リソースで設定しているマウントポイントが、他のアプリケーションで使用されている。<br />
対処 1<br />
マウントポイントを使用しているアプリケーションを特定し、アプリケーションからマウントポ<br />
イントを使用しないようにするなどの対処を検討してください。<br />
Fsystem リソース異常の原因と対処については、Q3-2-50 も参照してください。<br />
原因 2<br />
GDS で管理しているディスクに対して、Fsystem リソースを作成し、Fsystem リソースで使用し<br />
ている共用ディスクに対して、ファイルシステムを作成していない。<br />
対処 2<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" を参照し、ファイルシステムの設定を行ってください。
3.2 運用全般に関するトラブル<br />
Q3-2-21 Scalable コントローラを使用した環境にて、クラスタアプリケーションの<br />
OnlinePriority 属性を設定しているにもかかわらず、有効にならない<br />
説明<br />
Scalable コ ントローラを使用してクラスタアプリケーションを構築した場合は、<br />
OnlinePriority 属性は有効になりません。<strong>PRIMECLUSTER</strong> の仕様動作となります。<br />
Q3-2-22 運用中に以下のメッセージが出力される<br />
WARNING: doopenread of"/dev/sfdsk/class0001/rdsk/smaf01-AP" (pid 5970), counter=1 not<br />
done yet reporting status, waiting ...<br />
対処<br />
以下の 3 通りの変更にて WARNING メッセージの出力を抑止、または、WARNING メッセージが出<br />
力し続けることでの切替えを抑止することが可能です。(必ずしも WARNING メッセージが出力さ<br />
れなくなるわけではありません。)<br />
また、すべてが変更可能ですが、必ずしもすべてを変更する必要はありません。<br />
各種内容を踏まえて変更を実施してください。<br />
1. RMS 環境変数 HV_GMOUNTMAXLOOP の値を変更する。<br />
2. RMS 環境変数 HV_GMOUNTMAXRETRY の値を変更する。<br />
3. Fsystem リソースが行っているマウントポイントへの監視間隔を変更する。<br />
各種設定値を変更する場合は、以下の手順で行います。<br />
1. HV_GMOUNTMAXLOOP, HV_GMOUNTMAXRETRY の変更方法<br />
※手順 2、3 に関しては、すべてのノードで実施してください。<br />
1. すべてのノードの RMS を停止します。<br />
RMS の停止方法は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "7.2.1 RMS の運用操作"を参照<br />
してください。<br />
2. /usr/opt/reliant/bin/hvenv.local に "HV_GMOUNTMAXLOOP= 値 " ま た<br />
は、"HV_GMOUNTMAXRETRY= 値" を設定します。<br />
HV_GMOUNTMAXLOOP のデフォルト値は、"4" です。また、<br />
HV_GMOUNTMAXRETRY のデフォルト値は、"7" です。<br />
hvenv.local は、/usr/opt/reliant/bin フォルダ配下のファイルです。<br />
hvenv.local ファイルがない場合は作成してください。<br />
hvenv.local ファイルへの記載例<br />
例)<br />
export HV_GMOUNTMAXLOOP=10<br />
export HV_GMOUNTMAXRETRY=10<br />
3. hvenv コマンドで "HV_GMOUNTMAXLOOP= 値" , "HV_GMOUNTMAXRETRY= 値" が表示されるこ<br />
とを確認します。<br />
例)<br />
# hvenv | grep HV_GMOUNTMAXLOOP<br />
HV_GMOUNTMAXLOOP='10' export HV_GMOUNTMAXLOOP;<br />
85
第3章 運用時のトラブル<br />
86<br />
# hvenv | grep HV_GMOUNTMAXRETRY<br />
HV_GMOUNTMAXRETRY='10' export HV_GMOUNTMAXRETRY;<br />
"HV_GMOUNTMAXLOOP= 値" , "HV_GMOUNTMAXRETRY= 値" が表示されない場合、手順 2<br />
の作業に誤りがある可能性がありますので、手順 2 の作業を見直してください。<br />
4. すべてのノードの RMS を起動します<br />
RMS の起動方法は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "RMS の運用操作" を参照してく<br />
ださい。<br />
2. Fsystem リソースの監視間隔の変更方法<br />
1. すべてのノードの RMS を停止します。<br />
RMS の停止方法は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "7.2.1 RMS の運用操作" を参照<br />
してください。<br />
2. Web-Based Admin View から "Global Cluster Services" - "userApplication<br />
Configuration Wizard" を選択します。<br />
3. "Configuration 内の共通情報を設定" を選択します。<br />
4. "Detector の詳細設定" を選択します。<br />
5. "hvdet_gmount のリソース監視間隔 =10" を選択します。<br />
6. "情報の入力"を選択し、変更する監視間隔を入力します。<br />
7. hvdet_gmount のリソース監視間隔が変更した値になっていることを確認し、"戻る" を選<br />
択します。<br />
8. "保存して登録" を選択し、"登録" を実行します。<br />
※その後メッセージがポップアップされますが、すべて"はい"を選択してください。<br />
9. すべてのノードの RMS を起動します。<br />
RMSの起動方法は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "7.2.1 RMS の運用操作" を参照<br />
してください。<br />
なお、各種設定値変更に関して、以下の点に注意してください。<br />
● 該当のファイルシステムに対して I/O 負荷がかかっている現象自体が回避されているわ<br />
けではありません。(メッセージや切替え処理に対する抑止がされているだけです。)<br />
● 実際に該当のディスクに障害が発生した場合に、障害内容によっては、現在の切替え発生<br />
時間よりも時間がかかってしまう可能性があります。<br />
(ERROR の種類やデバイスの種類によっては、即時 ERROR を返さない可能性があり、今回<br />
のような一連の処理ができなくなって初めて切替え処理が発生する場合があります。)
Q3-2-23 userApplication の起動および切替えができない<br />
3.2 運用全般に関するトラブル<br />
原因 1<br />
Cmdline リソースの Online スクリプト、Offline スクリプト、Check スクリプトに誤りがある<br />
可能性があります。<br />
対処 1<br />
Cmdline リソースの Online スクリプト、Offline スクリプト、Check スクリプトを見直し、正<br />
常に動作できるか確認してください。また実行するコマンドの実行権限やグループ権限もあわせ<br />
て確認してください。<br />
原因 2<br />
iptablesの設定で、クラスタのノード間通信を行うインタフェース(cip0)の通信または、クラス<br />
タリソース管理機構で使用するポートを送信先のみ許可し、送信元を許可していない可能性があ<br />
ります。<br />
対処 2<br />
インタフェース(cip0)の通信およびクラスタリソース管理機構で使用するポートの通信を許可<br />
するように iptablesの設定を見直してください。<br />
Q3-2-24 引継ぎネットワークリソースを作成し、業務 LAN に引継ぎ IP アドレスを 設定した<br />
環境で、業務 LAN ケーブルを抜いてもリソース故障が発生しない<br />
原因<br />
引継ぎネットワークリソースを作成した際に、PingHost を設定していない場合、ケーブルを抜<br />
いても引継ぎネットワークリソースは異常になりません。<br />
対処<br />
業務 LAN の監視を行いたい場合は、GLS を使用してください。<br />
GLS を使用しない場合は、引継ぎネットワークリソースを作成した際に、PingHost の設定を行っ<br />
てください。<br />
Q3-2-25 Online/Standby 運用時、Cmdline リソースのスクリプトが実行されると<br />
HV_LAST_DET_REPORT 環境変数が standby ではなく、Offline となる<br />
原因<br />
Cmdline リソースの属性 "STANDBYCAPABLE 属性"、"ALLEXITCODES 属性" が有効になっていない<br />
可能性があります。<br />
対処<br />
Standby 状態とする場合は、Cmdline リソースの属性 "STANDBYCAPABLE 属 性 "<br />
と "ALLEXITCODES 属性" を有効にしてください。<br />
87
第3章 運用時のトラブル<br />
88<br />
Q3-2-26 userApplication Configuration Wizard で引継ぎネットワークリソースを作成中に<br />
「0880 未分類のエラーが発生しました。」のメッセージが表示される<br />
対処<br />
全クラスタノードの /etc/inet/hosts ファイルの IP アドレスやホスト名の記述に誤りがない<br />
か確認してください。記述に誤りがある場合は修正してください。<br />
/etc/inet/hosts ファイルの修正後、userApplication Configuration Wizard を一旦終了し、<br />
再度 userApplication Configuration Wizard を起動して、引継ぎネットワークリソースを作成<br />
してください。<br />
Q3-2-27 "255.255.254.0" と設定されたネットマスク値が "255.255.0.0" に変わってしまっ<br />
た<br />
意味<br />
仮想インタフェースに設定したネットワークインタフェースに対してのネットマスク値の設定<br />
がなかったために、IP アドレスのデフォルトのサブネットマスク値に設定変更が行われたと考<br />
えられます。<br />
対処<br />
<strong>PRIMECLUSTER</strong> Global Link Service のサブネットマスクの設定において、仮想インタフェース<br />
の作成で設定した仮想インタフェースに対するサブネットマスクの設定を行ってください。
3.2 運用全般に関するトラブル<br />
Q3-2-28 リソース故障が発生しましたというメッセージが出力され、クラスタが切り替わっ<br />
た<br />
原因<br />
Fsystem リソースで監視しているマウントポイント名が、リネームされた可能性があります。<br />
対処<br />
Fsystem リソースで監視しているマウントポイント名が正しいか確認してください。<br />
Q3-2-29 リソース故障が発生した後、ノードがパニックする場合としない場合がある<br />
原因<br />
リソース故障が発生すると、フェイルオーバ処理が行なわれます。そのフェイルオーバ処理でエ<br />
ラーが発生した場合は、ダブルフォルト(二重故障)となり、ノードがパニックします。<br />
対処<br />
フェイルオーバ処理でエラーが発生していないかどうか確認してください。<br />
ノードがパニックする場合、Q3-2-11 を参照してください。<br />
Q3-2-30 クラスタアプリケーションに登録している Oracle リソースを削除すると、共用<br />
ディスクのファイルシステムがマウントできなくなった<br />
原因<br />
Oracle リソースを削除する際に、Oracle リソース配下のリソースも削除するかを確認する<br />
0808 番のメッセージで "はい" を選択したため、Fsystem リソースも削除されています。<br />
対処<br />
Fsystem リソースを再作成してください。<br />
Q3-2-31 切替え動作中に強制的なファイルシステムチェックの ERROR メッセージが出力さ<br />
れ、切替えが失敗する<br />
原因<br />
切替ファイルシステムに ext3 を使用している場合、Online 処理時に強制的なファイルシステ<br />
ムチェック (fsck) が実行されることがあります。両ノード起動時や切替え時などに強制的な<br />
fsck が実行されると、切替ファイルシステムのオンライン処理でタイムアウトが発生し、<br />
<strong>PRIMECLUSTER</strong> の起動や切替えに失敗することがあります。<strong>PRIMECLUSTER</strong> の仕様です。(Linux の<br />
み)<br />
対処<br />
すべての ext3 切替ファイルシステムで、強制ファイルシステムチェックが実行されないように<br />
設定してください。設定方法の詳細については、"<strong>PRIMECLUSTER</strong> 活用ガイドを参照してください。ただし、強制ファイルシステムチェックを回避すると、ファ<br />
イルシステム破壊が発生した場合に、発見が遅れるため、データ損失の危険性が高まります。<br />
そのため、手動でファイルシステムの強制チェック (fsck -f) を実行して、データ損失の危険<br />
性を回避する必要があります。<br />
89
第3章 運用時のトラブル<br />
90<br />
Q3-2-32 IO 負荷の WARNING が出力される<br />
原因<br />
Fsystem リソースのマウントポイントに対するチェックが監視時間内に完了しなかったため、<br />
メッセージが表示されています。<br />
対処<br />
RMS の構成定義に登録したマウントポイントに対する、マウントポイント監視時間のチューニン<br />
グを実施してください。詳細は”Linux <strong>PRIMECLUSTER</strong> 構築ガイド”を参照してください。<br />
Q3-2-33 ユーザ独自のアプリケーションを起動しようとすると、ノードがパニックしてしま<br />
う<br />
原因<br />
アプリケーション起動時に、RMS で使用しているメッセージキューを削除している可能性があり<br />
ます。<br />
対処<br />
RMS で使用しているメッセージキューを削除しないようにアプリケーション側で調整してくだ<br />
さい。<br />
Q3-2-34 GUI 画面にて、1422 番のオペレータ介入要求メッセージに応答した際に<br />
/var/adm/messages ファイルに出力される 2621 番のメッセージが文字化けする<br />
原因<br />
Web-Based Admin View が 動 作 す る 言 語 環 境 が ( syslang ) が "ja" に な っ ており、<br />
/var/adm/messages ファイルに EUC で出力されるが、表示させる端末の言語設定が EUC 以外に<br />
なっているためです。<br />
対処<br />
表示させる端末の言語設定を EUC に設定してください。<br />
Q3-2-35 運用系において telnet も受け付けられず、DB にもアクセスできない状態にも関わ<br />
らず、系切替えが行われない<br />
原因<br />
運用系の RSB の IP アドレスが変更されていて、運用系をシャットダウンできなかったために、<br />
系切替えが行なえない可能性があります。<br />
対処<br />
運用系の RSB の IP アドレスと、RSB シャットダウンエージェントの設定で行った値を一致さ<br />
せてください。
Q3-2-36 シャットダウン機構に関する以下のメッセージが出力された<br />
can't bind local address, errno 126<br />
3.2 運用全般に関するトラブル<br />
原因<br />
シャットダウン機構の admIP 設定時に存在しない IP アドレスが設定されています。<br />
対処<br />
admIP には業務 LAN の IP アドレスを設定してください。<br />
Q3-2-37 クラスタ運用中に /etc/vfstab を修正して共用ディスクをアンマウントしたら、パ<br />
ニック が発生した<br />
原因<br />
/etc/vfstabを/etc/vfstab(Solaris)、または /etc/fstab(Linux) から Fsystem リソースが使<br />
用しているマウントポイントを削除したため、リソース故障が発生し、パニックが発生した可能<br />
性があります。<br />
対処<br />
運 用 中 に /etc/vfstab を /etc/vfstab(Solaris), ま た は /etc/fstab(Linux) の<br />
MountPoint***_Fsystem* リソースが使用するマウントポイントを修正しないでください。<br />
Q3-2-38 /tmp 配下に巨大なファイルを作成したノードで パニックが発生した<br />
原因<br />
メモリ資源、およびスワップ資源を圧迫し、他ノードからのハートビートに応答できなかった可<br />
能性があります。<br />
対処<br />
メモリ枯渇となる可能性がありますので、/tmp に巨大なファイルを作成しないでください。<br />
Q3-2-39 定期保守実施後、システムを起動してRMSを自動起動させたが、Gls リソースが<br />
Standby に遷移できなかったために、RMS が正常に起動できなかった<br />
原因<br />
DNS サーバと通信することができなかったために、GLS 内部の名前-アドレス変換処理に時間が<br />
かかり、Gls リソースをタイムアウト時間内に、"STANDBY" に遷移させることができなかった可<br />
能性があります。<br />
対処<br />
Gls リソースのタイムアウト時間を変更するか、HUB 監視先ホストの指定を IP アドレスに変更<br />
してください。または HUB 監視先ホストの変更に加えて、引継ぎホストの設定も IP アドレス<br />
に変更してください。<br />
91
第3章 運用時のトラブル<br />
92<br />
Q3-2-40 hostname コマンドを実行すると、両ノードで同じ結果が出力される<br />
原因<br />
引継ぎネットワークリソースにて、ノード名引継ぎの設定が行われているため、hostname コマ<br />
ンドの出力結果が両ノード同一となります。<br />
対処<br />
ノード名引継ぎが不要であれば、IP アドレス引継ぎのみに設定を変更してください。<br />
Q3-2-41 引継ぎネットワークリソースが異常となり、切替えが発生したが、切替え先でも同<br />
様となり、システムが停止した<br />
原因<br />
引継ぎネットワークリソースにて指定されている PingHost 先のホストが ping 応答を返せな<br />
い状態である可能性があります。<br />
対処<br />
PingHost 先のホスト状態を確認してください。<br />
Q3-2-42 クラスタインタコネクトが全パス切断された場合に、ダンプが採取できないノード<br />
がある<br />
原因<br />
SA_rsb の状態が TestFailed になっており、RSB が正常動作していないことからダンプ採取命<br />
令が行われても RSB が命令を受信できなかったためにダンプが採取されていない可能性があり<br />
ます。<br />
対処<br />
RSB を再設定し、ping または telnet できることを確認してください。また、SA_rsb.cfg の設<br />
定についても同様の設定にしてください。<br />
Q3-2-43 Gds リソースを使用しているクラスタアプリケーションがエラーで停止した。復旧<br />
作業のため、共用ディスク上のファイルシステムをマウントしたい<br />
対処<br />
GDS のボリュームは非活性状態となっておりアクセスできません。GDS のボリュームを起動後、<br />
ファイルシステムをマウントし、復旧作業を行ってください。手順は以下のとおりです。<br />
1. 全ノード RMS の停止<br />
以下のコマンドをクラスタを構成するいずれかのノードで実行し、全ノードの RMS を停<br />
止します。<br />
# hvshut -a<br />
2. GDS ボリュームの起動<br />
復旧作業が必要なデータが格納されている、GDS のボリュームを起動してください。<br />
GDS 運用管理画面より該当のボリュームを選択し、ボリューム起動を実行してください。<br />
3. ファイルシステムのマウント<br />
手順 2. で起動した GDS ボリュームのファイルシステムをマウントします。<br />
GFS ファイルシステムを使用している場合は、以下のようにマウントを行ってください。
3.2 運用全般に関するトラブル<br />
# mount -F sfxfs /dev/sfdsk/class0001/dsk/volume0001 マウントポイント<br />
4. データの復旧作業を行ってください。<br />
5. 手順 3. でマウントしたファイルシステムをアンマウントしてください。<br />
6. GDS ボリュームの停止<br />
手順 2. で起動した GDS ボリュームの停止を行ってください。<br />
GDS 運用管理画面より該当のボリュームを選択し、ボリューム停止を実行してください。<br />
7. 以下のコマンドをクラスタを構成するいずれかのノードで実行し、全ノードの RMS を起<br />
動します。<br />
# hvcm -a<br />
Q3-2-44 共用ディスクとサーバを接続する FC カードが故障し、フェイルオーバが発生した<br />
対処<br />
以下の手順で復旧を行なってください。<br />
[全ノード停止が必要な場合]<br />
1. クラスタを構成する全ノードの RMS を停止します。<br />
# hvshut -a<br />
2. 全ノードを停止します。<br />
# shutdown -h now<br />
3. FC カードを交換します。<br />
4. 交換が終わったら、起動します。<br />
5. userApplication の状態が Faulted になっているノードで以下のコマンドを実行してく<br />
ださい。<br />
# hvutil -c アプリケーション名<br />
[該当ノードの停止で十分な場合]<br />
1. 該当ノードにて RMS を停止します。<br />
# hvshut -l<br />
2. 該当ノードを停止します。<br />
# shutdown -h now<br />
3. FC カードを交換します。<br />
4. 交換が終わったら、起動します。<br />
5. 起動したノードにて、Faulted になった userApplication に対して以下のコマンドを実<br />
行してください。<br />
# hvutil -c アプリケーション名<br />
Q3-2-45 Cmdline リソースに登録したシェルスクリプトの出力がコンソールに出力されない<br />
原因<br />
Cmdline リソースに登録した StartCommand および StopCommand の標準出力、標準エラー出力<br />
は、RELIANT_LOG_PATH (デフォルト :/var/opt/SMAWRrms/log) 配下の userAplication 名.log<br />
ファイルに書き出されるため、コンソールに出力されません。CheckCommand については、標準<br />
出力、標準エラーともにどこにも書き出されないため、コンソールに出力されません。<br />
対処<br />
PRMECLUSTER では、Cmdline リソースに登録されたシェルスクリプトの出力をコンソールに出力<br />
する設定はないため、コンソールに実行結果を出力するようなシェルスクリプトを作成してくだ<br />
さい。<br />
93
第3章 運用時のトラブル<br />
94<br />
Q3-2-46 クラスタアプリケーションの Maintenance モードを解除した際に、Cmdline リソー<br />
スが Online にもかかわらず、再度起動処理が行われる<br />
原因<br />
該当する Cmdline リソースには NULLDETECTOR が 設 定されている可能性があります。<br />
NULLDETECTOR が設定されている Cmdline リソースがクラスタアプリケーションの<br />
Maintenance モード解除時に再度起動処理が行われる動作は仕様動作です。<br />
対処<br />
Cmdline リソースが Online 状態で、再度起動処理が行われた場合に、二重起動とならないよう<br />
該当する Cmdline リソースに登録されているスクリプトを修正してください。<br />
Q3-2-47 <strong>PRIMECLUSTER</strong> を使用したシステムでアプリケーションを一切動作させていない状況<br />
で 10 分間隔で sar の %wio 値が高くなる<br />
原因<br />
シャットダウン機構が定期的にログを出力しているため、sar コマンドの %wio の値が高く表示<br />
されています。<br />
対処<br />
現行のノード監視を行ったまま、ログを削減/抑止する方法はありません。<br />
Q3-2-48 フェイルオーバを発生させると、Standby 型の userApplication が 2 回 Online と<br />
なり、Cmdline リソースから呼ばれるアプリケーションが二重起動でエラーとなる<br />
原因<br />
Scalable Controller を 含 む userApplication と 、 そ の 配 下 に あ る Standby 型 の<br />
userApplication を同時にフェイルオーバさせると、Standby 型の userApplicationが 2 回<br />
Online となります。(<strong>PRIMECLUSTER</strong> の正常な動作です。)<br />
NULLDETECTOR フラグを設定した Cmdline リソースは Check スクリプトを持たず、実際のリ<br />
ソース状態を RMS 側で判断できないため、二重起動となる場合があります。<br />
対処<br />
NULLDETECTOR フラグを設定した Cmdline リソースの二重起動による Online 処理の失敗を避<br />
けるには、Online スクリプトを改造することで対応できます。<br />
具体的には、以下の処理を追加します。<br />
1. 対象プログラムを起動する前に、すでに対象プログラムが動作中でないかを Online スク<br />
リプト内でチェックする。<br />
2. すでに対象プログラムが動作中の場合は、直ちに Online スクリプトを正常終了させる。
3.2 運用全般に関するトラブル<br />
Q3-2-49 クラスタのRMS起動処理後に Fsystem に異常が発生し、待機系へ状態遷移した<br />
原因<br />
mount コマンドや fsck コマンドが失敗する原因で現象が発生しますが、特によく発生する原因<br />
は以下のとおりです。<br />
1. マウント情報のファイル (Solaris は /etc/vfstab, Linux は /etc/fstab) に誤りがあ<br />
る。<br />
2. ファイルシステムが GDS のボリューム上にあるにもかかわらず、ボリュームが起動され<br />
ていないため、ファイルシステムにアクセスでず mount コマンドがエラーとなっている。<br />
3. ファイルシステムが作成されていない場合。<br />
4. fsck コマンドによりファイルシステムの復旧を試みたが、fsck コマンドは復旧不可能と<br />
判断し、エラー復帰した場合。<br />
5. fsck コマンドの復旧処理に時間を要したために Fsystem リソースの Online 処理のタ<br />
イムアウトにより fsck が中断した場合。<br />
6. /etc/dfs/dfstab の設定に誤りがある場合。(Solaris のみ)<br />
7. 他のアプリケーションがマウントポイントを使用している場合。<br />
対処<br />
各原因に対する対処方法は以下のとおりです。<br />
1. 以下の観点でマウント情報のファイルを見直ししてください。<br />
― クラスタアプリケーションにより制御されるファイルシステムの定義において先<br />
頭行に #RMS# が記述されてるか?<br />
― デバイス名に間違いがないか?<br />
― マウントポイントに間違いはないか?<br />
― ノード間で設定が一致しているか?<br />
2. 以下の観点で GDS リソースに関する設定を見直ししてください。<br />
― クラスタアプリケーションに当該ファイルシステムを含む GDS のディスククラス<br />
が登録されているか?<br />
― 登録されているディスククラスに誤りがないか?<br />
3. マウントするデバイス上にファイルシステムを作成してください。<br />
4. 手動で fsck コマンドを実行し、ファイルシステムの復旧が可能かを確認します。復旧で<br />
きない場合は、ファイルシステムを再作成し、データを復旧します。<br />
5. fsck コマンドでファイルシステムの復旧を手動で行い、実際に要した時間計測します。<br />
その後、Fsystem リソースの Timeout 時間に計測した時間を追加してください。<br />
6. 以下の観点でマウント情報のファイルを見直ししてください。<br />
― クラスタアプリケーションにより制御されるマウントポイントの定義において先<br />
頭行に #RMS# が記述されてるか?<br />
― share を実行するマウントポイントの定義に間違いはないか?<br />
― ノード間で設定が一致しているか?<br />
7. 他のアプリケーションがマウントポイントを使用している場合は、そのアプリケーション<br />
でマウントポイントを使用するのをやめるか、アプリケーションを終了してください。<br />
95
第3章 運用時のトラブル<br />
96<br />
Q3-2-50 運用中に RMS の (SYS, 88) のメッセージが表示される<br />
原因<br />
以下のいずれかの原因で、 秒以上たっても応答がないためメッセージか表示されていま<br />
す。<br />
● クラスタインタコネクトがハード故障により通信ができない<br />
● RMS がハートビート処理をできないほど、システムの CPU 負荷が長時間発生している<br />
● NTP で急激な時刻戻しが行われたため、RMS 間のハートビートが途切れた<br />
対処<br />
要因に従って以下の対処を行ってください。<br />
● LAN カード交換、ケーブル交換などを行い、ハード故障の要因を取り除いてください。<br />
● のホストが高負荷となっている処理を見直してください。<br />
● NTP でゆっくりとした時刻合わせを行なってください。<br />
Q3-2-51 サブシステムハングによって業務が停止した<br />
原因<br />
運用ノード内の一部の I/O だけが異常になっているために、業務が停止している可能性があり<br />
ます。<br />
一部の I/O だけが異常でその他の I/O が正常のため、クラスタシステムが異常事象を検知して<br />
いない場合(クラスタシステムの監視からは正常に見えている場合)を、サブシステムハングと<br />
呼びます。<br />
対処<br />
待機ノードに切り替わることによって業務再開の見込みがあるため、以下の対処を実施してくだ<br />
さい。<br />
● 運用ノードあるいは待機ノードにログインできる場合<br />
sdtool コマンドを使用して、運用ノードを停止業務を切替えてください。<br />
sdtool -k node-name<br />
node-name : 停止するノードの CF ノード名を指定します。<br />
● いずれのノードにもログインできない場合<br />
― PRIMEPOWER の場合<br />
本体装置のリクエストスイッチを押して、運用ノードをパニックさせてください。<br />
リクエストスイッチを有効にするには、モードスイッチの操作も必要です。<br />
― PRIMERGY の場合<br />
本体装置の NMI ボタンを押すか、キー操作によって運用ノードをパニックさせて<br />
ください。<br />
― PRIMEQUEST の場合<br />
Web-UI を使用して運用ノードを停止してください。
3.2 運用全般に関するトラブル<br />
Q3-2-52 クラスタノードが起動しているにもかかわらず、Cluster Admin の CRM メインウィ<br />
ンドウでクラスタノードが 起動状態 (緑色のアイコン)にならない<br />
対処<br />
Cluster Admin を終了し、Web-Based Admin View 画面の Global Cluster Services メニューか<br />
ら、再度 Cluster Admin を起動してください。<br />
Cluster Admin が起動した後、CRM ウィンドウを表示しクラスタノードの起動状態を確認してく<br />
ださい。<br />
Cluster Admin を再起動しても同様の現象が頻繁に発生する場合は、当社技術員 (SE) に連絡し<br />
てください。<br />
確認事項<br />
Cluster Admin の CF ウィンドウで、該当のクラスタノードが起動状態 (緑色のアイコン)で表<br />
示されていますか?<br />
Q3-2-53 運用中に 7210 のメッセージが表示される<br />
An error was detected in MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1<br />
mmb_ipaddress2:mmb_ipaddress2 node_ipaddress1:node_ipaddress1<br />
node_ipaddress2:node_ipaddress2 status:status detail:detail)<br />
原因<br />
MMB からの応答がないためメッセージか表示されていると考えられます。<br />
対処<br />
以下の要因が考えられます。要因に従って対処を行ってください。<br />
● MMB が故障している<br />
ハード故障の要因を取り除いてください。<br />
● システムの CPU 負荷が長時間発生している<br />
メッセージが表示されたノードで高負荷となっている処理を見直してください。<br />
Q3-2-54 クラスタアプリケーションを Online へ遷移させたとき、以下のメッセージが表示<br />
され状態遷移プロシジャリソースで異常が発生する。<br />
FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition<br />
procedure execution.(error procedure:procedure<br />
detail:code1-code2-code3-code4-code5-code6-code7)<br />
原因<br />
状態遷移プロシジャ内で標準出力または標準エラーにメッセージを出力しようとしたため、状態<br />
遷移プロシジャが異常終了した可能性があります。<br />
状態遷移プロシジャ内では echo(1) コマンドなどで標準出力および標準エラー出力にメッセー<br />
ジを出力することはできません。<br />
97
第3章 運用時のトラブル<br />
98<br />
対処<br />
状態遷移プロシジャの動作状態を確認する場合は、リダイレクションを使用して自製品のログ<br />
ファイルに出力してください。<br />
Q3-2-55 現象1:シャットダウン時に「clonltrc: ERROR: Module clonltrc is in use」の<br />
メッセージが出力される<br />
現象2:システム起動時に「rc: Starting clonltrc: failed」のメッセージが出力される<br />
原因<br />
対処<br />
● 現象1の原因<br />
シャットダウン時に、カーネルモジュール(clonltrc)が使用する特殊ファイルをオープ<br />
ンしたままのプロセスが存在するため、カーネルモジュール(clonltrc)の停止時にモ<br />
ジュールのアンロードに失敗するメッセージが出力されます。<br />
● 現象2の原因<br />
シングルユーザモードに移行した場合、現象1の原因によりカーネルモジュール<br />
(clonltrc)がロードされたままになることがあります。その状態でマルチユーザモード<br />
に移行した場合、すでにカーネルモジュール(clonltrc)がロード済みであるため、カー<br />
ネルモジュール(clonltrc)のロードで失敗するメッセージが出力されます。<br />
1. 現象1と現象2が発生した場合<br />
シングルユーザモードからマルチユーザモードに移行した場合、必ずシステム再起動の操<br />
作 (例: shutdown -r now) によりマルチユーザモードに移行するようにしてください。<br />
2. 現象1のみ発生した場合(シングルユーザモードに移行した場合)<br />
本メッセージが出力されるだけで動作に問題ありません。マルチユーザモードに移行する<br />
場合は、必ずシステム再起動の操作 (例: shutdown -r now) によりマルチユーザモード<br />
に移行するようにしてください。<br />
3. 現象1のみ発生した場合(通常のシャットダウンまたはシステム再起動の場合)<br />
対処の必要はありません。本メッセージが出力されるだけで動作に問題ありません。<br />
4. 上記以外が発生する場合は、当社技術員に連絡してください。<br />
Q3-2-56 ノード故障が発生していないにもかかわらず、ノード故障を通知する以下のメッ<br />
セージが表示される<br />
"FJSVcluster: エラー: claddfaultrsc: 6751: SysNode 故障が発生しました"<br />
原因<br />
全ノードが停止した状態から1ノードのみ起動させた場合に、本メッセージが表示される場合が<br />
あります。<br />
対処<br />
オペレータに他ノードが停止しているという注意を喚起するために表示されるメッセージであ<br />
り、実際にノード故障が発生していないのであれば、特に対処を行う必要はありません。
3.2 運用全般に関するトラブル<br />
Q3-2-57 PersistentFault 属性を 1(Yes) に設定しているにもかかわらず、userApplication<br />
が起動時 Faulted にならない<br />
原因<br />
以下の条件をすべて満たす場合、PersistentFault 属性に 1 が設定されていても、<br />
userApplication は起動時 Faulted になりません。<br />
1. ノードの FC ケーブルをすべて抜く。<br />
2. I/O エラー検出後 Faulted に遷移する前に、<strong>PRIMECLUSTER</strong> 以外の製品の処理でノードが<br />
パニックしリブートする。<br />
3. 共有ディスク接続確認 (*1) により RMS の起動が抑止される(FC ケーブルは抜けたまま<br />
の状態)。<br />
4. FC ケーブルを差し戻し、再度リブートする。<br />
FC ケーブル抜けなど共有ディスク接続確認において故障が検出された場合、PersistentFault<br />
属性が機能し userApplication を Faulted にするより前に、共用ディスク接続確認が故障を通<br />
知し、RMS の起動を抑止します。<br />
このため、故障から復旧し RMS が起動できる状態になった後に、あらためて故障を通知し、<br />
userApplication 起動の抑止を行う必要がないため、userApplication を Faulted にしていま<br />
せん。<br />
(*1)共有ディスク装置接続確認の設定については、<strong>PRIMECLUSTER</strong> 導入運用手引書(Solaris(TM)<br />
オペレーティングシステム版)の、「5.3 共用ディスク装置接続確認の設定」を参照してくださ<br />
い。<br />
対処<br />
不要です。<br />
Q3-2-58 hvlogcleanコマンドを実行した際に以下のメッセージがsyslog、およびCluster<br />
Adminに出力される<br />
clwatchlogd: FJSVcluster: ERROR: exec_chg_line: 6000: An internal error occurred.<br />
(function:fopen detail:0x30000071-0x2-0-0xffff)<br />
原因<br />
hvlogcleanコマンドを実行した際に、RMSのログファイルが一時的に参照できなくなった可能性<br />
があります。<br />
対処<br />
不要です。<br />
99
第3章 運用時のトラブル<br />
100<br />
Q3-2-59 状態遷移中にリソース故障が発生した場合、Faultedのクリア操作を行っていなくて<br />
も以下のメッセージが出力されることがある<br />
cldelfaultrsc: FJSVcluster: INFO: cldelfaultrsc: 2700: The resource fail has<br />
recovered.SysNode:SysNode userApplication:userApplication Resorce:resource<br />
対処<br />
hvdispコマンド、または ClusterAdminのRMSタブでリソースの状態を確認し、Faultedのクリア<br />
操作を行ってください。<br />
Q3-2-60 ネットワークカード交換後、ネットワークがアップしない<br />
原因<br />
ネットワーク定義ファイル (ifcfg-ethx)のMACアドレスを修正していないことが考えられます。<br />
対処<br />
ifcfg-ethxのMACアドレスを修正してください。<br />
Q3-2-61 富士通 MW の <strong>PRIMECLUSTER</strong> 対応製品において、状態遷移プロシジャからプロセス監<br />
視を使用せずにプロセスを起動する場合、そのプロセスのファイルディスクリプタ(fd)がハー<br />
ド/ソフトリミット共に 1024となる<br />
原因<br />
<strong>PRIMECLUSTER</strong>の状態遷移プロシジャでは、<strong>PRIMECLUSTER</strong>の資源を引き継いでプロセスが起動され<br />
るため、ファイルディスクリプタ(fd)のハード/ソフトリミットが共に1024となります。<br />
対処<br />
以下の手順で対処を行なってください。<br />
本手順はApplicationクラスの状態遷移プロシジャproc.shを変更する場合の手順です。ク<br />
ラスや状態遷移プロシジャ名は環境に合わせて変更し実施してください。<br />
1. すべてのノードのRMSを停止します。<br />
以下のコマンドをクラスタを構成するいずれかのノードで実行し、すべてのノードのRMS<br />
を停止します。<br />
# hvshut –a<br />
2. 一時ディレクトリに移動し、状態遷移プロシジャを取り出します。<br />
例)一時ディレクトリ/tmpに状態遷移プロシジャproc.shを取り出す場合<br />
# cd /tmp<br />
# /etc/opt/FJSVcluster/bin/clgetproc -c Application proc.sh
3.2 運用全般に関するトラブル<br />
3. 取り出した状態遷移プロシジャを編集します。<br />
状態遷移プロシジャの処理の先頭に"ulimit"の定義を追加し、ファイルディスクリプタの<br />
最大値を指定します。"ulimit"で指定する値は、その環境で必要な値を設定してください。<br />
例) ファイルディスクリプタの最大値を4096に設定する場合<br />
# vi proc.sh<br />
#!/bin/sh<br />
ulimit -n 4096<br />
・・・<br />
4. 編集した状態遷移プロシジャを登録します。<br />
# /etc/opt/FJSVcluster/bin/clsetproc -c Application -o proc.sh<br />
5. 状態遷移プロシジャを登録しているすべてのノードで 2.~4.の手順を実施します。<br />
6. RMSを起動します。<br />
以下のコマンドをクラスタを構成するいずれかのノードで実行し、すべてのノードのRMS<br />
を起動します。<br />
# hvcm -a<br />
Q3-2-62 運用系でシステム停止中に、以下のエラーメッセージが出力された<br />
cldelmsg: FJSVcluster: ERROR: cldelmsg: 6000: An internal error occurred.<br />
(function:_ClExecGetNode detail:0x300a0006-0xfffffff4-0-0)<br />
原因<br />
クラスタシステム全体としての切替処理が完了する前に、相手ノードでシャットダウン処理が開<br />
始された可能性があります。<br />
対処<br />
切替処理が完了してから shutdown を実施してください。<br />
101
第3章 運用時のトラブル<br />
3.3 CF に関するトラブル<br />
102<br />
CF に関するトラブルシューティングについて説明します。<br />
メッセージの出力先は、使用する OS によって異なります。<br />
― Solaris の場合:/var/adm/messages<br />
― Linux の場合:/var/log/messages<br />
本節では、特に断りのない限り Solaris のメッセージファイル名を記載しています。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-3-1 ノードがクラスタに参入できない ○ ○<br />
Q3-3-2 システム起動時、/var/log/messages ファイルに以下の警告<br />
メッセージが出力される場合がある<br />
Warning!!! net_device size is different<br />
- ○<br />
Q3-3-3 運用中に /var/adm/messages ファイルに以下のメッセージが<br />
出力される場合がある<br />
cf:mipc:ib_available gethostbyname: No such file or<br />
directory<br />
○ ○<br />
Q3-3-4 <strong>PRIMECLUSTER</strong> 環境で、XSCF にてサーバが認識できない ○ -<br />
Q3-3-5 Auto negotiation を使用しているインタコネクトデバイスにつ<br />
いて、cftool –d で表示される speed が、実際の speed と異<br />
なることがある<br />
または、クラスタインタコネクトにギガビットイーサネットを<br />
使用しているにもかかわず、cftool –d で表示される speed<br />
が、"100" で表示される<br />
○ ○<br />
Q3-3-6 Cluster Admin の CF メインウィンドウにてリモートデバイス<br />
とローカルデバイスが UNKNOWN となる<br />
○ ○<br />
Q3-3-7 Cluster Admin の CF メインウィンドウで、相手ノードの状態<br />
が "UNKNOWN" と表示される<br />
○ ○<br />
Q3-3-8 cfconfig コマンドで CF のシャットダウンを行うと、以下の<br />
メッセージが表示され CF がシャットダウンできない<br />
cfconfig: cannot unload: #0406: generic: resource is busy<br />
および cfconfig: check if dependent service-layer module(s)<br />
active<br />
○ ○<br />
Q3-3-9 Cluster Admin GUI で CF の起動を行うと、以下のメッセージ<br />
が出力され、GFS の起動に失敗する<br />
ERROR: sfcfsrm:0011: Starting the sfcfrmd daemon failed<br />
because quorum does not exist<br />
○ ○<br />
Q3-3-10 ciptool が実行できない - ○
Q3-3-1 ノードがクラスタに参入できない<br />
3.3 CF に関するトラブル<br />
対処<br />
"3.7 ノードの参入に関するトラブル" を参照して、システムの状態を確認してください。<br />
Q3-3-2 システム起動時、/var/log/messages ファイルに以下の警告メッセージが出力される<br />
場合がある<br />
Warning!!! net_device size is different<br />
対処<br />
動作に問題はありませんので、対処の必要はありません。本メッセージを無視してください。<br />
Q3-3-3 運用中に /var/adm/messages ファイルに以下のメッセージが出力される場合がある<br />
cf:mipc:ib_available gethostbyname: No such file or directory<br />
原因<br />
ノード名(uname -nの出力)と CF ノード名が異なる場合、CF ノード名は /etc/inet/hosts<br />
(Solaris)または /etc/hosts(Linux)に存在しないため、本デバッグメッセージが出力され<br />
ます。<br />
対処<br />
本メッセージは保守用のメッセージであり、動作に問題はありませんので、対処の必要はありま<br />
せん。本メッセージを無視してください。<br />
デバッグメッセージを非表示にするには、/etc/inet/hosts(Solaris) または /etc/hosts<br />
(Linux)に CF ノード名を記述してください。<br />
Q3-3-4 <strong>PRIMECLUSTER</strong> 環境で、XSCF にてサーバが認識できない<br />
原因<br />
クラスタサーバと XSCF の IP アドレスのセグメントが異なっている可能性があります。<br />
対処<br />
クラスタサーバと XSCF の IP アドレスのセグメントが異なるとシャットダウン機構を使用す<br />
ることができません。クラスタサーバと XSCF の IP アドレスを同一セグメントにしてください。<br />
103
第3章 運用時のトラブル<br />
104<br />
Q3-3-5 Auto negotiation を使用しているインタコネクトデバイスについて、cftool –d で<br />
表示される speed が、実際の speed と異なることがある<br />
または、クラスタインタコネクトにギガビットイーサネットを使用しているにもかかわず、<br />
cftool –d で表示される speed が、"100" で表示される<br />
説明<br />
cftool –d で表示される speed は、必ずしもその時のデバイスの speed と一致するとは限りま<br />
せん。<br />
対処<br />
/var/adm/messages ファイルおよびコンソールに出力されているシステム起動時のメッセージ<br />
を参照し、該当のデバイスがアップされる際に表示される speed を確認してください。<br />
[/var/adm/messages]<br />
fjgi0: network connection up<br />
autonegotiation: on<br />
speed: 1000<br />
Q3-3-6 Cluster Admin の CF メインウィンドウにてリモートデバイスとローカルデバイスが<br />
UNKNOWN となる<br />
現象<br />
Cluster Admin の CF メインウィンドウで、リモートデバイスとローカルデバイスに UNKNOWN と<br />
表示される。<br />
Cluster Admin の CF メインウィンドウにて、左パネルツリーの CF ノード名をクリックし表示<br />
されるノードの詳細画面において、"ルート" のリモートデバイスとローカルデバイスが<br />
UNKNOWN となる場合があります。<br />
原因<br />
Cluster Admin の障害です。<br />
対処<br />
Cluster Admin のパッチを適用してください。<br />
なお、以下のコマンドを実行することで正しい状態を確認することができます。<br />
# /opt/SMAW/SMAWcf/bin/cftool -d
3.3 CF に関するトラブル<br />
Q3-3-7 Cluster Admin の CF メインウィンドウで、相手ノードの状態が "UNKNOWN" と表示さ<br />
れる<br />
原因<br />
全クラスタインタコネクト間の通信ができないために相手ノードの状態が認識でき<br />
ず、"UNKNOWN" と表示されています。<br />
対処<br />
すべてのクラスタインタコネクト間の通信が可能な状態にし、すべてのノードを再起動してくだ<br />
さい。<br />
Q3-3-8 cfconfig コマンドで CF のシャットダウンを行うと、以下のメッセージが表示され<br />
CF がシャットダウンできない<br />
cfconfig: cannot unload: #0406: generic: resource is busy および cfconfig: check if<br />
dependent service-layer module(s) active<br />
原因<br />
<strong>PRIMECLUSTER</strong> 階層型サービスの CF リソースが稼働中であるか、<strong>PRIMECLUSTER</strong> 階層型サービス<br />
に CF リソースの割り当てが行われている場合にエラーとなります。<br />
対処<br />
RMS、SIS、OPS、CIP などを停止させてから CF をアンロードする必要があります。個々の製品の<br />
停止方法については、製品の README を参照してください。システムログファイルに以下の詳細エ<br />
ラーメッセージも出力されます。<br />
OSDU_stop: failed to unload cf_drv<br />
システムを再起動しているシャットダウンスクリプトが cfconfig コマンドを呼び出すという特<br />
別な場合には、以下のエラーメッセージがシステムログファイルに出力されます。<br />
OSDU_stop: runlevel now n: sent EVENT_NODE_LEAVING_CLUSTER (#xxxx)<br />
cfconfig: cannot unload: #0423: generic: permission denied<br />
CF のシャットダウンでエラーが発生しました。通常、このエラーメッセージは権限のないユーザ<br />
が CF を停止させようとした場合に出力されます。CF の起動、停止、および構成はシステム管理<br />
者権限で実行してください。システムログファイルに以下の詳細エラーメッセージも出力されます。<br />
OSDU_stop: failed to open /dev/cf (EACCES)<br />
105
第3章 運用時のトラブル<br />
106<br />
Q3-3-9 Cluster Admin GUI で CF の起動を行うと、以下のメッセージが出力され、GFS の起<br />
動に失敗する<br />
ERROR: sfcfsrm:0011: Starting the sfcfrmd daemon failed because quorum does not exist<br />
説明<br />
本メッセージは、GUI からの CF 起動時に、クラスタ整合状態が保証されていないため、GFS サー<br />
ビスの起動を中止したことを示しています。sfcfrmd デーモンの起動方法を wait に設定してい<br />
る場合、GUI からの CF 起動時に、クラスタ整合状態が保証されていないと、GFS サービスの起<br />
動を中止します。<br />
以下の場合に、クラスタ整合状態が保証されないため、GFS サービスの起動を中止します。<br />
● クラスタパーティションが発生した。<br />
● 全ノードで CF を停止した後に、GUI から CF の起動し GFS の運用を行おうとした。<br />
対処<br />
全ノードの CF を停止した後に、GUI から CF の起動を行う場合は、"<strong>PRIMECLUSTER</strong> Global File<br />
Services 説明書" の "GFS 共用ファイルシステムを利用している環境で GUI から CF を起動す<br />
る手順"に従って、CF を起動してください。<br />
上記の手順に従っても、GFS サービスの起動に失敗する場合は、クラスタパーティションが発生し<br />
たことが原因と考えられます。"<strong>PRIMECLUSTER</strong> Global File Services 説明書" の "sfcfrmd デー<br />
モンが起動しない場合の対処" を参照し、対処を行ってください。<br />
Q3-3-10 ciptool が実行できない<br />
対処<br />
/usr/bin/ciptool が、/opt/SMAW/SMAWcf/bin/ciptool へのシンボリックリンクか確認してくださ<br />
い。<br />
シンボリックリンクでない場合は、/opt/SMAW/SMAWcf/bin/ciptool コマンドを実行してください。
3.4 RMS に関するトラブル<br />
RMS の使用中に発生する問題の解決方法について説明します。<br />
以下の現象が発生した場合は、該当する問題の対処方法を試してください。<br />
3.4 RMS に関するトラブル<br />
RMS で異常が発生した場合、トラブルシューティングのための情報を含んだエラーメッセージが出<br />
力されます。メッセージの内容を確認し、その内容に従った対処を行ってください。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-4-1 ユーザアプリケーションを削除したにもかかわらず、削除前の情報<br />
が表示される<br />
○ ○<br />
Q3-4-2 RMS 起動時に毎回ファイルシステムの fsck が行われる ○ -<br />
Q3-4-3 RMS が起動後にハングする ( プロセスは実行中だが、hvdisp がハ<br />
ングする)<br />
○ ○<br />
Q3-4-4 RMS が起動直後にループする ( 停止する場合もある) ○ ○<br />
Q3-4-5 RMS がノードの障害を検出しても (network connection failed to<br />
host/ ...)、ノードを停止しようとしない<br />
○ ○<br />
Q3-4-6 hvcm コマンドを使用してRMS を起動した場合に、クラスタアプリ<br />
ケーションに登録しているアプリケーションの機能がパーミッショ<br />
ンエラーとなる<br />
○ ○<br />
Q3-4-7 RMS のログ格納ディレクトリ (/var/opt/SMAWRrms/log) に格納さ<br />
れている RMS ログファイルが削除される<br />
○ ○<br />
Q3-4-8 RMS 間のハートビートが切断されてから、相手ノードを強制停止す<br />
るまでの時間を変更したい<br />
○ ○<br />
Q3-4-9 RMS を起動させると、RMS(BM, 82) のメッセージが出力され RMS が<br />
停止し、他ノードより強制停止 (panic/sendbreak/reset) される<br />
○ ○<br />
Q3-4-10 運用中に以下のメッセージが表示され、ノードがパニックした<br />
(BM, 65)NOTICE:Base monitor heartbeat between this host and<br />
hostis off.<br />
○ ○<br />
Q3-4-11 RMS を起動すると、RMS (WRP, 34) のメッセージが表示されてハー<br />
トビートが切断し、ノードが強制停止 (panic/sendbreak/reset) さ<br />
れる<br />
○ ○<br />
Q3-4-12 スケーラブル運用のクラスタアプリケーションの状態が Wait 後、<br />
Faulted となる<br />
○ ○<br />
Q3-4-13 スケーラブル運用のクラスタアプリケーションが複数ノードで<br />
Online になる<br />
○ ○<br />
Q3-4-14 hvshut コマンドを実行すると、以下のエラーメッセージが出力され<br />
た<br />
hvshut terminates due to timeout<br />
○ ○<br />
Q3-4-15 hvipalias ファイルに定義されていない IP アドレスが引継ぎIPア<br />
ドレスとして活性化された<br />
○ -<br />
Q3-4-16 RMS 停止処理時に、RMS でタイムアウトが発生し、Offline 処理が<br />
行われなかった<br />
○ ○<br />
Q3-4-17 RMS を起動すると以下のメッセージが出力され、RMS の起動に失敗<br />
する<br />
(CML, 14) ####ERROR: Unable to find or Invalid configuration<br />
file#####」<br />
○ ○<br />
Q3-4-18 "hvswitch -f" コマンドを実行した際に、"Command aborted" のメッ<br />
セージが出力される<br />
○ ○<br />
Q3-4-19 運用中に RMS(WRP,34)、(WRP,35) のメッセージが表示される ○ ○<br />
107
第3章 運用時のトラブル<br />
108<br />
■トラブル一覧(続き)<br />
No. 現象 Solaris Linux<br />
Q3-4-20 RMS の停止を行うと 1 台で パニックが発生した ○ ○<br />
Q3-4-21 <strong>PRIMECLUSTER</strong> 起動時に RMS の起動に失敗し、Cluster Admin の msg<br />
タブに以下が出力される<br />
hvdisp RMS is not running<br />
ERROR:RMS has died unexpectedly!<br />
○ ○<br />
Q3-4-22 ノードを停止すると以下のメッセージが表示された<br />
(ADM, 108): NOTICE: Processing shutdown request for host<br />
npydsdb21RMS.<br />
○ ○<br />
Q3-4-23 RMS が起動されない ○ ○<br />
Q3-4-24 hvshut コマンドの -l オプションを両ノードで使用して問題ない<br />
か<br />
○ ○<br />
Q3-4-25 運用中以下のメッセージが表示され、ノードが強制停止された<br />
(SYS, 88): WARNING: Detected missing heartbeat from cluster host<br />
. This may be a temporary problem caused by high system<br />
load. RMS will react if this problem persists for more than <br />
seconds.<br />
(SYS, 88): WARNING: No heartbeat from cluster host <br />
within the last 10 seconds.<br />
This may be a temporary problem caused by high system load. RMS<br />
will react if this problem persists for seconds more.<br />
○ ○<br />
Q3-4-26 運用中以下のメッセージが表示され、クラスタノードが Online か<br />
ら Offline に遷移した<br />
(SYS, 88): WARNING: Cluster host transitioned from<br />
online to offline unexpectedly.<br />
Allowing more seconds to expire before treacting.<br />
○ ○<br />
Q3-4-27 RMSを起動すると以下のメッセージが出力される<br />
(SCR, 25): WARNING: Controller <br />
StateChangeScript has failed with status n.<br />
○ -<br />
Q3-4-28 RMS の停止処理中にシステムが異常停止しても、業務が待機系に切<br />
り替わらない<br />
○ ○<br />
Q3-4-29 以下の条件の時、他ノードから強制停止のアクションが実行される<br />
- RMS が起動されており、かつ、<br />
- 利用者アプリケーションが RMS が使用するメッセージキュー<br />
を削除した場合<br />
出力されるメッセージ:<br />
RMS (QUE, 1): FATAL ERROR: Error status in ADMIN_Q.<br />
RMS (BM, 47): NOTICE: RMS monitor has exited with the exit<br />
code .<br />
○ ○<br />
Q3-4-30 MAC アドレス引継ぎを設定したリソースが定義されている<br />
userApplication を起動すると、引継ぎネットワークリソースの活<br />
性化に失敗する。MAC アドレスの設定を表記しないと、正常に引継<br />
ぎネットワークリソースを活性化できる<br />
○ -<br />
Q3-4-31 Cmdline リソースが Online 状態にもかかわらず Start スクリプ<br />
トが実行され、Cmdline リソースから呼ばれるアプリケーションが<br />
二重起動される<br />
○ ○<br />
Q3-4-32 Fsystem リソースに異常が発生し、フェイルオーバが発生する ○ ○
■トラブル一覧(続き)<br />
3.4 RMS に関するトラブル<br />
No. 現象 Solaris Linux<br />
Q3-4-33 RMS 起動時に以下のメッセージが出力される<br />
(CRT, 4): ERROR: XXXXRMSXXX: userApplication Contract<br />
retransmit failed: Message Id = 33 see bmlog for contract<br />
details.<br />
○ ○<br />
Q3-4-34 hvswitch コマンドを実行しても、userApplication の切替えができ<br />
ない<br />
○ ○<br />
Q3-4-35 <strong>PRIMECLUSTER</strong> 動作中、/var 領域が 100% になった ○ ○<br />
Q3-4-36 userApplication の切替えを行うとパトロール診断リソースが<br />
Fault になる<br />
○ -<br />
Q3-4-37 userApplication の排他設定が行われているにも関わらず、同一<br />
ノードで優先度の高い userApplication と優先度の低い<br />
userApplication が Standby -Online 状態で混在する<br />
○ ○<br />
Q3-4-38 手動切替時、自ノードの userApplication の Offline 処理が完了<br />
する前に、相手ノードが停止した。このため自ノードで再度<br />
userApplication が Onlineになることを期待したが、自動的に<br />
Online にならなかった<br />
○ ○<br />
109
第3章 運用時のトラブル<br />
110<br />
Q3-4-1 ユーザアプリケーションを削除したにもかかわらず、削除前の情報が表示される<br />
説明<br />
ユーザアプリケーションを削除しても Configuration 情報の構成に矛盾がある場合、削除前の構<br />
成情報が表示されます。<br />
対処<br />
RMS 構成に矛盾がないかを確認してください。<br />
Q3-4-2 RMS 起動時に毎回ファイルシステムのfsck が行われる<br />
原因<br />
/etc/dfs/dfstab ファイルに、誤って Fsystem リソースとして設定されているファイルシステ<br />
ムに対する share の記述が行われている可能性があります。<br />
対処<br />
クラスタアプリケーションに含まれるファイルシステムリソースをネットワークで共有 (NFS) す<br />
る場合は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "6.6.1.2.1 事前設定" の "■ファイルシステムを<br />
ネットワークで共有 (NFS) する場合の準備" に従い、事前設定してください。<br />
Q3-4-3 RMS が起動後にハングする ( プロセスは実行中だが、hvdisp がハングする)<br />
説明<br />
ローカルノードが他のクラスタノードから見て LEFTCLUSTER 状態の場合に、この問題が発生しま<br />
す。<br />
対処<br />
すべてのクラスタノード上で cftool –n を実行し、ローカルノードの状態が LEFTCLUSTER 状態と<br />
なっているか確認してください。<br />
LEFTCLUSTER 状態となっている場合は、ローカルノードで cftool –k を実行し、LEFTCLUSTER 状<br />
態をクリアしてください。ノードがクラスタに参入したあとも、RMS は稼動し続けます。RMS を再<br />
起動する必要はありません<br />
Q3-4-4 RMS が起動直後にループする ( 停止する場合もある)<br />
説明<br />
CIP 構成定義ファイル(/etc/cip.cf)にネットマスクのエントリが含まれている可能性がありま<br />
す。<br />
RMS では、ネットマスクのエントリがあると、ネットマスクを IP アドレスと判断してホスト名を<br />
検索する処理を行うため処理が停止します。<br />
対処<br />
ネットマスクのエントリが /etc/cip.cf に存在することを調べてください。<br />
ネットマスクのエントリを削除して、RMS を再起動してください。
3.4 RMS に関するトラブル<br />
Q3-4-5 RMS がノードの障害を検出しても (network connection failed to host/ ...)、ノー<br />
ドを停止しようとしない<br />
説明<br />
過去の停止要求が失敗したときからノードが Wait 状態になっている場合に、この問題が発生しま<br />
す。<br />
Wait 状態の SysNode に対する停止要求が失敗すると、システム管理者がこの状態を手動<br />
でクリアするまで、Wait 状態は変化しません。<br />
対処<br />
hvdisp -T SysNode を使用してすべての SysNode オブジェクトの状態を確認してください。<br />
(hvdisp コマンドの実行には、ルート権限は必要ありません。)<br />
SysNode が Wait 状態であることを確認したら、hvutil -o SysNode または hvutil –u SysNode を<br />
実行します。<br />
hvutil -u を実行すると、正常なノードは SysNode が停止しているものとみなし、直ち<br />
にフェイルオーバを起動します。このとき、ノードがアクティブの場合は、データが破損<br />
する可能性があります。必ず、ノードを停止させてからコマンドを実行してください。<br />
hvutil -o を実行すると、正常なノードは SysNode が稼動しているものとみなします。<br />
したがって、正常なノードはリモート SysNode と同期がとられているものと想定して動<br />
作します。正常に動作していない場合は、本コマンドを実行しないでください。データが<br />
破損する可能性があります。<br />
Q3-4-6 hvcm コマンドを使用してRMS を起動した場合に、クラスタアプリケーションに登録<br />
しているアプリケーションの機能がパーミッションエラーとなる<br />
対処<br />
hvcm コマンドを使用して RMS を起動すると、クラスタが起動するプロセスの実グループID と<br />
実効グループ ID は 1(other) になります。よって、起動するクラスタサービスの実効グループ<br />
ID が 0(root) でなければならない場合は、hvcm(1M) コマンドで RMS を起動する際に、スー<br />
パーユーザ権限で、以下を実行して実効グループを変更してください。<br />
# newgrp root<br />
# /opt/SMAW/bin/hvcm hvcm(1M)コマンドのオプション<br />
# newgrp<br />
hvcm(1M) コマンドのオプション:hvcm(1M) コマンドに指定するオプションを指定します。<br />
hvcm(1M) コマンドのオプションの指定方法については、hvcm(1M) コマンドのオンラインマニュ<br />
アルを参照してください。<br />
InterAPLINK を使用している場合は、グループ ID が 0(root) でなければならないため RMS の<br />
起動を Cluster Admin GUI から行うか、上記方法で hvcm コマンドを実行してください。<br />
111
第3章 運用時のトラブル<br />
112<br />
Q3-4-7 RMS のログ格納ディレクトリ (/var/opt/SMAWRrms/log) に格納されている RMS ログ<br />
ファイルが削除される<br />
原因<br />
RMS ロ グ フ ァ イ ル は 、 RMS の 環 境 変 数 HV_LOG_ACTION 、 HV_LOG_ACTION_THRESHOLD 、<br />
HV_LOG_WARN_THRESHOLD、RELIANT_LOG_LIFE の設定内容に従って、保持日数、サイズがチェック<br />
され、古いログは自動的に削除されます。<br />
対処<br />
RMS の環境変数 HV_LOG_ACTION、HV_LOG_ACTION_THRESHOLD、HV_LOG_WARN_THRESHOLD、<br />
RELIANT_LOG_LIFE の設定内容を確認し、運用に合わせて変更してください。<br />
Q3-4-8 RMS 間のハートビートが切断されてから、相手ノードを強制停止するまでの時間を変<br />
更したい<br />
対処<br />
RMS を起動する hvcm コマンドにおいて、-h オプションと変更したい時間(秒)を指定して実行す<br />
ることで変更できます。なお、本オプションを指定しない場合のデフォルトは 45 秒です。<br />
例)相手ノードを強制停止するまでの時間を 100 秒に変更する場合<br />
# hvcm -c config -h 100 -a <br />
なお、本オプションを指定しない場合のデフォルトはバージョンにより異なり、以下のとおりで<br />
す。<br />
● 4.0Axx, 4.1Axx の場合: 45 秒<br />
● 4.2A00 以降の場合 : 600 秒<br />
Q3-4-9 RMS を起動させると、RMS(BM, 82) のメッセージが出力され RMS が停止し、他ノード<br />
より強制停止 (panic/sendbreak/reset) される<br />
原因<br />
クラスタインタコネクトを使用したノード間の通信ができていません。その原因として、OS 起動<br />
時に、クラスタインタコネクトが使用する NIC が、half-duplex で起動している可能性がありま<br />
す。<br />
対処<br />
ノード間の通信が確実に行われるようにしてください。<br />
Switching Hub の Port の設定、またはノードの NIC の negotiation の設定を見直してください。<br />
その後、ローカルの RMS モニタを再起動してください。
Q3-4-10 運用中に以下のメッセージが表示され、ノードが パニックした<br />
3.4 RMS に関するトラブル<br />
(BM, 65)NOTICE:Base monitor heartbeat between this host and hostis off.<br />
原因<br />
RMS のハートビートが切れたため相手ノードを強制停止したと考えられます。<br />
RMS ではハートビート切れを検出すると、45 秒間ハートビートの復旧を待ちますが、45 秒間経過<br />
しても、復旧しなかった場合、相手ノードを強制停止します。<br />
対処<br />
システムの負荷など、ハートビート切れとなる要因が発生していないか確認し、その原因の対処を<br />
行なってください。<br />
RMS のハートビート監視時間を変更したい場合は、RMS を起動する際、-hオプションで監視時間を<br />
指定してください。<br />
Q3-4-11 RMS を起動すると、RMS (WRP, 34)のメッセージが表示されてハートビートが切断し、<br />
ノードが強制停止 (panic/sendbreak/reset) される<br />
原因<br />
クラスタインタコネクトを使用したノード間の通信ができていません。<br />
ノード間通信が失敗した原因として、RMS(WRP, 39) のメッセージが表示されている場合は、メモ<br />
リ不足などの I/O 負荷やシステム負荷が発生している可能性があります。<br />
対処<br />
I/O 負荷やシステム負荷がないか確認し、負荷を取り除いてください。<br />
また、/tmp の空き領域が少ない場合、メモリ不足が発生したり、RMS がエラーとなりますので、<br />
/tmp の使用状況を確認し、/tmp の領域を空けてください。<br />
Q3-4-12 スケーラブル運用のクラスタアプリケーションの状態が Wait 後、Faulted となる<br />
説明<br />
排他関係を設定したスタンバイ運用で構成するスケーラブル運用のクラスタアプリケーションに<br />
おいて、スケーラブル運用のクラスタアプリケーションの状態が Wait 後、Faulted となる場合が<br />
あります。<br />
以下の条件の場合、スケーラブル運用のクラスタアプリケーションの状態が Wait 後、Faulted と<br />
なります。<br />
1. 排他関係を設定したスタンバイ運用で構成するスケーラブル運用のクラスタアプリケー<br />
ションが存在している。 かつ、<br />
2. ノード異常やリソース故障などの要因により、1 つ以上のスタンバイ運用のクラスタアプ<br />
リケーションの運用となれるノードが存在しない。<br />
113
第3章 運用時のトラブル<br />
114<br />
例)<br />
ノード 1 とノード 2 で異常が発生し、スタンバイ運用のクラスタアプリケーション 2 で運用<br />
となれるノードが存在しないため、スケーラブル運用のクラスタアプリケーションが Wait 後、<br />
Faulted となります。<br />
対処<br />
"説明" に記載した条件にあてはまる場合、すべてのスタンバイ運用のクラスタアプリケーション<br />
が運用状態になるまでの間、スケーラブル運用のクラスタアプリケーションの状態は Wait となり、<br />
タイムアウト時間が経過すると Faulted となります。<br />
タイムアウト時間はスケーラブル運用のクラスタアプリケーションの ScriptTimeout 属性値です。<br />
スケーラブル運用のクラスタアプリケーションが Faulted となった後にスケーラブル運用のクラ<br />
スタアプリケーションの Faulted をクリアしてください。<br />
例)<br />
# hvutil -c スケーラブル運用のuserApplication名<br />
また、ノード異常やリソース故障を解消した後、スタンバイ運用のクラスタアプリケーションが<br />
Online となるように切替えを行ってください。"説明" に記載した例の場合、ノード 1 またはノー<br />
ド 2 の異常を解消し、起動した後、スタンバイ運用のクラスタアプリケーション2をノード1また<br />
はノード 2 が Online となるよう切替えを行ってください。<br />
例)<br />
# hvswitch スタンバイ運用のuserApplication名 ノード1のSysNode名
3.4 RMS に関するトラブル<br />
Q3-4-13 スケーラブル運用のクラスタアプリケーションが複数ノードで Online になる<br />
説明<br />
スケーラブル運用のクラスタアプリケーションが Online となっているノードがパニックなどの<br />
要因で異常停止後の再起動時において、OS 起動中に hvcm コマンドの実行または ClusterAdmin<br />
で RMS を起動した場合に発生します。<br />
対処<br />
OS 起動中に RMS を起動してしまった場合には、RMSを起動してしまったノードで Online と<br />
なっているスケーラブル運用のクラスタアプリケーションを Offline に切替えてください。<br />
例)<br />
# hvutil -f RMSを起動したOnlineとなっているスケーラブルのuserApplication名<br />
また、RMS の起動は OS 起動完了(通常運用している OS ランレベルの最後の起動スクリプトの<br />
実行が完了)を管理者が確認したあとに実施することで回避できます。<br />
Q3-4-14 hvshut コマンドを実行すると、以下のエラーメッセージが出力された<br />
hvshut terminates due to timeout<br />
原因<br />
hvshut コマンド自体がタイムアウトしたことを意味しています。<br />
対処<br />
RMS の環境変数である RELIANT_SHUT_MIN_WAIT を適切な値に変更してください。<br />
Q3-4-15 hvipalias ファイルに定義されていない IP アドレスが引継ぎ IP アドレスとして<br />
活性化された<br />
原因<br />
引継ぎ IP アドレスを定義するためのファイルである、/etc/hosts が /etc/inet/hosts に正常に<br />
シンボリックリンクが張られていないことが原因です。<br />
対処<br />
シンボリックリンクを張り直してください。<br />
Q3-4-16 RMS停止処理時に、RMS でタイムアウトが発生し、Offline 処理が行われなかった<br />
原因<br />
RMS 環境変数に従い RMS の停止処理にてタイムアウトが発生したことは、<strong>PRIMECLUSTER</strong> の正常な<br />
動作です。<br />
対処<br />
環境に適した hvshut コマンドのタイムアウト値が環境変数に設定されているかを確認してく<br />
ださい。<br />
115
第3章 運用時のトラブル<br />
116<br />
Q3-4-17 RMS を起動すると以下のメッセージが出力され、RMS の起動に失敗する<br />
(CML, 14) ####ERROR: Unable to find or Invalid configuration file#####」<br />
原因<br />
クラスタアプリケーションに登録されてないリソースが残っている可能性があります。<br />
または、クラスタアプリケーションを作成していない可能性があります。<br />
対処<br />
必要に応じて、該当するリソースをクラスタアプリケーションに登録するか、リソースを削除し<br />
てください。<br />
または、クラスタアプリケーションを作成してください。クラスタアプリケーションの概要と作<br />
成方法については、"<strong>PRIMECLUSTER</strong> 導入運用手引書" を参照してください。<br />
Q3-4-18 "hvswitch -f" コマンドを実行した際に、"Command aborted" のメッセージが出力<br />
される<br />
原因<br />
"hvswitch -f" コマンドを実行後の応答メッセージに対して、オペレータの入力誤りがあったと考<br />
えられます。<br />
対処<br />
"Do you wish to proceed ? (default: no) [yes, no]: "のメッセージが出力後、正しい入力を<br />
行ってください。<br />
Q3-4-19 運用中に RMS(WRP,34)、(WRP,35) のメッセージが表示される<br />
原因<br />
NTP サーバとネットワーク接続されていない可能性があります。<br />
対処<br />
NTP サーバとネットワーク接続してください。また、NTP の設定が正しく行われているか確認し<br />
てください。<br />
Q3-4-20 RMS の停止を行うと1台で パニック が発生した<br />
原因<br />
クラスタアプリケーションの HaltFlag 属性に "Yes" を設定している場合で、クラスタアプリ<br />
ケーションの Offline 処理で、リソースの異常が発生したために最終的に panic している可能性<br />
があります。<br />
対処<br />
/var/adm/messagesで、リソース異常のエラーが出力されていないか確認してください。リソー<br />
ス異常が発生していた場合は、リソース異常の原因を調査し、正常になるよう対処してください。
3.4 RMS に関するトラブル<br />
Q3-4-21 <strong>PRIMECLUSTER</strong> 起動時に RMS の起動に失敗し、Cluster Admin の msg タブに以下が<br />
出力される<br />
hvdisp RMS is not running<br />
ERROR:RMS has died unexpectedly!<br />
原因<br />
クラスタインタコネクトで使用しているインタフェースにおいて、OS 起動時に IP アドレスを活<br />
性化する設定がされている場合、CF の起動に時間がかかり、RMS やクラスタリソース管理機構が<br />
正常に動作できないことがあります。<br />
対処<br />
クラスタインタコネクトで使用しているインタフェースにおいて、OS 起動時に IP アドレスを<br />
活性化しないように、OS の設定を変更してください。<br />
Q3-4-22 ノードを停止すると以下のメッセージが表示された<br />
(ADM, 108): NOTICE: Processing shutdown request for host npydsdb21RMS.<br />
原因<br />
RMS を停止しないで、ノードを shutdown させた場合、RMS の停止処理を実行する旨のメッセージ<br />
が出力されます。<br />
対処<br />
対処は不要です。ノードを停止する場合は、事前に RMS を停止させてください。<br />
Q3-4-23 RMS が起動されない<br />
原因<br />
リソース作成後、クラスタアプリケーションを作成していない可能性があります。<br />
あるいは、userApplication に登録していないリソースが存在する可能性があります。<br />
対処<br />
クラスタアプリケーションを作成してください。<br />
あるいは、userApplication に登録していないリソースがある場合は、登録してください。リソー<br />
スを RMS で使用しない場合は、削除してください。<br />
Q3-4-24 hvshut コマンドの -l オプションを両ノードで使用して問題ないか<br />
対処<br />
hvshut コマンドの -l オプションを両ノードで使用しても問題ありません。<br />
なお、両ノード同時に hvshut を実行したい場合は、-a オプションを使用してください。<br />
117
第3章 運用時のトラブル<br />
118<br />
Q3-4-25 運用中以下のメッセージが表示され、ノードが強制停止された<br />
(SYS, 88): WARNING: Detected missing heartbeat from cluster host . This may<br />
be a temporary problem caused by high system load. RMS will react if this problem persists<br />
for more than seconds.<br />
(SYS, 88): WARNING: No heartbeat from cluster host within the last 10 seconds.<br />
This may be a temporary problem caused by high system load. RMS will react if this problem<br />
persists for seconds more.<br />
原因<br />
RMS 間のハートビートが途切れ、 秒以上たっても応答がないため、相手ノードを強制停<br />
止したと考えられます。<br />
対処<br />
以下の要因が考えられます。要因に従って対処を行ってください。<br />
● クラスタインタコネクトがハード故障により通信ができない。<br />
LAN カード交換、ケーブル交換などを行い、ハード故障の要因を取り除いてください。<br />
● RMS がハートビート処理できないほど、システムの CPU 負荷が長時間発生している。<br />
のホストが高負荷となっている処理を見直してください。<br />
Q3-4-26 運用中以下のメッセージが表示され、クラスタノードが OnlineからOfflineに遷移<br />
した<br />
(SYS, 88): WARNING: Cluster host transitioned from online to offline<br />
unexpectedly.<br />
Allowing more seconds to expire before treacting.<br />
原因<br />
クラスタホスト で異常が発生したか、 が高負荷状態で 3 秒以上ハート<br />
ビートをやり取りできないことが考えられます。<br />
対処<br />
強制停止が実行される前に表示される警告です。頻繁に出力されてもノードが強制停止されない<br />
場合は、ノード間通信や業務負荷が高いと考えられます。システムの状態を調査分析し、問題を<br />
取り除いてください。<br />
SYS,88 が定期的に発生する場合はその時刻に cron などの自動的な処理により CPU に負荷が<br />
かかっている可能性があります。<br />
sar コマンドなどで CPU の負荷を調べた上、CPU 負荷の原因を取り除いてください。<br />
例えば以下の手順のように CPU 負荷の原因を調査してください。
1. switchlog に SYS, 88 が検出されている時刻を調べます。<br />
#grep "SYS, 88" /var/opt/SMAWRrms/log/switchlog を実行。<br />
SYS, 88 は以下のように表示されます。<br />
下記の例の場合、13 時に発生し、その後 1 時間おきに表示されています。<br />
3.4 RMS に関するトラブル<br />
2005-11-17 13:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400<br />
-sn03RMS within the last 10 seconds. This may be a temporary problem caused by<br />
high system load. RMS will react if this problem persists for 35 seconds more.<br />
:====<br />
2005-11-17 14:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400<br />
-sn03RMS within the last 10 seconds. This may be a temporary problem caused by<br />
high system load. RMS will react if this problem persists for 35 seconds more.<br />
:====<br />
2005-11-17 15:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400<br />
-sn03RMS within the last 10 seconds. This may be a temporary problem caused by<br />
high system load. RMS will react if this problem persists for 35 seconds more.<br />
:====<br />
SYS, 88 が 00 分に発生し、1 時間ごとに出力されています。1 時間ごとに起動される処<br />
理が本システムで動作している可能性があります。<br />
2. 手順 1.で特定した時刻で #sar -u を実行し、CPU 使用率を調べます。<br />
00 分で1時間ごとに起動される処理があると考えられるので、00 分前後(下記例の場合<br />
は10 時)の CPU 使用率を調べます。(Solaris,Linux 共通)<br />
例)Solaris の場合<br />
# sar -u 1 5<br />
09:59:56 %usr %sys %wio %idle<br />
09:59:57 5 2 1 93<br />
09:59:58 5 2 1 92<br />
09:59:59 5 3 13 80<br />
10:00:00 5 3 34 57<br />
10:00:01 5 2 1 92<br />
Average 5 2 10 83<br />
例)Linux の場合<br />
# sar -u 1 5<br />
09:59:56 AM CPU %user %nice %system %idle<br />
09:59:57 AM all 5.00 2.00 1.00 93.00<br />
09:59:58 AM all 5.00 2.00 1.00 92.00<br />
09:59:59 AM all 5.00 3.00 13.00 80.00<br />
10:00:00 AM all 5.00 3.00 34.00 57.00<br />
10:00:01 AM all 5.00 2.00 1.00 92.00<br />
Average: all 5.00 2.40 10.00 82.80<br />
CPU 使用率が SYS, 88 が表示されなかった時刻と比べて著しく高かった場合、その時間<br />
の処理が CPU 負荷の原因と考えられます。<br />
119
第3章 運用時のトラブル<br />
120<br />
この場合、10:00:00 の wio (Solaris の場合)、system (Linux の場合) の CPU 使用率<br />
が高いので、この時間の処理が CPU 負荷の原因と考えます。<br />
Q3-4-27 RMS を起動すると以下のメッセージが出力される<br />
(SCR, 25): WARNING: Controller StateChangeScript has<br />
failed with status n.<br />
原因<br />
userApplication Configuration Wizard で symfoware のスケーラブルアプリケーションを作成<br />
する時、Symfoware より上位の階層に 2 つ以上のリソースが存在すると、userApplication<br />
Configuration Wizard が作成するファイルの値に誤りがあることがあります。このため、<br />
userApplication 起動時に (SCR, 25) のメッセージが出力されます。<br />
対処<br />
メッセージが出力されるだけで動作に影響ありませんが、userApplication Configuretaion<br />
Wizard で作成した設定ファイルに誤りがあります。<br />
以下の手順で変更してください。<br />
1. すべてのクラスタノードで RMS を停止します。<br />
2. すべてのクラスタノードで /opt/FJSVclsfw/etc/RDBnet/ 配下でリソース名が重複定義<br />
されたファイルを編集します。<br />
例 : DB_Symfo フ ァ イ ル に リ ソ ー ス 名 ("symfoDB") が重複定義されている場<br />
合"symfoDB.symfoDB" を 1 つにします。<br />
[修正前]<br />
SFW_RDBSYSLIST=nodeARMS:DB_Symfo:symfoDB.symfoDB<br />
nodeBRMS:DB_Symfo:symfoDB.symfoDB (1 行で設定されています)<br />
[修正後]<br />
SFW_RDBSYSLIST=nodeARMS:DB_Symfo:symfoDB nodeBRMS:DB_Symfo:symfoDB<br />
すべてのノードの /opt/FJSVclsfw/etc/RDBnet/ 配下のファイルについて、同様にリソー<br />
ス名の重複設定が行われていないか確認し、重複定義されているものについては修正を<br />
行ってください。<br />
3. すべてのノードの RMS を起動します。<br />
Q3-4-28 RMS の停止処理中にシステムが異常停止しても、業務が待機系に切り替わらない<br />
原因<br />
以下の条件の時、<strong>PRIMECLUSTER</strong> の仕様により業務は待機系に切り替わりません。<br />
● <strong>PRIMECLUSTER</strong> V40 系製品を使用しており、かつ、<br />
● 運用ノードで shutdown や RMS の hvshut コマンドを実行し、かつ、<br />
● RMS の停止処理が完了する前に halt コマンドなどが実行されてシステムが異常停止し<br />
た場合<br />
<strong>PRIMECLUSTER</strong> V41 系製品では上記と同一条件のもと、業務が待機系に切り替わるように仕様改<br />
善されています。
対処<br />
運用ノードの RMS 停止操作を行う前に、業務を待機系に切り替えてください。<br />
Q3-4-29 以下の条件の時、他ノードから強制停止のアクションが実行される<br />
- RMS が起動されており、かつ、<br />
- ユーザアプリケーションがRMSが使用するメッセージキューを削除した場合<br />
出力されるメッセージ:<br />
RMS (QUE, 1): FATAL ERROR: Error status in ADMIN_Q.<br />
RMS (BM, 47): NOTICE: RMS monitor has exited with the exit code .<br />
原因<br />
以下の条件の時、<strong>PRIMECLUSTER</strong> の仕様により業務は待機系に切り替わりません。<br />
● <strong>PRIMECLUSTER</strong> V40 系製品を使用しており、かつ、<br />
● 運用ノードで shutdown や RMS の hvshut コマンドを実行し、かつ、<br />
3.4 RMS に関するトラブル<br />
● RMS の停止処理が完了する前に halt コマンドなどが実行されてシステムが異常停止し<br />
た場合<br />
<strong>PRIMECLUSTER</strong> V41 系製品では上記と同一条件のもと、業務が待機系に切り替わるように仕様改<br />
善されています。<br />
対処<br />
運用ノードの RMS 停止操作を行う前に、業務を待機系に切り替えてください。<br />
Q3-4-30 MAC アドレス引継ぎを設定したリソースが定義されている userApplication を起動<br />
すると、引継ぎネットワークリソースの活性化に失敗する。 MAC アドレスの設定を表記しな<br />
いと、正常に引継ぎネットワークリソースを活性化できる<br />
原因<br />
/opt/SMAW/SMAWRrms/etc/hvipalias ファイルの MAC アドレスの指定が規定のフォーマットに<br />
従っていない場合に本現象が発生する場合があります。MAC アドレスは、コロン ':' で区切ら<br />
れたそれぞれの数値を必ず 2 桁で表記する必要があります。<br />
対処<br />
以下の例の場合、* の部分において 1 となっている箇所は 01 と記載する必要があります。<br />
(誤)<br />
*<br />
node01 hikitugi_ip hme0 0xffffff00 02:1:22:33:34:40<br />
node02 hikitugi_ip hme0 0xffffff00 02:1:22:33:34:40<br />
(正)<br />
node01 hikitugi_ip hme0 0xffffff00 02:01:12:23:34:40<br />
node02 hikitugi_ip hme0 0xffffff00 02:01:12:23:34:40<br />
121
第3章 運用時のトラブル<br />
122<br />
Q3-4-31 Cmdline リソースが Online 状態にもかかわらず Start スクリプトが実行され、<br />
Cmdline リソースから呼ばれるアプリケーションが二重起動される<br />
原因<br />
Cmdline リソースに NULLDETECTOR フラグが設定されている場合、すでに Online状態であって<br />
も、userApplication の Online 処理が行われると Start スクリプトが実行されます。<br />
対処<br />
アプリケーションの二重起動を防止する場合は、NULLDETECTOR フラグの使用をやめ、Cmdline リ<br />
ソースに Check スクリプトを設定してください。<br />
Check スクリプトには、最低限以下の処理が必要です。<br />
1. アプリケーションがすでに起動している場合、0 (Online) を返す。<br />
2. 上記以外の場合、1 (Online 以外) を返す。<br />
Q3-4-32 Fsystem リソースに異常が発生し、フェイルオーバが発生する<br />
原因<br />
Fsystem リソースの活性化時にファイルシステムのマウントが失敗し、かつ、マウント再施行の<br />
前処理として実施した fsck の実行時にタイムアウトが発生した可能性があります。<br />
対処<br />
環境によって fsck が完了するまでに必要な時間が異なります。<br />
その環境に合った fsck が完了するまでに必要な時間を見積もり、Fsystem リソースの Timeout<br />
の設定値の見直しをしてください。<br />
設定の変更方法については“<strong>PRIMECLUSTER</strong> 導入運用手引書”を参照してください。<br />
Q3-4-33 RMS起動時に以下のメッセージが出力される<br />
(CRT, 4): ERROR: XXXXRMSXXX: userApplication Contract retransmit failed: Message Id =<br />
33 see bmlog for contract details.<br />
原因<br />
リソースの活性化による userApplication の初期化に時間が掛かっている可能性があります。<br />
対処<br />
その後、以下のメッセージが確認できればクラスタシステムとしては問題はないので対処は不要<br />
です。<br />
(US, 16): NOTICE: Online processing finished!<br />
(US, 9): NOTICE: Cluster host XXXXXXXXRMS has become online.<br />
Q3-4-34 hvswitch コマンドを実行しても、userApplication の切替えができない<br />
原因<br />
以下のすべての条件を満たす場合、hvswitch コマンドを実行しても SysNode の優先度が高い<br />
ノードへ切替えることができません。<br />
1. 優先度が低い userApplication が Online 状態である<br />
2. userApplication の属性に OnlinePriority が設定されている<br />
3. hvswitch コマンドで SysNode を指定しない場合
3.4 RMS に関するトラブル<br />
対処<br />
OnlinePriority が設定されている userApplication の切替えを行う場合は、hvswitch コマン<br />
ドに SysNode 名も指定してください。<br />
Q3-4-35 <strong>PRIMECLUSTER</strong> 動作中、/var 領域が 100% になった<br />
原因<br />
RMS 関連のログファイルの肥大化により /var 領域が 100% になったと考えられます。<br />
RMS 関連のログファイルは、/var 領域が 98% 以上になると定期的に削除されます。<br />
しかし、RMS から起動されたアプリケーションプログラムが標準出力と標準エラー出力に大量に<br />
ログを出力した場合は、/var 領域が 100% になります。<br />
対処<br />
以下の手順で RMS ログのバックアップ、削除を実施してください。<br />
● ログをバックアップする場合<br />
/var/opt/SMAWRrms/log 配下のログを対象に cp(1) でコピーしてください。<br />
mv(1) は使用しないでください。<br />
● ログファイルを削除する場合<br />
削除対象のログに対して /dev/null を cp(1) でコピーし初期化してください。<br />
例: cp /dev/null /var/opt/SMAWRrms/log/userApp0.log<br />
Q3-4-36 userApplication の切替えを行うとパトロール診断リソースが Fault になる<br />
原因<br />
パトロール診断のディスク診断処理に時間がかかり、リソースの ScriptTimeout 以内に処理が<br />
完了しなかった可能性があります。<br />
対処<br />
パトロール診断のリソースに設定されている ScriptTimeout を変更してください。<br />
ScriptTimeout に設定する値は、以下の計算式で算出してください。<br />
パトロール診断の監視対象となるデバイス(ディスク)が 300 個未満の場合は 300 秒を設定し<br />
てください。<br />
デバイスが 300 個以上の場合は "デバイス(ディスク)数 × 1秒" を設定してください。<br />
ただし、パトロール診断の監視間隔は、この ScriptTimeout より大きな時間であることを確認<br />
してください。<br />
Q3-4-37 userApplication の排他設定が行われているにも関わらず、同一ノードで優先度の<br />
高い userApplication と優先度の低い userApplication が Standby -Online 状態で混在す<br />
る<br />
原因<br />
userApplication の排他設定を行っている場合、同一ノードで 2つ以上の userApplication が<br />
同時に Online 状態にはなりません。<br />
ただし優先度の高い userApplication が Standby 状態に遷移可能な設定の場合は、待機ノード<br />
で Offline ではなく Standby 状態になります。<br />
123
第3章 運用時のトラブル<br />
124<br />
例)以下のように、node1 で優先度高の userApp_0 と優先度低の userApp_1 が、Standby -<br />
Online 状態で混在する<br />
node0 node1<br />
userApp_0(優先度高) Online Standby<br />
userApp_1(優先度低) Offline Online<br />
対処<br />
不要です。<br />
Q3-4-38 手動切替時、自ノードの userApplication の Offline 処理が完了する前に、相手<br />
ノードが停止した。このため自ノードで再度 userApplication が Onlineになることを期待し<br />
たが、自動的に Online にならなかった<br />
原因<br />
RMS は、userApplication の Offline 処理が完了した後に、切り替え先を選択します。切替先<br />
には自ノードを含まないため、自ノード以外に切替可能なノードが生存していない場合、切替処<br />
理を行いません。<br />
対処<br />
hvswitch コマンドを使用し、手動で userApplication を Online にしてください。
3.5 電源切断、強制停止に関するトラブル<br />
3.5 電源切断、強制停止に関するトラブル<br />
運用時、電源が切断されたり、システムが強制停止された場合のトラブルについて対処法を説明<br />
します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-5-1 クラスタシステム運用中、突然ノードの AC 電源が切断された場<br />
合、電源切断されたノードに LEFTCLUSTER 状態が設定され、コン<br />
ソールが切断された<br />
○ -<br />
Q3-5-2 クラスタシステム運用中、誤って Break 信号を送信してしまっ<br />
た、STOP-A を押下してしまった、または、RCCU を電源断してし<br />
まったために OBP モードとなってしまった<br />
○ -<br />
Q3-5-3 3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以<br />
上で同時にノード異常が発生し、異常の発生したノードの CF<br />
ノード状態が LEFTCLUSTER のままとなり、コンソールが切断され<br />
てしまった<br />
○ -<br />
Q3-5-4 RCI の故障中にクラスタインタコネクトの全パス故障またはシス<br />
テムハングが発生したが、ノードが OBP モードに移行しなかった<br />
○ -<br />
Q3-5-5 他ノードから、強制停止(reset)させられた ○ -<br />
Q3-5-6 他ノードから、強制停止(panic)させられた ○ ○<br />
Q3-5-7 運用中にパニックされていないにもかかわらず、パニックを検出<br />
した旨の以下のメッセージが出力された<br />
MA SA_rccu.so reported host dvptap11 leftcluster , state<br />
MA_paniced_fsnotflushed<br />
○ -<br />
Q3-5-8 運用ノードの Request スイッチを押しても、フェイルオーバが発<br />
生しない<br />
○ -<br />
Q3-5-9 クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER とな<br />
るが、RCI 経由のパニックに失敗する<br />
○ -<br />
Q3-5-10 待機ノードが PANIC した ○ -<br />
Q3-5-11 シャットダウン機構が以下の強制停止失敗のメッセージを表示し<br />
た<br />
RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS<br />
via a Shutdown Facility, no further kill functionality is<br />
available. The cluster is now hung.<br />
○ ○<br />
Q3-5-12 クラスタシステム運用中、ノード異常が発生してもフェイルオー<br />
バが発生しない<br />
- ○<br />
Q3-5-13 /var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示<br />
され、RCI 経由でのリセット指示ができない<br />
DEV:(SA_pprcir.so) There is no response from the asynchronous<br />
monitoring daemon in MAHostEliminate of node nodename.<br />
○ -<br />
Q3-5-14 運用中に OBP プロンプトになっていないにもかかわらず、OBP プ<br />
ロンプトを検出した旨の以下のメッセージが出力された<br />
MA Monitoring Agent reported host hostname leftcluster, state<br />
MA_inprom<br />
○ -<br />
Q3-5-15 クラスタのスプリットブレイン時に優先度の高いノードが強制停<br />
止された<br />
○ ○<br />
125
第3章 運用時のトラブル<br />
126<br />
Q3-5-1 クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断された<br />
ノードに LEFTCLUSTER 状態が設定され、コンソールが切断された<br />
対処<br />
ノードの電源が実際に切断されていることを確認した後、cftool –k コマンドによりノードの状<br />
態を DOWN にしてください。<br />
その後、コンソールを再接続し、ノードに電源を投入してください。<br />
Q3-5-2 クラスタシステム運用中、誤って Break 信号を送信してしまった、STOP-A を押下し<br />
てしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった<br />
対処<br />
既存の生存ノードで cftool –n を発行し、OBP モードに移行したノードの状態が DOWN であるか<br />
を確認してください。<br />
DOWN でない場合は、cftool –k を発行し、OBP モードに移行したノードの状態を DOWN にした後、<br />
以下のいずれかの対処を実施してください。<br />
● ok プロンプトから boot コマンドを実行してください<br />
● 該当ノードの電源を落とし、再度電源を投入して起動してください<br />
Q3-5-3 3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以上で同時にノード異<br />
常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソー<br />
ルが切断されてしまった<br />
対処<br />
コンソールを再接続し、実際にノードが異常状態にあることを確認してから、cftool –k を発行<br />
しノードの状態を DOWN にしてください。<br />
Q3-5-4 RCI の故障中にクラスタインタコネクトの全パス故障またはシステムハングが発生し<br />
たが、ノードが OBP モードに移行しなかった<br />
対処<br />
全ノードの /var/adm/messages を参照し、以下のエラーメッセージが出力されていないか確認し<br />
てください。<br />
FJSVcluster: エラー: 7040: コンソールへの接続ができなくなりました。(node:nodename<br />
portno:portnumber detail:code)<br />
FJSVcluster: エラー: 7042: コンソールへの接続ができません。(node:nodename<br />
portno:portnumber detail:code)<br />
上記エラーメッセージが出力されている場合はそのエラーメッセージの対処法に従ってください。<br />
上記エラーメッセージが出力されていない場合は、原因として以下の可能性が考えられます。
3.5 電源切断、強制停止に関するトラブル<br />
● モードスイッチが SECURE になっている (PRIMEPOWER 200,400,600 の場合のみ)<br />
この場合、モードスイッチを AUTO にしてください。<br />
● /etc/default/kbd で以下の行が有効になっている<br />
KEYBOARD_ABORT=disable または KEYBOARD_ABORT=alternate<br />
この場合、以下の行をコメントアウトし、ノードを再起動してください。<br />
KEYBOARD_ABORT=disable または KEYBOARD_ABORT=alternate<br />
● RCCU のアカウントまたは スーパーユーザのパスワードが設定されている (PRIMEPOWER<br />
4.1 または 4.1A10 で、パッチ 912745-02 を適用していない場合のみ)<br />
この場合、RCCU のアカウントまたはスーパーユーザのパスワードを削除してください。<br />
削除方法については、"リモートコンソール接続装置 取扱説明書" を参照してください。<br />
Q3-5-5 他ノードから、強制停止(reset)させられた<br />
原因<br />
対処<br />
RCCU の電源断などにより、運用中に突然 ok プロンプトになった場合、他のノードからノード<br />
の状態確認が行えなえず、クラスタ整合状態ではないと判断され、シャットダウン機構により強<br />
制停止 (reset) が行われます。<br />
このトラブルは、<strong>PRIMECLUSTER</strong> 4.0 のみ対象となります。<br />
運用中に、RCCU の電源を切断しないでください。<br />
Q3-5-6 他ノードから、強制停止(panic)させられた<br />
原因1<br />
対処1<br />
原因2<br />
対処2<br />
RMS 間の heartbeat が切断されたため、相手ノードを強制停止した可能性があります。<br />
Heartbeat が切断された原因としては以下の場合があります。<br />
● hvdet_system プロセスを使用して監視するリソースを大量に作成したとき<br />
RMS の動作に支障があるため、hvdet_system プロセスを使用して監視するリソースを減らして<br />
ください。<br />
RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、パ<br />
ニックが発生した可能性があります。<br />
/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。<br />
原因3<br />
CF 間の heartbeat が切断されたため、相手ノードから強制停止された可能性があります。<br />
Heartbeat が切断された原因としては以下の場合があります。<br />
� Linux<br />
プロセスの動作優先度(nice値)を keventd *1) の優先度よりも高くチューニング<br />
127
第3章 運用時のトラブル<br />
128<br />
しているプロセス群(スレッドを含む)が、CFのハートビート処理の監視時間を超<br />
えてCPUを占有しています。<br />
*1)ワークキューに登録した処理タスクを実行する汎用のカーネルスレッドです。<br />
PCLのハートビート処理は、このカーネルスレッドを使用しています。<br />
keventd の nice値は、RHEL4 では -10、RHEL5 では -5 が設定されています。<br />
対処3<br />
nice 値の変更により CPU を長時間占有する可能性のあるプロセスの動作優先度を高くする場<br />
合、nice値を RHEL4 では -10 より大きな値、RHEL5 では -5 より大きな値に設定してください。<br />
Q3-5-7 運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッ<br />
セージが出力された<br />
MA SA_rccu.so reported host dvptap11 leftcluster, state MA_paniced_fsnotflushed<br />
原因<br />
対処<br />
SF (シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、<br />
相手ノードのコンソールに login し、コンソール上で、"panic[cpu" の文字列を含むファイル<br />
を表示したためと考えられます。<br />
本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力される<br />
メッセージです。動作としては仕様どおりであり、対処は不要です。<br />
Q3-5-8 運用ノードの Request スイッチを押しても、フェイルオーバが発生しない<br />
原因1<br />
対処<br />
原因2<br />
対処<br />
RCCU 装置とクラスタホストの IP アドレスが同一セグメントでないため、強制停止と相手ノー<br />
ドの状態確認が行えず、フェイルオーバが発生しない可能性があります。<br />
RCCU 装置とクラスタホストの IP アドレスを同一セグメントにしてください。<br />
非同期監視の設定が正しく行なわれていない可能性があります。<br />
非同期監視の設定を見直し、正しく設定してください。
3.5 電源切断、強制停止に関するトラブル<br />
Q3-5-9 クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパ<br />
ニックに失敗する<br />
原因<br />
対処<br />
両ノードで RCI アドレスが同一となっているなど RCI アドレスの設定に誤りがあり、RCI 経由<br />
でのノードのパニックに失敗している可能性があります。<br />
RCI アドレスの見直しが必要となりますので、当社技術員 (CE) に連絡してください。<br />
Q3-5-10 待機ノードがパニックした<br />
原因<br />
対処<br />
RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、<br />
パニックが発生した可能性があります。<br />
/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。<br />
Q3-5-11 シャットダウン機構が以下の強制停止失敗のメッセージを表示した<br />
RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility,<br />
no further kill functionality is available. The cluster is now hung.<br />
対処1<br />
対処2<br />
CF の状態が LEFTCLUSTER の場合、異常ノードを停止(reboot or POFF)し、 "cftool -k" を<br />
実行してください。<br />
CF の状態が LEFTCLUSTER でなく、RMS の SysNode リソースの状態が Wait の場合、異常ノー<br />
ドを停止(reboot or POFF)し、"hvutil -o" を実行してください。<br />
Q3-5-12 クラスタシステム運用中、ノード異常が発生してもフェイルオーバが発生しない<br />
原因<br />
対処<br />
PRIMEQUEST を使用した環境で、CF ノード名の変更、または <strong>PRIMECLUSTER</strong> を再インストールし<br />
前回インストール時とは異なる CF ノード名を使用している場合に本現象が発生する可能性が<br />
あります。<br />
すべてのノードをシングルユーザモードで起動後、/etc/opt/FJSVpsa/local/set.node ファイル<br />
を削除し、ノードを再起動してください。<br />
129
第3章 運用時のトラブル<br />
130<br />
Q3-5-13 /var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由で<br />
のリセット指示ができない<br />
DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in<br />
MAHostEliminate of node nodename.<br />
原因<br />
対処<br />
モードスイッチが、MANUAL、MAINTENANCE の場合には、RCI 経由でのリセット指示はできません。<br />
RCI 経由でのリセットを行う場合は、モードスイッチを AUTO にしてください。<br />
Q3-5-14 運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出し<br />
た旨の以下のメッセージが出力された<br />
MA Monitoring Agent reported host hostname leftcluster, state MA_inprom<br />
原因<br />
対処<br />
SF(シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、<br />
相手ノードのコンソールにログインし、コンソール上で OBP プロンプトを表す文字列 ("ok")<br />
を含むファイルを表示したためと考えられます。<br />
本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力される<br />
メッセージです。動作としては仕様どおりであり、対処は不要です。<br />
Q3-5-15 クラスタのスプリットブレイン時に優先度の高いノードが強制停止された<br />
原因<br />
生存優先度が高い場合でも、異常が発生したクラスタノードは強制停止の対象になります。<br />
例) システムのハングやパニック、システム高負荷時が続いた場合。<br />
確認事項<br />
強制停止されたノードで異常がなかったか確認してください。
3.6 GUI に関するトラブルシューティング<br />
3.6 GUI に関するトラブルシューティング<br />
GUI を使用しているときに発生する現象および対処方法は以下のとおりです。<br />
なお、本章に記載の現象と一致した現象がない場合には、"<strong>PRIMECLUSTER</strong> Web-Based Admin View<br />
操作手引書" の "B.1 トラブル対処方法" も参照してください。<br />
3.6.1 Web-Based Admin View に関するトラブルの見方<br />
Web-Based Admin View 画面が起動できないなどの現象、また以下のようなメッセージダイアロ<br />
グが表示された場合は、Web-Based Admin View に関するトラブルが発生しています。<br />
このような場合は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "付録B トラブル<br />
シューティング" を参照してください。<br />
131
第3章 運用時のトラブル<br />
132<br />
3.6.2 Web-Based Admin View に関するトラブル<br />
Web-Based Admin View に関連するトラブルについて説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-6-1 Web-Based Admin View にクライアント端末から接続できない ○ ○<br />
Q3-6-2 Web-Based Admin View の GUI 起動時に URL に指定していない<br />
サーバに接続される<br />
○ ○<br />
Q3-6-3 Web-Based Admin View の GUI 初期画面に GDS 、GFS の管理<br />
ビュー起動ボタンが表示されない<br />
○ ○<br />
Q3-6-4 Web-Based Admin View の起動に失敗する ○ ○<br />
Q3-6-5 Web-Based Admin View の初期設定後、設定情報が正しく設定され<br />
ない<br />
○ ○<br />
Q3-6-6 GDS の設定時にエラーが発生する ○ ○<br />
Q3-6-7 クライアントマシンから userApplication Configuration Wizard<br />
画面を開くと、 "0880 未分類のエラー" が表示され、構築できな<br />
い<br />
○ -<br />
Q3-6-8 Cluster Admin が正常に動作しない ○ ○<br />
Q3-6-9 引継ぎ IP の設定を行う際、NIC を選択する画面で以下のエラー<br />
が発生し、登録ができない<br />
0880 未分類のエラーが発生<br />
○ -<br />
Q3-6-10 Web-Based Admin View に接続すると 0005 番のエラーが出力され<br />
る<br />
○ ○<br />
Q3-6-11 Java コンソールに OutOfMemoryError が表示され、<br />
userApplication Configuration Wizard が起動しない<br />
○ -<br />
Q3-6-12 Web-Based Admin View の 動 作 環 境 変 数 の<br />
/etc/opt/FJSVwvbs/etc/bin/wvSetparam コマンドによる変更や<br />
/etc/opt/FJSVwvbs/etc/bin/wvGetparam コマンドによる参照が<br />
できない<br />
○ ○<br />
Q3-6-13 Web-Based Admin Viewが実行するJavaVMのメッセージがsyslogに<br />
出力される<br />
○ ○<br />
Q3-6-14 Web-Based Admin View の ClusterAdmin ボタンが選択できない ○ ○<br />
Q3-6-15 Web-Based Admin View に接続すると 0005 番のエラーが出力され<br />
る<br />
○ ○<br />
Q3-6-1 Web-Based Admin View にクライアント端末から接続できない<br />
原因 1<br />
Web-Based Admin View のデーモンが起動されていない可能性があります。<br />
対処 1<br />
ps コマンドにて、以下の Web-Based Admin View のデーモンが起動されていることを確認して<br />
ください。<br />
・ FJSVwvbs<br />
・ FJSVwvcnfd<br />
デーモンが起動されていない場合は、fjsvwvbs、fjsvwvcnf の run level のいずれかが、オフ<br />
になっている可能性があります。/sbin/chkconfig --list コマンドを実行し、出力結果を確認<br />
してください。<br />
対処として、以下のいずれかを選択して行うことで、本現象は解消されます。
(1) run level をオンにする。※1<br />
# /sbin/chkconfig --level 5 fjsvwvbs on<br />
# /sbin/chkconfig --level 5 fjsvwvcnf on<br />
(2) run levelの状態を登録状態に戻す。※2<br />
# /sbin/chkconfig fjsvwvbs reset<br />
# /sbin/chkconfig fjsvwvcnf reset<br />
※1 run level 5の場合の一例です。<br />
※2 Web-Based Admin View に関する起動スクリプトを初期状態に戻す<br />
作業のため、業務に差し支えない場合に使用してください。<br />
確認事項 1<br />
Web-Based Admin View のデーモンが起動されていますか?<br />
3.6 GUI に関するトラブルシューティング<br />
原因 2<br />
Web-Based Admin View の定義ファイルが正しく設定されていない可能性があります。<br />
対処 2<br />
以下のWeb-Based Admin View の定義ファイルが正しく設定されていることを確認してください。<br />
・/etc/opt/FJSVwvbs/etc/webview.cnf<br />
・/etc/opt/FJSVwvbs/etc/wvlocal.cnf<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "B.1 トラブル対処方法" の[現<br />
象 1]の対処方法 10 を参照してください。<br />
確認事項 2<br />
Web-Based Admin View の定義ファイルが正しく設定されていますか?<br />
原因 3<br />
JRE がインストールされていないか、未サポートの JRE がインストールされている可能性があ<br />
ります。<br />
対処 3<br />
適切な JRE がインストールされていることを確認してください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "B.1 トラブル対処方法"の[現<br />
象 21] の対処方法を参照してください。<br />
確認事項 3<br />
Web ブラウザに"Click here to get the plugin"が表示されていませんか?<br />
原因 4<br />
使用するポート番号が他の MW 製品などと重複している可能性があります。<br />
対処 4<br />
/etc/services ファイルを参照して、ポート番号が重複しているサービスがないか確認してくだ<br />
さい。<br />
ポート番号が重複している場合は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" "7.2 ネッ<br />
トワークサービスポート番号の変更" に従って、ポート番号を変更してください。<br />
確認事項 4<br />
使用するポート番号が他の MW 製品などと重複していませんか?<br />
原因 5<br />
管理サーバ/監視ノードを強制的にリセットすると、その後の Web-Based Admin View の終了処<br />
理が JavaVM の不具合により正常に完了しない可能性があります。<br />
133
第3章 運用時のトラブル<br />
134<br />
対処 5<br />
Web-Based Admin View の終了処理が正常に完了しない場合、以下の手順で Web-Based Admin View<br />
を再起動してください。<br />
1. # /etc/opt/FJSVwvbs/etc/bin/wvCntl restart<br />
2. # /etc/init.d/fjsvwvcnf restart<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "6.2 再起動" を参照してくだ<br />
さい。<br />
確認事項 5<br />
フリーズなどの理由により、直前に管理サーバ/監視ノードをリセットしていませんか?<br />
原因 6<br />
ブラウザが proxy を経由する設定になっている可能性があります。<br />
対処 6<br />
ブラウザのプロキシ設定を確認してください。Web-Based Admin View を使用するブラウザにつ<br />
いては、proxy を経由せずネットワークに直接接続する設定にしなければなりません。<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "3.1.3.1 Web ブラウザを準備<br />
する" の "■プロキシの設定" を参照してください。<br />
確認事項 6<br />
ブラウザが proxy を経由する設定になっていませんか?<br />
原因 7<br />
GLS 高速切替方式を使用している場合、クライアント端末にルーティング情報を定義する必要が<br />
あります。<br />
対処 7<br />
"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "2.3.1 高速切替方式を使用する場合" を<br />
参照して、ルート情報を追加してください。<br />
確認事項 7<br />
GLS 高速切替方式を使用している場合、ルーティング情報を定義していますか?<br />
原因 8<br />
クライアントから Firewall および NAT を経由して <strong>PRIMECLUSTER</strong> が導入されている各ノード<br />
にアクセスしている可能性があります。<br />
対処 8<br />
クライアントから Firewall および NAT を経由して <strong>PRIMECLUSTER</strong> が導入されている各ノード<br />
にアクセスしないでください。<br />
Q3-6-2 Web-Based Admin View の GUI 起動時に URL に指定していないサーバに接続される<br />
説明 1<br />
プライマリ管理サーバ、セカンダリ管理サーバの両方が生存している場合は、プライマリ管理<br />
サーバへの接続を優先します。<br />
対処 1<br />
セカンダリ管理サーバに接続したい場合は、URL を以下のように指定してください。<br />
http://:/Plugin.html<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "3.2 画面の起動" を参照して<br />
ください。
3.6 GUI に関するトラブルシューティング<br />
確認事項 1<br />
プライマリ管理サーバが起動している状態でセカンダリ管理サーバをURLに指定していません<br />
か?<br />
説明 2<br />
GLS 高速切替方式を使用している場合、URL には管理サーバに指定した仮想 IP アドレスが表示<br />
されます。<br />
対処 2<br />
GLS の高速切替方式の設定を行った管理サーバおよび監視ノードの設定が必要です。<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "2.3.1 高速切替方式を使用す<br />
る場合" を参照してください。<br />
確認事項 2<br />
GLS 高速切替方式を使用していませんか?<br />
Q3-6-3 Web-Based Admin View の GUI 初期画面に GDS、GFS の管理ビュー起動ボタンが表示<br />
されない<br />
原因<br />
GDS、GFS が正しくインストールされていない可能性があります。<br />
対処<br />
pkginfo コマンド(Solaris)、または rpm コマンド(Linux) にて、GDS、GFS のパッケージがイ<br />
ンストールされていることを確認してください。<br />
GDS および GFS のパッケージは、インストール CD2 に格納されています。<br />
PKG 名、インストールの手順の詳細は、"<strong>PRIMECLUSTER</strong> インストールガイド" を参照してくださ<br />
い。<br />
確認事項<br />
GDS、GFS が正しくインストールされていますか?<br />
Q3-6-4 Web-Based Admin View の起動に失敗する<br />
原因<br />
GLS 高速切替方式を使用している場合、Web-Based Admin View の設定で指定した管理サーバの<br />
IP アドレスが RMS の userApplication 定義に Gls リソースとして登録していない可能性が<br />
あります。<br />
対処<br />
GLS 高速切替方式を使用している場合、Web-Based Admin View の設定で必要な管理サーバの IP<br />
アドレスには、GLS の設定で作成された活性化状態の仮想 IP アドレスを指定します。<br />
引継ぎ IP アドレスを RMS の userApplication 定義に Gls リソースとして登録し、活性化さ<br />
せた仮想 IP アドレスを管理サーバの IP アドレスとして指定してください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "2.3.1 高速切替方式を使用す<br />
る場合" を参照してください。<br />
確認事項<br />
GLS 高速切替方式を使用している場合、Web-Based Admin View の設定で指定した管理サーバの<br />
IP アドレスを、RMS の userApplication 定義に Gls リソースとして登録しましたか?<br />
135
第3章 運用時のトラブル<br />
136<br />
Q3-6-5 Web-Based Admin View の初期設定後、設定情報が正しく設定されない<br />
原因<br />
ノードごとに異なる Web-Based Admin View の初期設定を行っている可能性があります。<br />
対処<br />
Web-Based Admin View の設定を各ノードごとに実施した場合、ノード間で不整合が発生する場<br />
合があります。<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "4.3.3.1 運用管理サーバの初期設定" を参照して、全ノー<br />
ドの Web-Based Admin View の停止→ Web-Based Admin View の設定→ Web-Based Admin View の<br />
再起動の手順で初期設定を実施してください。<br />
確認事項<br />
ノードごとに異なる Web-Based Admin View の初期設定を行っていませんか?<br />
Q3-6-6 GDS の設定時にエラーが発生する<br />
現象<br />
GDS 画面からディスククラスの作成・削除・名前変更を実行すると、"ノードXXXX においてログ<br />
監視機構で異常が発生しました。監視作業を停止します。ノードが動作中である事を確認してか<br />
ら、最新の情報に更新を行ってください。」や「0007 管理サーバとの接続が切れました。動作中<br />
の管理サーバに接続を試みますか?」のメッセージが表示され、Web-Based Admin View との接<br />
続が切れる。<br />
対処<br />
この現象は JavaVM の問題により発生することがあります。発生した場合、メッセージに応答し、<br />
ブラウザを一旦閉じてから再度画面を表示しなおしてください。<br />
また、ClusterAdmin 画面を表示している場合は、本現象を回避するために、ClusterAdmin 画面<br />
を閉じてからディスククラスの作成・削除・名前変更を実行するようにしてください。<br />
ClusterAdmin 画面を閉じて操作を行っても同様の現象が頻繁に発生する場合は、当社技術員に<br />
連絡してください。<br />
Q3-6-7 クライアントマシンから userApplication Configuration Wizard 画面を開く<br />
と、 "0880 未分類のエラー" が表示され、構築できない<br />
原因<br />
クライアントで使用している Java Plug-in のバージョンが未サポートのバージョンとなってい<br />
る可能性があります。<br />
対処<br />
Internet Explorer で Java Plug-in を使用する場合は、サポートされている Plug-in を使用<br />
し て く だ さ い 。 Java Plug-in のバージョンが正しい場合は、メッセージに応答し、<br />
userApplication Configuration Wizard を一旦終了してから再起動してください。再起動後、<br />
0880 番のエラーメッセージが表示される前に行っていた操作を再度実行してください。
Q3-6-8 Cluster Admin が正常に動作しない<br />
3.6 GUI に関するトラブルシューティング<br />
原因<br />
Windows(R)Me と IE 5.0 の組合せで使用しているため正常に動作しません。<br />
対処<br />
本機能は制限事項です。IE のバージョンを 5.5 以上にアップデートしてください。<br />
確認事項<br />
Windows(R)Me と IE 5.0 の組合せで使用していませんか?<br />
Q3-6-9 引継ぎ IP の設定を行う際、NIC を選択する画面で以下のエラーが発生し、登録がで<br />
きない<br />
0880 未分類のエラーが発生<br />
原因<br />
/etc/inet/hosts の中の IP アドレスの記述に誤りがある可能性があります。<br />
対処<br />
/etc/inet/hosts の中の IP アドレスを正しくしてください。<br />
Q3-6-10 Web-Based Admin View に接続すると 0005 番のエラーが出力される<br />
原因<br />
primary-server, secondary-server, httpip, mip の IP アドレスに誤りがある可能性がありま<br />
す。<br />
対処<br />
primary-server, secondary-server, httpip, mip の IP アドレスに正しい値を設定してくださ<br />
い。<br />
Q3-6-11 Java コンソールに OutOfMemoryError が表示され、userApplication Configuration<br />
Wizard が起動しない<br />
原因<br />
Web-Based Admin View クライアントでヒープメモリ不足が発生しています。<br />
対処<br />
使用可能なヒープメモリの最大サイズを変更してください。<br />
必要なメモリサイズの算出と設定方法については、以下のマニュアルを参照してください。<br />
<strong>PRIMECLUSTER</strong> 活用ガイド <br />
(Solaris(TM)オペレーティングシステム/Linux版)<br />
第1部 設計・構築編<br />
第2章 クラスタアプリケーション設定時の注意点<br />
2.2 Solaris の場合の注意点<br />
「userApplication Configuration Wizard を使用する前に、必要なヒープメモリのサイズを算<br />
出してください。」<br />
137
第3章 運用時のトラブル<br />
138<br />
Q3-6-12 Web-Based Admin View の動作環境変数の /etc/opt/FJSVwvbs/etc/bin/wvSetparam<br />
コマンドによる変更や /etc/opt/FJSVwvbs/etc/bin/wvGetparam コマンドによる参照ができ<br />
ない<br />
原因<br />
primary-server , secondary-server , mip , httpip にホスト名が設定されており、そのホス<br />
ト名の名前解決ができていない可能性があります。<br />
対処<br />
以下の手順に従い、/etc/hostsファイルにWeb-Based Admin Viewが使用する業務LANのIPアドレ<br />
スとホスト名を記載し、"127.0.0.1"に割り当てられているそのホスト名を削除してください。<br />
1. vi(1)等により/etc/hostsファイルを修正します。<br />
“127.0.0.1”に割り当てられているホスト名を削除し、業務LANとして使用するIP<br />
アドレスに割り当てます。<br />
修正前)<br />
# Do not remove the following line, or various programs<br />
# that require network functionality will fail.<br />
127.0.0.1 localhost.localdomain localhost<br />
修正後)<br />
# Do not remove the following line, or various programs<br />
# that require network functionality will fail.<br />
127.0.0.1 localhost.localdomain localhost<br />
<br />
確認事項<br />
primary-server , secondary-server , mip , httpip に設定したホスト名の名前解決ができて<br />
いますか。<br />
Q3-6-13 Web-Based Admin Viewが実行するJavaVMのメッセージがsyslogに出力される<br />
現象<br />
Web-Based Admin Viewが実行するJavaVMがsyslogに以下のメッセージを出力する。<br />
java(****): floating-point assist fault at ip 20000000002beaf2, isr 0000020000001001<br />
例) Web-Based Admin Viewが実行するJavaVMのlwpのIDが”9495”の場合<br />
java(9495): floating-point assist fault at ip 20000000002beaf2, isr 0000020000001001<br />
^^^^ps のlwpのID<br />
メッセージを出力しているのはWeb-Based Admin Viewが実行するJavaVMであることはpsの実<br />
行結果のlwpのIDが一致していることから判断できます。<br />
# ps -elLyf | grep 9495
3.6 GUI に関するトラブルシューティング<br />
S root 9220 9194 9495 0 31 76 0 51456 28602 futex Oct10 ?<br />
00:06:02/opt/SMAW/SMAWcj2re/jre/bin/java<br />
-Dwebview.htdocs=/etc/opt/FJSVwvcnf/htdocs/FJSVwvbs-mx128m<br />
-Djava.security.policy=/opt/FJSVwvbs/etc/.policyAp<br />
com.fujitsu.webview.base.server.ServerMain /opt/FJSVwvbs<br />
#<br />
対処<br />
対処の必要はありません。<br />
本メッセージが出力されるだけで動作に問題ありません。<br />
Q3-6-14 Web-Based Admin View の ClusterAdmin ボタンが選択できない<br />
原因<br />
Web-Based Admin View にログインした際に使用されたユーザに、Web-Based Admin View を操作<br />
する権限が無い可能性があります。<br />
対処<br />
Web-Based Admin View が操作可能な権限が付与されているユーザにて作業してください。<br />
Q3-6-15 Web-Based Admin View に接続すると 0005 番のエラーが出力される<br />
原因<br />
java のプロセス(※1)が停止している可能性があります。<br />
(※1)製品VL毎のJavaのプロセスは下記となります。<br />
【Solaris 版 4.1, 4.1A10, 4.1A20, 4.1A30, 4.1A40 Solaris8 Solaris9】<br />
/usr/java1.2/bin/../bin/sparc/native_threads/java<br />
【Solaris 版 4.1A40 Solaris10】<br />
/usr/java/bin/java<br />
【Solaris 版 4.2A00以降】<br />
/opt/SMAW/SMAWcj2re/jre/bin/java<br />
【Linux 版 4.1A20 Red Hat Enterprise Linux AS/ES (v 2.1)】<br />
/opt/IBMJava2-131/jre/bin/exe/java<br />
【Linux 版 4.1A20 Red Hat Enterprise Linux AS/ES (v. 3), 4.1A30, 4.1A40】<br />
/usr/java/j2re1.4.2_xx/bin/java<br />
xxには使用するJavaTM 2 SDK, Standard Edition のアップデートリリースの番号が<br />
入ります。<br />
【Linux 版 4.2A00 以降】<br />
/opt/SMAW/SMAWcj2re/jre/bin/java<br />
対処<br />
Web-Based Admin View を再起動してください。<br />
Web-Based Admin View の再起動方法については「<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手<br />
引書」を参照してください。<br />
139
第3章 運用時のトラブル<br />
3.7 ノードの参入に関するトラブル<br />
140<br />
ここでは、以下の 2 つの場合について説明します。<br />
● ノードがクラスタに参入する際に問題が発生した場合<br />
● インタコネクトの通信経路が部分的または完全に失われた場合<br />
解決方法には、以下の 2 通りの方法があります。<br />
● システム構成上の問題を修正する方法<br />
● インタコネクトの問題を修正する方法<br />
メッセージの出力先は、使用する OS によって異なります。<br />
― Solaris の場合:/var/adm/messages<br />
― Linux の場合: /var/log/messages<br />
本節では、特に断りのない限り Solaris のメッセージファイル名を記載しています。<br />
3.7.1 基本的な考え方<br />
ノードをクラスタに参入しようとした際に発生するトラブルについて説明します。<br />
ここでは、それまでクラスタへの参入に成功していたノードを対象に説明します。はじめてノード<br />
がクラスタに参入する場合の初期起動の問題については、動作確認のセクションを参照してくださ<br />
い。<br />
問題の特定方法<br />
これまでクラスタに参入できていたノードが再参入に失敗した場合、以下の手順で問題を特定しま<br />
す。<br />
1)エラーログおよびコンソールのメッセージを参照する<br />
2)イーサネットドライバのエラーが発生していないか、その他のエラーが発生していないかな<br />
どを確認する<br />
3)システムの他の部分にエラーがある場合、まずそのエラーを修正する<br />
4)CF ドライバが正しくダウンロードされているかを確認する<br />
CF ドライバの確認<br />
CF ドライバは以下の手順で確認します。<br />
1)CF デバイスドライバがロードされていることを確認します。<br />
2)デバイスドライバがロードされるとログファイルに以下のメッセージが出力されます。<br />
CF: (TRACE): JoinServer: Startup.<br />
3)cftool -l コマンドを実行すると、ドライバの状態が表示されます。以下のようなログファイ<br />
ルメッセージが表示されます。<br />
fuji2> cftool –l<br />
Node Number State Os<br />
fuji2 -- COMINGUP --<br />
これはドライバがロード済みで、ノードがクラスタへの参入を試行中であることを示しています。<br />
ログファイルに上記のエラーログメッセージが出力されていない場合、または cftool -l コマンド<br />
が失敗した場合、デバイスドライバはロードされていません。
3.7 ノードの参入に関するトラブル<br />
CF デバイスドライバがロードされない原因が /var/adm/messages ファイルにもコンソールにも示<br />
されていない場合、CF カーネルバイナリまたは CF カーネルコマンドが破損している可能性があり<br />
ます。本製品をアンインストールして CD から再インストールしてください。<br />
CF デバイスドライバがロードされると、次のメッセージに従ってクラスタの参入が試行されます。<br />
CF: (TRACE): JoinServer: Startup.<br />
参入サーバは構成済みインタコネクト上の他のノードとの通信を試みます。他の 1 つ以上のノード<br />
がクラスタを起動済みの場合、ノードはこのクラスタへの参入を試行します。この場合エラーログ<br />
に出力されるメッセージを以下に示します。<br />
CF: Giving UP Mastering (Cluster already Running).<br />
エラーログにこのメッセージが出力されない場合、ノードは構成済みのインタコネクト上で行われ<br />
る他のノードの通信を認識せず、固有のクラスタを起動します。以下の 2 つのメッセージはノード<br />
が固有のクラスタを作成したことを示します。<br />
CF: Local Node fuji2 Created Cluster FUJI. (#0000 1)<br />
CF: Node fuji2 Joined Cluster FUJI. (#0000 1)<br />
この時点で、CF デバイスドライバがロードされ、ノードがクラスタの参入を試行していることを確<br />
認できました。以降の"トラブル対処例"には、問題と修正処理が記述されています。調査中のノー<br />
ドの症状に最も近い問題を探し、そこに記述されている手順に従ってください。<br />
3.7.2 トラブル対処例 1<br />
事象<br />
診断<br />
対処<br />
ノードが既存のクラスタに参入せず、固有のクラスタを作成してしまう。<br />
エラーログに以下のメッセージが出力されます。<br />
CF: (TRACE): JoinServer: Startup.<br />
CF: Local Node fuji2 Created Cluster FUJI. (#0000 1)<br />
CF: Node fuji2 Joined Cluster FUJI. (#0000 1)<br />
これは、CF デバイスドライバがすべて正常に動作し、問題はインタコネクトで発生していること<br />
を示しています。<br />
まず、ノードがインタコネクト上のクラスタの他のノードを参照できるかどうかを確認します。こ<br />
の内容を確認するには、cftool -e を実行してクラスタのすべてのノードにエコー要求を送信しま<br />
す。<br />
cftool コマンドの実行例を以下に示します。<br />
# cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.a8.82 FUJI fuji2 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji3 1 6<br />
これは fuji3 のインタコネクトデバイス 3(Localdev) および fuji2 のデバイス 2(Srcdev) に<br />
より、ノード fuji3 がノード fuji2 を参照していることを示しています。cftool -e を実行して<br />
もローカルノードしか表示されない場合は、インタコネクトに問題があります。予想されるクラス<br />
タノードの一部またはすべてが表示された場合にはCF ドライバの再ロードが必要となります。以<br />
下のコマンドを実行してください。<br />
# cfconfig -u<br />
# cfconfig -l<br />
141
第3章 運用時のトラブル<br />
142<br />
これらのコマンドからコンソールへの出力はありません。エラーメッセージがエラーログに記録さ<br />
れるだけです。<br />
ノードがクラスタに参入していなければ、次の "トラブル対処例 2" に進みます。<br />
3.7.3 トラブル対処例 2<br />
事象<br />
診断<br />
ノードがクラスタに参入できない。一部またはすべてのノードが cftool -e に応答する。<br />
この時点で CF デバイスが正常にロードされ、ノードがクラスタ内の他の 1 つ以上のノードと通信<br />
可能な状態であることがわかりました。この場合、インタコネクトがメッセージを紛失している可<br />
能性が考えられます。この仮定を確かめるには繰り返しエコー要求を送信し、時間とともに結果が<br />
変化するかどうかを確認します。以下に例を示します。<br />
fuji2> cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6<br />
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6<br />
fuji2> cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6<br />
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6<br />
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6<br />
fuji2> cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6<br />
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6<br />
fuji2> cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6<br />
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6<br />
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6<br />
fuji2> cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6<br />
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6<br />
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6<br />
fuji2> cftool –e<br />
Localdev Srcdev Address Cluster Node Number Joinstate<br />
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6<br />
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6<br />
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6<br />
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6
3.7 ノードの参入に関するトラブル<br />
上記の実行結果を見ると、ノード fuji5 については、表示されていない場合があります。これはノー<br />
ド fuji5 への接続にエラーがあることを示しています。<br />
対処1<br />
まず、ノード fuji5 のイーサネットユーティリティにエラーがないかどうかを確認します。fuji5<br />
にログインして、ネットワークインタフェース情報とエラーを検索します。<br />
■Solaris の場合<br />
netstat(1M) ユーティリティを使用して調査を行います。<br />
■Linux の場合<br />
netstat(8) ユーティリティを使用して調査を行います。<br />
ここでは、Solaris の場合を例に、調査方法について説明します。<br />
fuji5 にログインしてネットワークデバイスを参照すると、以下の結果が表示されます。<br />
Number Device Type Speed Mtu State Configured Address<br />
1 /dev/hme0 4 100 1432 UP NO 00.80.17.28.2c.fb<br />
2 /dev/hme1 4 100 1432 UP NO 00.80.17.28.2d.b8<br />
3 /dev/hme2 4 100 1432 UP YES 08.00.20.bd.60.e4<br />
Solaris の netstat(1M) ユーティリティは、ネットワークインタフェースに関する情報を提供しま<br />
す。<br />
1 回目の試行では以下の情報が表示されます。<br />
fuji5# netstat –i<br />
Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue<br />
lo0 8232 loopback localhost 65 0 65 0 0 0<br />
hme0 1500 fuji4 fuji4 764055 8 9175 0 0 0<br />
hme1 1500 fuji4-priva fuji4-priva 2279991 0 2156309 0 7318 0<br />
この出力結果には hme2 インタフェースが表示されていません。これは、TCP/IP に構成されていな<br />
いインタコネクトに関する出力を Solaris がサポートしていないためです。Solaris で hme2 イン<br />
タフェースに関するレポートを一時的に有効にするには、以下のとおりに ifconfig plumb コマン<br />
ドを実行します。<br />
fuji5# ifconfig hme2 plumb<br />
fuji5# netstat –i<br />
Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue<br />
lo0 8232 loopback localhost 65 0 65 0 0 0<br />
hme0 1500 fuji4 fuji4 765105 8 9380 0 0 0<br />
hme1 1500 fuji4-priva fuji4-priva 2282613 0 2158931 0 7319 0<br />
hme2 1500 default 0.0.0.0 752 100 417 0 0 0<br />
hme2 インタフェースの 752 個の入力パケット (Ipkts) に 100 個の入力エラー (Ierrs) がある<br />
ことがわかります。つまりパケットの 7 個に 1 個の割合でエラーが発生していることになり、エ<br />
ラー率が高すぎて <strong>PRIMECLUSTER</strong> は失敗します。fuji5 が fuji2 からのエコー要求に応答しない原<br />
因もここにあります。<br />
対処2<br />
対処1の内容を行ったあと、以下の対処を行ってください。<br />
● イーサネットケーブルの両端が確実に差し込まれていることを確認する。<br />
● cftool -e の実行を繰り返し、netstat -i を参照する。cftool の結果が常に同じで、入<br />
力エラーが発生しなくなるか、大幅に減れば、問題は解決します。<br />
● イーサネットケーブルを交換する。<br />
● イーサネットハブまたはスイッチの他のポートを使用するか、ハブまたはスイッチを交換<br />
する。または一時的にクロスコネクトケーブルを使用する。<br />
● ノードのイーサネットアダプタを交換する。<br />
上記の手順のいずれを実行しても問題が解決しない場合は、当社技術員 (SE) による診断が必要<br />
です。<br />
143
第3章 運用時のトラブル<br />
144<br />
3.7.4 トラブル対処例 3<br />
事象<br />
ノード fuji2 をノード fuji3 のクラスタに参入させようとすると、fuji3 に以下のコンソール<br />
メッセージが表示される。<br />
Aug 30 21:31:35 fuji3 kernel: CF: Local node is missing a route from node: fuji2.<br />
Aug 30 21:31:35 fuji3 kernel: CF: missing route on local device: eth1.<br />
Aug 30 21:31:35 fuji3 kernel: CF: Node fuji2 Joined Cluster FUJI. (#0000 3)<br />
診断1<br />
ノード fuji2 のデバイス情報を cftool –d で参照します。<br />
メッセージ内容はコンソールと同じです。<br />
fuji2:cftool –d<br />
Number Device Type Speed Mtu State Configured Address<br />
1 eth0 4 100 1432 UP YES 00.03.47.c2.a8.3c<br />
2 eth1 4 100 1432 UP NO 00.02.b3.88.b8.89<br />
3 eth2 4 100 1432 UP NO 00.02.b3.88.b7.46<br />
ノード fuji3 のデバイス情報を cftool –d で参照します。<br />
ノード fuji3 にはコンソールメッセージは表示されません。<br />
fuji3:cftool –d<br />
Number Device Type Speed Mtu State Configured Address<br />
1 eth0 4 100 1432 UP YES 00.03.47.c2.a8.82<br />
2 eth1 4 100 1432 UP YES 00.02.b3.88.09.f1<br />
3 eth2 4 100 1432 UP NO 00.02.b3.88.09.ea<br />
問題<br />
上記の内容を見ると、ノード fuji2 の eth1 が構成されていない。あるいは正常に動作していない<br />
ことがわかります。<br />
診断2<br />
ノード fuji3 の /var/adm/messages を参照します。<br />
Look in /var/adm/messages on node fuji3<br />
Aug 27 16:05:59 fuji3 kernel: e100: eth1 NIC Link is Down<br />
Aug 27 16:06:08 fuji3 kernel: CF: Icf Error: (service err_type route_src<br />
route_dst). (#0000 0 2 1 1)<br />
Aug 27 16:06:08 fuji3 kernel: CF: (TRACE): CFSF failure detected: no SFopen:<br />
passed to ENS: fuji2. (#0000 1)<br />
Aug 27 16:06:08 fuji3 kernel: CF: Node fuji2 Left Cluster FUJI. (#00001)<br />
上記の内容は、eth1 デバイスまたはインタコネクトが一時的に失敗していることを示します。<br />
これは、クラスタノード、ケーブル、ハブのいずれかの NIC に問題がある可能性があることを示し<br />
ています。
3.7.5 トラブル対処例 4<br />
事象<br />
診断<br />
3.7 ノードの参入に関するトラブル<br />
ノード fuji2 がパニックし、再起動されました。ノード fuji2 のコンソールに以下のメッセージ<br />
が表示されます。<br />
Aug 28 10:38:25 fuji2 kernel: CF: fuji2: busy: local node not DOWN: retrying<br />
この場合、ノード fuji2が、LEFTCLUSTER 状態になっている可能性があります。<br />
ノード fuji2 の /var/adm/messages を参照します。<br />
Aug 28 10:38: fuji2 kernel: CF: (TRACE): JoinServer: Startup.<br />
Aug 28 10:38:25 fuji2 kernel: CF: Giving UP Mastering (Cluster already Running).<br />
Aug 28 10:38:25 fuji2 kernel: CF: fuji3: busy: local node not DOWN: retrying<br />
… 最後のメッセージが繰り返されます。<br />
上記の内容は、ノード fuji2 はクラスタを離脱しているのに DOWN 宣言されていないことを示して<br />
います。<br />
また、fuji3 のコンソールにも /var/adm/messages にも新しいメッセージはありません。<br />
ノード fuji3 で cftool –n を実行して、ノードの状態を表示します。<br />
fuji3:cftool –n<br />
Node Number State Os Cpu<br />
fuji2 1 LEFTCLUSTER Linux Pentium<br />
fuji3 2 UP Linux Pentium<br />
上記のとおり、ノード fuji2 が LEFTCLUSTER 状態になっていることが確認されます。<br />
修正方法<br />
LEFTCLUSTER 状態は、cftool –k を実行することで解除できます。<br />
このオプションを指定すると、ノードは DOWN 状態になります。<br />
稼動中のノードを DOWN 宣言すると重大な障害が発生し、最悪の場合にはデータが消失する可能性<br />
があります。ノードが停止していない場合には、cftool コマンドでノードを DOWN 状態にしないで<br />
ください。<br />
cftool –k<br />
Enter node number: 1<br />
Enter name for node #1: fuji2<br />
cftool(down): declaring node #1 (fuji2) down<br />
cftool(down): node fuji2 is down<br />
ノード fuji3 のコンソールに以下のメッセージが表示されます。<br />
Aug 28 10:47:39 fuji3 kernel: CF: FUJI: fuji2 is Down. (#0000 2)<br />
Aug 28 10:49:09 fuji3 kernel: CF: Node fuji2 Joined Cluster FUJI.<br />
(#0000 2)<br />
また、ノード fuji2 のコンソールに以下のメッセージが表示されます。<br />
Aug 28 10:49:00 fuji2 kernel: CF: Local Node fuji2 Created Cluster FUJI.<br />
(#0000 1)<br />
145
第3章 運用時のトラブル<br />
3.8 RC2000 に関するトラブル<br />
146<br />
RC2000 に関するトラブルについて対処法を説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-8-1 システムコンソールをクラスタ管理サーバとし、クライアントマ<br />
シンで RC2000 を起動した場合、コンソール接続時に”接続に失<br />
敗しました。”のメッセージが表示される<br />
○ -<br />
Q3-8-1 システムコンソールをクラスタ管理サーバとし、クライアントマシンで RC2000 を起<br />
動した場合、コンソール接続時に”接続に失敗しました。”のメッセージが表示される<br />
原因<br />
クライアントマシンにシステムコンソールのホスト名を定義する必要があります。<br />
クライアントマシンのOS 環境に従い、"PRIMECLUSER インストールガイド" の "5.3.2.3.3 イン<br />
ストール後の環境設定" または "5.3.3.3.3 インストール後の環境設定" を参照し、クライアン<br />
トマシンにシステムコンソールのホスト名を定義してください。<br />
上記以外の RC2000 に関するトラブルシューティングは、RC2000 ユーザーズガイドの "付録D. トラブ<br />
ルシューティング" を参照してください。
3.9 GDS のトラブル<br />
3.9 GDS のトラブル<br />
GDS に関するトラブルシューティングは、"<strong>PRIMECLUSTER</strong> Global Disk Services 説明書" の "<br />
付録F トラブルシューティング"を参照してください。<br />
147
第3章 運用時のトラブル<br />
3.10 GFS のトラブル<br />
148<br />
GFS に関するトラブルシューティングについて説明します。<br />
メッセージの出力先は、使用する OS によって異なります。<br />
― Solaris の場合:/var/adm/messages<br />
― Linux の場合: /var/log/messages<br />
本節では、特に断りのない限り Solaris のメッセージファイル名を記載しています。<br />
以下のトラブル以外は、"<strong>PRIMECLUSTER</strong> Global File Services 説明書" の "付録G トラブル<br />
シューティング" を参照してください。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-10-1 ERROR:sfcfrmstart:0010:Starting processing of sfcfrmd went<br />
wrong が表示される<br />
○ ○<br />
Q3-10-2 ERROR: sfcfsd: 0011: blockade : mountpoint(xxxxx) が表示さ<br />
れる<br />
○ -<br />
Q3-10-3 ノードの起動が完了しているのにGFS共用ファイルシステムが自<br />
動マウントされない<br />
○ ○<br />
Q3-10-1 ERROR:sfcfrmstart:0010:Starting processing of sfcfrmd went wrong が表示され<br />
る<br />
説明<br />
本メッセージは、GFS 共用ファイルシステムのデーモン sfcfrmd が異常を検知して起動に失敗し<br />
たことを示します。sfcfrmd が起動に失敗するとそのノードでは GFS 共用ファイルシステムをマ<br />
ウントすることができません。<br />
sfcfrmd の検知する異常は、以下の事象が考えられます。<br />
● CF 機能が使用できない<br />
対処<br />
以下の事象が発生していないか調査して、対処を実施してください。<br />
● CF 機能が使用できない<br />
まず、/var/adm/messages で、CF のエラーメッセージが出力されていないか確認してください。<br />
エラーメッセージが出力されている場合は、"<strong>PRIMECLUSTER</strong> 活用ガイド" を参照<br />
し、該当するメッセージに応じた対処を行ってください。<br />
例えば、CF のアンロードが失敗した場合、下記のエラーメッセージが出力されています。<br />
cf:cfconfig OSDU_stop: failed to unload cf_drv<br />
この場合は、"<strong>PRIMECLUSTER</strong> 活用ガイド" の "7.1 cfconfig コマンドメッセー<br />
ジ" の "7.1.2.2 cfconfig -u" の対処に従ってください。<br />
また、CF の初期化が完了する前に sfcfrmd が起動された場合、その起動に失敗することがありま<br />
す。"cftool -l" を実行し、自ノードの State が UP になっていることを確認した後、以下の操
作を行い、GFS を起動してください。<br />
1. sfcfrmd を起動してください。<br />
# sfcfrmstart<br />
2. 必要があれば、GFS 共用ファイルシステムをマウントしてください。<br />
# mount /mnt/fs1<br />
マウントポイント:/mnt/fs1<br />
3.10 GFS のトラブル<br />
詳細については、"<strong>PRIMECLUSTER</strong> Global File Services 説明書" の、"20.2.4 sfcfrmd デーモン<br />
の起動" と "22.2.4 mount/umount/全ノード(u)mount" を参照してください。<br />
上記が原因でない場合は、全ノードについて調査資料を採取し、カスタマサポート担当者にご連絡<br />
ください。調査資料の採取方法は、"第7章 トラブル調査情報の採取方法" を参照してください。<br />
Q3-10-2 ERROR: sfcfsd: 0011: blockade : mountpoint(xxxxx)が表示される<br />
説明<br />
マウントポイントが xxxxx である GFS 共用ファイルシステムが閉塞しました。フェイルオーバ処<br />
理が行われましたが、なんらかの問題が発生しフェイルオーバが失敗したためです。<br />
対処<br />
1. 上記メッセージの前に、GFS 共用ファイルシステムが動作しているノードのコンソールに<br />
エラーメッセージが表示されている場合は、そのエラーメッセージに対する対処を行って<br />
ください。GFS 共用ファイルシステムのエラーメッセージについては、"<strong>PRIMECLUSTER</strong><br />
Global File Services 説明書" の "付録 E メッセージ一覧" を参照してください。<br />
2. /var ファイルシステムが、GFS 共用ファイルシステムの共用ノードにおいて性能差があ<br />
る状況か確認してください。性能差がある状況で複数ファイルシステムを運用している場<br />
合は、フェイルオーバ処理が失敗しファイルシステムが閉塞する場合があります。<br />
例えば、以下の状況が考えられます。<br />
1) GFS 共用ファイルシステムを共用する一部のノードにおいてのみ /var が GDS の<br />
ミラーボリューム上に構築されているなど、ノード間で /var の I/O 性能差があ<br />
るシステム構成となっている場合<br />
この場合は、すべての GFS 共用ファイルシステムを共用するノードの /var を同<br />
一の構成としてください。<br />
例えば、すべてのノードで /var をローカルディスクを使用するか GDS のシスボ<br />
ルミラー構成を使用するかどちかに統一してください。<br />
2) GFS 共用ファイルシステムを共用する一部のノードにおいて /var が構築されて<br />
いる GDS のボリュームで等価性コピーが動作している場合<br />
この場合は、閉塞が発生したファイルシステムを一旦アンマウントしてマウントす<br />
ることで復旧してください。可能であれば、GDS のボリュームの等価性コピーが完<br />
了後にシステム運用を開始願います。<br />
なお、等価性コピーの状態は、sdxinfo(1M) で確認します。詳細は、"<strong>PRIMECLUSTER</strong><br />
Global Disk Services 説明書 4.1" を参照してください。<br />
3) GFS 共用ファイルシステムを共用するノードの一部だけ /var が構築されている<br />
ディスク装置で媒体エラーが発生している場合<br />
149
第3章 運用時のトラブル<br />
150<br />
この場合は、早急にディスク装置の交換を実施してください。<br />
3. 上記以外の場合は、全ノードについて調査資料を採取し、カスタマサポート担当者にご連<br />
絡ください。調査資料の採取方法は、"第7章 トラブル調査情報の採取方法" を参照して<br />
ください。<br />
閉塞が発生したファイルシステムを一旦アンマウントしてマウントすることで復旧して<br />
ください。<br />
Q3-10-3 ノードの起動が完了しているのに GFS 共用ファイルシステムが自動マウントされ<br />
ない<br />
説明<br />
ノード起動時、または、マルチユーザモード遷移時に、クラスタ整合状態が保証されていないと、<br />
sfcfrmd デーモンの起動が保留されます。sfcfrmd デーモンの起動方法を wait_bg に設定してい<br />
る場合は、sfcfrmd デーモンの起動だけ保留するので、ノードの起動が完了していても、GFS 共用<br />
ファイルシステムが自動マウントされていないことがあります。通常は、クラスタ整合状態が保証<br />
されない状態は、すべての運用ノードが起動するまでの一時的な状態であり、クラスタ整合状態が<br />
保証され次第、sfcfrmd デーモンの起動と GFS 共用ファイルシステムのマウントが行われるため<br />
対処は必要ありません。<br />
ただし、以下の場合は、クラスタ整合状態が保証されない状態が続くため対処が必要です。<br />
● クラスタパーティションが発生した。<br />
● クラスタを構成するすべてのノードを停止している状態から、一部のノードだけを起動し<br />
GFS の運用を行おうとした。<br />
対処<br />
"<strong>PRIMECLUSTER</strong> Global File Services 説明書"の "sfcfrmd デーモンが起動しない場合の対処" を<br />
参照してください。
3.11 GLS のトラブル<br />
3.11 GLS のトラブル<br />
GLS に関するトラブルシューティングは、"<strong>PRIMECLUSTER</strong> Global Link Services 説明書(伝送<br />
路二重化機能編)" の "付録 D.2 トラブルシューティング (Solaris)"、"付録 D.1 トラブル<br />
シューティング (Linux)" を参照してください。<br />
151
第3章 運用時のトラブル<br />
3.12 設定変更時のトラブル<br />
152<br />
設定変更時のトラブルシューティングについて説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q3-12-1 PRIMEPOWER 250/450 で XSCF のネットワーク設定を変更中、他<br />
のノードでエラーメッセージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができ<br />
なくなりました。(node:nodename portno:portnumber<br />
detail:code)<br />
○ -<br />
Q3-12-2 clrsvmajor コマンドで ディスクの major 番号を変更しよう<br />
としたら、下記メッセージが出力された<br />
FJSVcluster:error:clrsvmajor:6003: オプションに誤りがあ<br />
ります<br />
○ -<br />
Q3-12-3 clinitreset コマンドを実行すると、Global Disk Services の<br />
設定が行われている旨を示すエラーが出力された<br />
○ -<br />
Q3-12-4 ノード名変更を行った後、CRM の設定を促す表示がされるが、<br />
初期構成設定を実行するとすでに設定されている旨のメッセー<br />
ジが出力される<br />
○ ○<br />
Q3-12-5 ディスク増設後、自動リソース登録を実施したがリソース登録<br />
されなかった<br />
○ -<br />
Q3-12-6 業務 LAN の IP アドレスを変更したが、ノード再起動後、変更<br />
が反映されない<br />
○ ○<br />
Q3-12-7 Web-Based Admin View の以下の動作環境変数の wvSetparam コ<br />
マンドによる変更や wvGetparam コマンドによる参照を行うと<br />
エラーメッセージが出力された<br />
・primary-server<br />
・secondary-server<br />
・group-addr<br />
・mip<br />
・httpip<br />
エラーメッセージ<br />
Can't load config file : <br />
○ ○<br />
Q3-12-8 Web-Based Admin View の動作環境変数である keep-time(クラ<br />
イアント・管理サーバ間 接続監視時間)を変更してもデフォル<br />
ト時間(10 秒)で管理サーバとの接続が切断される<br />
○ ○<br />
Q3-12-1 PRIMEPOWER 250/450 で XSCF のネットワーク設定を変更中、他のノードでエラー<br />
メッセージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなくなりました。<br />
(node:nodename portno:portnumber detail:code)<br />
対処<br />
XSCF のネットワーク設定が完了後、エラーメッセージが出力されたノードで以下のコマンドを<br />
実行し、コンソール非同期監視デーモンを復旧してください。
# sdtool -e<br />
# sdtool -b<br />
3.12 設定変更時のトラブル<br />
なお、XSCF の IP アドレスまたは XSCF ホスト名を変更した場合、クラスタの設定も変更する<br />
必要があります。再度シャットダウン機構の設定を行い、XSCF に合わせた設定に変更してくだ<br />
さい。<br />
Q3-12-2 clrsvmajor コマンドで ディスクの major 番号を変更しようとしたら、下記メッ<br />
セージが出力された<br />
原因<br />
対処<br />
FJSVcluster:error:clrsvmajor:6003:オプションに誤りがあります<br />
clrsvmajor コマンドのオプションであるディスクドライバに、誤ったドライバ(sfdsklog(SDX<br />
message logging driver))を指定した可能性があります。<br />
ディスクドライバには、sfdsk ドライバを指定してください。<br />
Q3-12-3 clinitreset コマンドを実行すると、Global Disk Services の設定が行われている<br />
旨を示すエラーが出力された<br />
原因<br />
対処<br />
GDS の構成情報が残っているためです。<br />
GDS 構成情報の削除を行ってください。<br />
Q3-12-4 ノード名変更を行った後、CRM の設定を促す表示がされるが、初期構成設定を実行<br />
するとすでに設定されている旨のメッセージが出力される<br />
原因<br />
対処<br />
ノード名変更作業時に手順にない CF の削除を行ったことで、<strong>PRIMECLUSTER</strong> が保持している情<br />
報に不整合が発生したことが考えられます。<br />
一度ノード名を変更前の名前に戻し、正常動作を確認した上で、再度正しい手順でノード名を変<br />
更してください。<br />
153
第3章 運用時のトラブル<br />
154<br />
Q3-12-5 ディスク増設後、自動リソース登録を実施したがリソース登録されなかった<br />
原因<br />
対処<br />
cldiskadm ファイルのリンクの置き換えを実施していない可能性があります。<br />
下記の作業を実施後、自動リソース登録を実行してください。<br />
# rm /etc/opt/FJSVcluster/sys/cldiskadm<br />
# ln -s /etc/opt/FJSVmplb/bin/cldiskadm /etc/opt/FJSVcluster/sys/cldiskadm<br />
Q3-12-6 業務 LAN の IP アドレスを変更したが、ノード再起動後、変更が反映されない<br />
原因<br />
対処<br />
GLS が活性化されていることで、設定変更前の IP アドレスが使用されている可能性があります。<br />
一度 GLS の設定を削除し、ノード再起動後に業務 LAN の IP アドレスを確認してください。<br />
Q3-12-7 Web-Based Admin View の以下の動作環境変数の wvSetparam コマンドによる変更や<br />
wvGetparam コマンドによる参照を行うとエラーメッセージが出力された<br />
・primary-server<br />
・secondary-server<br />
・group-addr<br />
・mip<br />
・httpip<br />
エラーメッセージ<br />
Can't load config file : <br />
原因<br />
対処<br />
Web-Based Admin View のインストール時に、/etc/inet/hosts(Solaris)または /etc/hosts<br />
(Linux)ファイルにホスト名と IP アドレスが記載されていません。<br />
ホスト名に対する IP アドレスを /etc/inet/hosts(Solaris)または /etc/hosts(Linux)ファ<br />
イルに定義してください
3.12 設定変更時のトラブル<br />
Q3-12-8 Web-Based Admin View の動作環境変数である keep-time(クライアント・管理サー<br />
バ間 接続監視時間)を変更してもデフォルト時間(10 秒)で管理サーバとの接続が切断され<br />
る<br />
対処<br />
/etc/opt/FJSVwvbs/etc/bin/wvSetparam コマンドにより keep-time の値を usr 属性の動作環<br />
境変数として追加します。<br />
#/etc/opt/FJSVwvbs/etc/bin/wvSetparam -add usr keep-time <br />
には keep-time に設定する整数が入ります。<br />
155
第4章 保守時のトラブル<br />
本章では、保守を行うときに発生するトラブルの内容および対処方法について説明します。<br />
156
4.1 電源を落としたとき<br />
4.1 電源を落としたとき<br />
保守を行うために電源を落としたときに起こるトラブル対処方法について説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q4-1-1 ノードの AC 電源を落として保守作業中、他のノードでエラーメッ<br />
セージが出力された<br />
FJSVcluster: エラー: DEV: 7003: RCI の異常を検出しました。<br />
(node:nodename address:address status:status)<br />
Q4-1-2 リモートコンソール接続装置の電源を落として保守作業中、他のノ<br />
ードでエラーメッセージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなく<br />
なりました。 (node:nodename portno:portnumber detail:code)<br />
Q4-1-3 PRIMEPOWER 250/450 の AC 電源を落として保守作業中、他のノー<br />
ドでエラーメッセージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなく<br />
なりました。(node:nodename portno:portnumber detail:code)<br />
○ -<br />
○ -<br />
○ -<br />
Q4-1-1 ノードの AC 電源を落として保守作業中、他のノードでエラーメッセージが出力され<br />
た<br />
FJSVcluster: エラー: DEV: 7003: RCI の 異常を検出しました。(node:nodename<br />
address:a dre s status:status)<br />
対処<br />
ノードの保守が完了し、ノードの電源を入れた後、エラーメッセージが出力されたノードで以下<br />
のコマンドを実行し、RCI 非同期監視デーモンを復旧してください。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl restart<br />
# sdtool –e<br />
# sdtool –b<br />
4.1A20 パッチ 913381-03 適用以降または 4.1A30 以降では、以下のコマンドを実行する必要は<br />
ありません。<br />
# /etc/opt/FJSVcluster/bin/clrcimonctl restart<br />
157
第4章 保守時のトラブル<br />
158<br />
Q4-1-2 リモートコンソール接続装置の電源を落として保守作業中、他のノードでエラーメッ<br />
セージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなくなりました。<br />
(node:nodename portno:portnumber detail:code)<br />
対処<br />
リモートコンソール接続装置の保守が完了し電源を入れた後、エラーメッセージが出力されたノ<br />
ードで以下のコマンドを実行し、コンソール非同期監視機能または SF を復旧してください。<br />
【4.1の場合】<br />
# /etc/opt/FJSVcluster/bin/clrcirccusetup<br />
【4.1A10以降の場合】<br />
# sdtool -e<br />
# sdtool -b<br />
Q4-1-3 PRIMEPOWER 250/450 の AC 電源を落として保守作業中、他のノードでエラーメッセ<br />
ージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなくなりました。<br />
(node:nodename portno:portnumber detail:code)<br />
対処<br />
ノードの保守が完了し、ノードの電源を入れた後、エラーメッセージが出力されたノードで以下<br />
のコマンドを実行し、コンソール非同期監視デーモンを復旧してください。<br />
# sdtool -e<br />
# sdtool -b
4.2 セキュリティパッチ適用時<br />
4.2 セキュリティパッチ適用時<br />
セキュリティパッチを適用したときに起こるトラブルの対処方法について説明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q4-2-1 <strong>PRIMECLUSTER</strong> のパッチ適用に失敗する ○ ○<br />
Q4-2-1 <strong>PRIMECLUSTER</strong> のパッチ適用に失敗する<br />
原因<br />
対処<br />
マルチユーザモードでパッチを適用している可能性があります。<br />
パッチは、シングルユーザモードで適用する必要があります。シングルユーザモードに移行した<br />
後、パッチの適用を実行してください。詳細は、パッチに添付の readme を参照してください。<br />
確認事項<br />
マルチユーザモードでパッチを適用していませんか?<br />
159
第4章 保守時のトラブル<br />
4.3 アップデート時<br />
160<br />
<strong>ソフトウェア</strong>またはファームウェアのアップデート時に起こるトラブルの対処方法について説<br />
明します。<br />
■トラブル一覧<br />
No. 現象 Solaris Linux<br />
Q4-3-1 PRIMEPOWER 250/450 で XSCF のファームウェアアップデート<br />
中、他のノードでエラーメッセージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができ<br />
なくなりました。(node:nodename portno:portnumber<br />
detail:code)<br />
○ -<br />
Q4-3-1 PRIMEPOWER 250/450 で XSCF のファームウェアアップデート中、他のノードでエラ<br />
ーメッセージが出力された<br />
FJSVcluster: エラー: DEV: 7040: コンソールへの接続ができなくなりました。<br />
(node:nodename portno:portnumber detail:code)<br />
対処<br />
XSCFのファームウェアアップデート完了後、エラーメッセージが出力されたノードで以下のコマ<br />
ンドを実行し、コンソール非同期監視デーモンを復旧してください。<br />
# sdtool -e<br />
# sdtool -b
第5章 その他のトラブル<br />
本章では、<strong>PRIMECLUSTER</strong> を利用する際に発生する、以下のトラブルについて説明します。<br />
● Linux OS に関するトラブル<br />
● Linux 固有のトラブル<br />
161
第5章 その他のトラブル<br />
5.1 Linux OS に関するトラブル<br />
162<br />
Linux OS 固有のトラブルについて説明します。<br />
■トラブル一覧<br />
No. 現象<br />
Q5-1-1 Adaptec ドライバをアップデートし、リブートを行ったところ、シングルユーザモード<br />
でシステムが起動される<br />
Q5-1-2 NIC 増設後に既存の NIC での通信が不可となる<br />
Q5-1-3 OS のインストール時に RAID の内蔵ドライブが認識されない<br />
Q5-1-4 システムがシングルユーザモードで起動される<br />
Q5-1-5 システムがシングルユーザモードで起動される【RHEL v2.1】<br />
Q5-1-6 システムが突然リブートされる<br />
Q5-1-7 システム起動時に Netdump のサービスが自動起動されない【<strong>PRIMECLUSTER</strong> 4.1A20 以降<br />
と RHEL v3 の組み合わせ】<br />
Q5-1-8 Netdump の採取ができない【<strong>PRIMECLUSTER</strong> 4.1A20 以降 と RHEL v3 の組み合わせ】<br />
Q5-1-9 Netdump を採取したところ、ノードがハングしたまま応答が返らない【<strong>PRIMECLUSTER</strong><br />
4.1A20以降 とRHEL v3 の組み合わせ】<br />
Q5-1-1 Adaptec ドライバをアップデートし、リブートを行ったところ、シングルユーザモー<br />
ドでシステムが起動される<br />
原因<br />
マルチパスドライバが導入されている環境で OS 標準の mkinitrd コマンドによる initrd 作<br />
成を行ったため、リブート時にマルチパスドライバが認識されない場合があります。<br />
対処<br />
initrd の 作 成 時 に は 、 マ ル チ パ ス ド ラ イ バ が 提 供 し て い る mkinitrd コ マ ン ド<br />
(/usr/fjsvgrmpd/bin/mkinitrd-mpd) を実行してください。<br />
確認事項<br />
OS 標準の mkinitrd コマンドを実行していませんか?<br />
Q5-1-2 NIC 増設後に既存の NIC での通信が不可となる<br />
原因<br />
PCI-PCI Bridge の割り込み優先順位により、NIC の優先順位が変わるハードウェア仕様のため、<br />
通信が不可になる場合があります。<br />
対処<br />
PRIMERGY 本体添付のマニュアルに従い NIC の挿入位置を決定してください。<br />
もし、何らかの理由で NIC の挿入位置が変更できない場合は、新たに割り当てられたネットワ<br />
ークインタフェース名のまま使用することを検討してください。NIC とネットワークインタフェ<br />
ース名の関係は、ifconfig コマンドで表示される MAC アドレスを元に判断することができます。<br />
確認事項<br />
インタフェース名が変わっていませんか?
Q5-1-3 OS のインストール時に RAID の内蔵ドライブが認識されない<br />
原因1<br />
OS 導入前に論理ドライブが作成されていない可能性があります。<br />
5.1 Linux OS に関するトラブル<br />
対処1<br />
RAID 接続のドライブは、OS 導入前に RAID カードの BIOS/ 専用ユーティリティにより論理ド<br />
ライブを作成する必要があります。<br />
確認事項1<br />
内蔵ドライブの現調が終わっていますか?<br />
原因2<br />
適切な RAID ドライバが使用されていない可能性があります。<br />
対処2<br />
ハードウェアにバンドルされる KickStart にてインストールを行ってください。<br />
もし、何らかの理由で KickStart によるインストールを行わない場合には、ご使用のモデルに<br />
対応したRAID ドライバを以下の方法でドライバフロッピーからインストールする必要がありま<br />
す。<br />
・インストール時のboot:プロンプトにて、linux dd noprobe と入力します。<br />
・インストーラの指示に従いドライバフロッピーを挿入、SCSI の項より適切なドライバを選<br />
択します。<br />
なお、この場合は NIC のドライバも自動認識されないため、別途導入する必要があります。<br />
確認事項2<br />
適切な RAID ドライバが使用されていますか?<br />
Q5-1-4 システムがシングルユーザモードで起動される<br />
原因<br />
システムで必須としているパーティションでエラーが発生している可能性があります。<br />
対処<br />
コンソールに表示されているメッセージからエラーの発生しているパーティションを特定し、<br />
fsck コマンド等での修復やバックアップからの復旧を試みてください。<br />
コンソールメッセージがスクロールして画面から消えてしまった場合には、<br />
[Shift]+[PageUp]/[PageDown] でスクロールが可能です。<br />
確認事項<br />
システムで使用しているパーティションで障害が発生していませんか?<br />
Q5-1-5 システムがシングルユーザモードで起動される 【RHEL v2.1】<br />
原因<br />
LKCD シャットダウンエージェントが有効となっている場合、システム起動時にパニックステー<br />
タス通知ディスク上のパニックステータスがクリアされていない可能性があります。<br />
対処<br />
パニックステータスのクリアに失敗した場合、クラスタへの参加を回避するためシングルユーザ<br />
モードへと移行します。その際、共用ディスク装置を接続/起動してください。<br />
もし、何らかの理由で共用ディスク装置がない状態でマルチユーザモードで起動する場合は、<br />
LKCD シャットダウンエージェントを無効にすることで回避できます。<br />
163
第5章 その他のトラブル<br />
164<br />
詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "D.5.1 シャットダウン機構の設定に関する注意事<br />
項" を参照してください。<br />
確認事項<br />
RHEL AS/ES 2.1 の場合、共用ディスク装置 (GR/ETERNUS) が未起動あるいは未接続ではありま<br />
せんか?<br />
Q5-1-6 システムが突然リブートされる<br />
原因1<br />
ハードエラーによってハートビート異常が発生して、ノードが強制停止された可能性があります。<br />
対処1<br />
ServerView のログにエラーメッセージが出力されていないか確認してください。<br />
ハードエラーが出力されている場合は、サポートデスクにご連絡ください。<br />
確認事項1<br />
ハード異常が発生していませんか?<br />
原因2<br />
パニックの発生により、システムが自動的にリブートされた可能性があります。<br />
対処2<br />
システムのリブート後、障害調査に必要なシステムおよびクラスタの情報を pclsnap で採取し、<br />
サポートデスクにご連絡ください。<br />
確認事項2<br />
パニックが発生していませんか?<br />
原因3<br />
クラスタインタコネクトに対応するインタフェースに異常が発生した可能性があります。<br />
対処3<br />
ケーブル断、NIC 異常、コネクタ不良等、クラスタインタコネクトを構成するネットワークの異<br />
常を確認してください。<br />
上記以外の原因で発生している場合は、両ノードで障害調査に必要なシステムおよびクラスタの<br />
情報を pclsnap で採取し、サポートデスクにご連絡ください。<br />
確認事項3<br />
cip 情報の表示 (/opt/SMAW/SMAWcf/bin/ciptool –n コマンド) にて、down 状態のインタフェ<br />
ースがありませんか?<br />
Q5-1-7 システム起動時に Netdump のサービスが自動起動されない【<strong>PRIMECLUSTER</strong> 4.1A20以<br />
降 とRHEL v3 の組み合わせ】<br />
原因<br />
Netdump で使用する LAN 環境で、スイッチングハブを使用している場合、STP (Spanning-Tree<br />
Protocol) の設定により、サービスが自動起動されない場合があります。<br />
対処<br />
STP の設定に値(秒)が指定されている場合、ノード起動時にネットワークの Link-up が指定さ<br />
れた秒間制御されます。使用しているスイッチングハブの STP の設定を "Disabled" に設定し<br />
てください。
詳細は、Netdump クラスタ連携ツールのマニュアルを参照してください。<br />
確認事項<br />
使用しているハブの STP を設定していませんか?<br />
5.1 Linux OS に関するトラブル<br />
Q5-1-8 Netdump の採取ができない【<strong>PRIMECLUSTER</strong> 4.1A20 以降 と RHEL v3 の組み合わせ】<br />
原因1<br />
Netdump で使用している LAN と GLS で使用している業務 LAN を共用している可能性がありま<br />
す。<br />
対処1<br />
Netdump 用の LAN と業務 LAN を分けてください。<br />
確認事項1<br />
Netdump で使用している LAN とGLS で使用している業務 LAN を共用していませんか?<br />
原因2<br />
Netdump クライアントで Netdump 用にオンボード LAN を使用している可能性があります。<br />
対処2<br />
RedHat 社提供のディストリビューションに含まれていない IHV ベンダのドライバ (broadcom<br />
等)を使用しているオンボード LAN は、LAN ドライバが未サポートのため、ダンプ採取用途には<br />
使用できません。Netdump 用の LAN を別途用意してください。<br />
詳細は、Netdump クラスタ連携ツールのマニュアルを参照してください。<br />
確認事項2<br />
Netdump クライアントにて、Netdump 用にオンボード LAN を使用していませんか?<br />
Update3 (U05011) を適用している場合、オンボード LAN (broadcom) を使用しても問題<br />
ありません。<br />
Q5-1-9 Netdump を採取したところ、ノードがハングしたまま応答が返らない【<strong>PRIMECLUSTER</strong><br />
4.1A20 以降 と RHEL v3 の組み合わせ】<br />
対処<br />
サーバ側にクライアントノードの実メモリ +600MB 程度の領域を確保してください。<br />
不要なファイルデータ等があれば、削除しておいてください。<br />
また、システム設計時にも Netdump を利用する際の考慮をする必要があります。<br />
確認事項<br />
Netdump サーバの空き領域が不足していませんか?<br />
165
第5章 その他のトラブル<br />
5.2 Linux 固有のトラブル<br />
166<br />
Linux 固有のトラブルシューティングについて説明します。<br />
■トラブル一覧<br />
No. 現象<br />
Q5-2-1 cfconfig コマンド実行時にシステムハングする<br />
Q5-2-2 Cluster Admin に CRM メインウィンドウが表示されない<br />
Q5-2-3 pclsnap による調査資料の採取に失敗する<br />
Q5-2-4 RMS Wizard にて CRM のメニューが表示されない<br />
Q5-2-5 RMS Wizard の Configuration-Activate に失敗する<br />
Q5-2-6 SF の起動 (sdtool –b コマンド)に失敗する<br />
Q5-2-1 cfconfig コマンド実行時にシステムハングする<br />
原因<br />
cfconfig コマンドの実行を連続して行っている可能性があります。<br />
対処<br />
本機能は制限事項です。cfconfig コマンド実行の間隔は、5 分以上空けてください。<br />
詳細は、"<strong>PRIMECLUSTER</strong> インストールガイド" の "4.1 制限事項" を参照してください。<br />
確認事項<br />
CF の起動直後 (cfconfig -l) に cfconfig –u を実行していませんか?<br />
Q5-2-2 Cluster Admin に CRM メインウィンドウが表示されない<br />
原因<br />
CRM ビューパッケージ (FJSVwvfrm-xxxx-xxxx.rpm) がインストールされていない可能性があり<br />
ます。<br />
対処<br />
rpm コマンドにて、CRM ビューパッケージがインストールされていることを確認してください。<br />
インストールされていない場合は、"<strong>PRIMECLUSTER</strong> インストールガイド" の "5. インストール<br />
手順" を参照して、インストールしてください。<br />
確認事項<br />
CRM ビューパッケージ (FJSVwvfrm-xxxx-xxxx.rpm) はインストールされていますか?<br />
Q5-2-3 pclsnap による調査資料の採取に失敗する<br />
原因1<br />
pclsnap に必要な領域が不足している可能性があります。<br />
対処1<br />
/var/opt/FJSVsfcfs/cores 配下にコアダンプが存在しているか確認してください。<br />
コアダンプが存在している場合、pclsnap 採取には大量の空き領域が必要となるため、領域不足<br />
により採取できない可能性があります。<br />
"7.2.1 pclsnap コマンドの実行" を参照し、必要な領域を確保したうえで pclsnap コマンドを<br />
実行してください。
確認事項1<br />
コアダンプが出力されていませんか?<br />
5.2 Linux 固有のトラブル<br />
原因2<br />
pclsnap が情報採取する際、システム内の何らかの異常によりサブコマンドが正常に終了しなか<br />
った可能性があります。<br />
対処2<br />
サブコマンドが正常に終了しなかった状態で採取された snap と pclsnap.elog 、およびダンプ<br />
を採取してサポートデスクにご連絡ください。<br />
詳細は、"7.2.1 pclsnap コマンドの実行" を参照してください。<br />
確認事項2<br />
メッセージ "DIAG: sub-command which collects information of high availability returns<br />
non-zero value." が出力されていませんか?<br />
Q5-2-4 RMS Wizard にて CRM のメニューが表示されない<br />
原因<br />
CRM のメニューに関連するパッケージがインストールされていない可能性があります。<br />
対処<br />
rpm コマンドにて、以下のパッケージがインストールされていることを確認してください。<br />
(RAO)<br />
・FJSVclapm<br />
・FJSVclrms<br />
・FJSVclrwz<br />
RAO のパッケージは、インストール CD3 に格納されています。<br />
インストール手順の詳細は、"<strong>PRIMECLUSTER</strong> インストールガイド" を参照してください。<br />
確認事項<br />
RAO パッケージが正しくインストールされていますか?<br />
Q5-2-5 RMS Wizard の Configuration-Activate に失敗する<br />
原因<br />
RMS Wizard の Activate が失敗し、以下のエラーメッセージが表示される場合があります。<br />
”cfreg daemon not present”<br />
対処<br />
本 機 能 は 、 制 限 事 項 で す 。 cfconfig –l を 全 ノ ードで実行し、5 分後に再度<br />
Configuration-Activate を行ってください。<br />
確認事項<br />
エラーメッセージ "cfreg daemon not present" が表示されていませんか?<br />
Q5-2-6 SF の起動 (sdtool –b コマンド)に失敗する<br />
原因<br />
ネットワーク構成、もしくは、RSB あるいはマネジメントブレードに設定した IP アドレスが間<br />
違っている可能性があります。<br />
167
第5章 その他のトラブル<br />
168<br />
対処<br />
"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照して、<br />
/etc/opt/SMAW/SMAWsf/SA_rsb.cfg で、RSB の IP アドレス、ID/Password の設定値に誤りがな<br />
いか、あるいは /etc/opt/SMAW/SMAWsf/SA_blade.cfg で、マネジメントブレードの IP アドレ<br />
ス、SNMP コミュニティ名の設定値に誤りがないことを確認してください。<br />
また、RSB、あるいはマネジメントブレードの IP アドレスに Ping が通ることを確認してくだ<br />
さい。Ping が通らない場合、ネットワーク構成、もしくは、RSB、あるいはマネジメントブレー<br />
ド に 設 定 し た IP ア ド レ ス が 間 違 っ て い る 可 能 性 が あ り ま す 。<br />
/etc/opt/SMAW/SMAWsf/SA_rsb.cfg、あるいは /etc/opt/SMAW/SMAWsf/SA_blade.cfg の内容が正<br />
しい場合でも、RSB、あるいはマネジメントブレードに設定した IP アドレスが間違っていると、<br />
SF が起動できません。<br />
また、GLS の切替方式によって RSB の接続方法が異なりますので、注意してください。RSB あ<br />
るいはマネジメントブレードの IP アドレスを変更した場合は、<br />
/etc/opt/SMAW/SMAWsf/SA_rsb.cfg 内 の RSB の IP ア ド レ ス 、 あ る い は<br />
/etc/opt/SMAW/SMAWsf/SA_blade.cfg内のマネジメントブレードのIPアドレスも変更してくださ<br />
い。<br />
詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照してく<br />
ださい。<br />
確認事項<br />
RSB、あるいはマネジメントブレードの IP アドレスは正しく設定されていますか?
第2部 トラブル情報の採取<br />
トラブル発生時に確認する内容および採取する情報について説明します。<br />
169
第6章 システム状態の確認<br />
クラスタシステムに問題が発生した場合、本章で説明する手段により、エラーの発生や内容、ク<br />
ラスタシステムの状態を確認することができます。これらの情報に基づきトラブルシューティン<br />
グを行います。
第6章 システム状態の確認<br />
6.1 ブラウザによる確認<br />
172<br />
リソースで障害が発生した場合は、Web-Based Admin View から以下の画面を参照してリソース<br />
を特定できます。<br />
● メッセージポップアップ画面<br />
● CF メインウィンドウ<br />
● CRM メインウィンドウ<br />
● RMS メインウィンドウ<br />
● MSG メインウィンドウ<br />
● リソースの障害履歴(Resource Fault History 画面)<br />
● 故障リソース一覧(Resource Fault History 画面)<br />
故障リソースの履歴機能を使用するには、リソースデータベースを正しく設定しておく必<br />
要があります。また、userApplication の AutoStartUp 属性と PersistentFault 属性を<br />
yes(1) に 設 定する必要があります。リソースデータベースの設定については、<br />
"<strong>PRIMECLUSTER</strong> Cluster Foundation 導入運用手引書" を参照してください。<br />
故障リソースの検出機能を利用するためには、オペレータ介入要求を動作させる必要があ<br />
ります。オペレータ介入要求の動作については、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "<br />
故障リソース特定とオペレータ介入要求の設定" を参照してください。<br />
オペレータ介入機能および故障リソースの履歴機能は clwatchlogd デーモンに依存しま<br />
す。マルチユーザモードの場合、このデーモンは rc スクリプトにより自動起動します。<br />
clwatchlogd は RMS の RELIANT_LOG_PATH 環境変数を使用します。rc スクリプトが最初<br />
に起動したときにこの変数の値が設定されます。<br />
RMS の hvenv.local ファイルに設定されている RELIANT_LOG_PATH の値を変更したとき<br />
は、clwatchlogd に SIGHUP 信号を送信する必要があります。clwatchlogd はこの信号を<br />
受信すると、RELIANT_LOG_PATH の最新の値を取得します。この処理を実行してから RMS<br />
を起動してください。<br />
このマニュアルは /etc/opt/FJSVcluster/man ディレクトリにインストールされていま<br />
す。<br />
man(1) コマンドを実行する前に、このディレクトリを MANPATH の先頭に追加します。通<br />
常、ディレクトリ名は .cshrc ファイル内の setenv MANPATH で始まる行か、.profile フ<br />
ァイル内の export MANPATH で始まる行に追加します。<br />
6.1.1 メッセージポップアップ画面<br />
Cluster Admin を起動しておくと、リソースの故障時のエラーメッセージや、リソースの復旧時<br />
の回復メッセージが、Cluster Admin のポップアップ画面として表示されます。
6.1 ブラウザによる確認<br />
メッセージの意味と対処方法については、"<strong>PRIMECLUSTER</strong> 活用ガイド"<br />
の "第3章 GUI のメッセージ" または "第4章 FJSVcluster 形式のメッセージ" を参照<br />
してください。<br />
重要度アイコンは、次のように定義されています。<br />
アイコン 意味<br />
通知<br />
警告<br />
エラー<br />
その他<br />
次のようにして、メッセージ画面に応答します。<br />
◆操作手順<br />
1. ボタンを選択してメッセージに応答します。<br />
2. 上矢印または下矢印をクリックして、前または次のメッセージに移動します。クリックす<br />
ると、表示されたメッセージへの応答または確認が済んでいないことを通知するメッセー<br />
ジが表示されます。<br />
応答するとメッセージが削除されて、次のメッセージが表示されます。次のメッセージがない場<br />
合、応答したメッセージの前のメッセージがあれば、そのメッセージが表示されます。確認また<br />
は応答が済んでいないメッセージが存在しない場合、メッセージ画面は閉じます。メッセージの<br />
内容については "故障リソースとオペレータ介入メッセージ" を参照し、過去のメッセージを表<br />
示する方法については "リソースの障害履歴" を参照してください。<br />
メッセージが表示された後に Web-Based Admin View または Cluster Admin を閉じると<br />
同じ内容の故障リソースメッセージは表示されなくなるため、故障リソースメッセージが<br />
初めて表示されたときは、メッセージの内容を確認することを推奨します。メッセージを<br />
閉じてしまった場合は、"Resource Fault History" 画面の障害履歴を参照してください。<br />
メッセージの表示言語に関しては、"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の<br />
"Web-Based Admin View の言語設定" を参照してください。<br />
故障リソースメッセージが表示されて、クライアント PC に Cluster Admin 画面が表示<br />
されない場合は、管理サーバに最初に接続されたクライアントだけにメッセージが送信さ<br />
れます。<br />
各管理サーバが故障リソースメッセージを管理します。したがって、メッセージの確認後<br />
に管理サーバを変更すると、同じメッセージが再表示されます。これらのメッセージを削<br />
除するには Cluster Admin を閉じてから、Web-Based Admin View の GUI で [Cluster<br />
Admin] を選択して再度開きます。<br />
173
第6章 システム状態の確認<br />
174<br />
6.1.2 CF メインウィンドウ<br />
Cluster Admin から [cf] タブを選択して表示します。クラスタを構成するノードの構成設定、<br />
管理、状態表示を行います。詳細は、"<strong>PRIMECLUSTER</strong> Cluster Foundation 導入運用手引書" の "5<br />
GUI 管理" を参照してください。<br />
●メイン CF テーブル<br />
クラスタの各ノードを他ノードから見た CF の状態 (UP, DOWN, LEFTCLUSTER) を表示します。<br />
表示方法:<br />
CF メインウィンドウの左側のパネルに表示されるツリーからクラスタ名を選択すると右<br />
側のパネルに表示されます。<br />
●ノードの詳細<br />
ノード名、CF の状態、オペレーティングシステム、CPU、CF で使用するように設定されたイン<br />
タフェース、そのノードが使用する経路の一覧とその状態を表示します。<br />
表示方法:<br />
CF メインウィンドウの左側のパネルに表示されるツリーからクラスタノード名を選択す<br />
ると CF メインウィンドウの右側のパネルに表示されます。
6.1 ブラウザによる確認<br />
●トポロジテーブル<br />
クラスタ内の物理接続を確認し表示します。結線エラーやクラスタ構成上の問題を確認できます。<br />
表示方法:<br />
CF メインウィンドウの [ツール] メニューから [トポロジ] を選択します。<br />
●CF の統計情報<br />
CF の通信に関する統計情報を表示します。<br />
表示方法:<br />
CF メインウィンドウの [統計] メニューから参照したい統計情報を選択します。<br />
●CF ログビューア<br />
syslog メッセージを表示します。時刻、キーワード、重要度による検索機能があります。<br />
175
第6章 システム状態の確認<br />
176<br />
表示方法:<br />
CF メインウィンドウの [ツール] メニューから [syslog メッセージの表示] を選択し<br />
ます。<br />
6.1.3 CRM メインウィンドウ<br />
Cluster Admin から [crm] タブを選択して表示します。故障したハードウェアの特定やハード<br />
ウェアの診断ができます。詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "7.1.2 CRM メインウィ<br />
ンドウ" を参照してください。<br />
●CRM ツリー<br />
クラスタの状態、ノードの状態、リソースの状態を表示します。<br />
表示方法:<br />
CRM メインウィンドウの左側のパネルに表示されます。<br />
●リソース詳細情報<br />
各リソースの属性情報を表示します。
6.1 ブラウザによる確認<br />
表示方法:<br />
CRM ツリービューから属性情報を参照したいリソースを選択すると CRM メインウィンド<br />
ウの右側のパネルに表示されます。<br />
177
第6章 システム状態の確認<br />
178<br />
6.1.4 RMS メインウィンドウ<br />
Cluster Admin から [rms] タブを選択して表示します。アプリケーションの状態監視や操作を<br />
行います。詳細は、"<strong>PRIMECLUSTER</strong> 導入運用手引書" の "7.1.3 RMS メインウィンドウ"、"7.3<br />
<strong>PRIMECLUSTER</strong> システムの監視操作"、および "<strong>PRIMECLUSTER</strong> RMS 導入運用手引書" を参照して<br />
ください。<br />
●RMS ツリー<br />
RMS 構成情報を階層形式で表示し、RMS オブジェクトの状態を表示します。<br />
表示方法:<br />
RMS メインウィンドウの左側のパネルに表示されます。<br />
●オブジェクト属性<br />
各 RMS オブジェクトの属性一覧を表示します。<br />
表示方法:<br />
RMS ツリーから RMS オブジェクトを選択すると RMS メインウィンドウの右側のパネル<br />
に表示されます。<br />
●RMS グラフ<br />
RMS 構成情報をグラフ形式で表示します。
6.1 ブラウザによる確認<br />
表示方法:<br />
RMS ツリー上の RMS オブジェクトを右クリックし、[グラフの表示]、[アプリケーション<br />
グラフの表示]、[サブアプリケーショングラフの表示] のいずれかを選択します。<br />
●環境変数の表示<br />
RMS のグローバル環境変数とローカル環境変数を表示します。<br />
表示方法:<br />
RMS のグローバル環境変数は、RMS ツリー上のクラスタを右クリックし、[環境の表示] を<br />
選択します。RMS のローカル環境変数は、RMS ツリー上のノードを右クリックし [環境の<br />
表示] を選択します。<br />
●switchlog の表示<br />
switchlog ($RELIANT_LOG_PATH/switchlog) を表示します。時刻、キーワード、重要度による検<br />
索機能を使用できます。<br />
表示方法:<br />
RMS ツリー上のノードを右クリックし、[switchlog の表示] を選択します。<br />
●アプリケーションログの表示<br />
アプリケーションログ ($RELIANT_LOG_PATH/app.log) を表示します。時刻、キーワード、重要<br />
179
第6章 システム状態の確認<br />
180<br />
度による検索機能を使用できます。<br />
表示方法:<br />
RMS ツリー上のクラスタアプリケーションを右クリックし、[ログファイルの表示] を選<br />
択します。<br />
6.1.5 MSG メインウィンドウ<br />
Cluster Admin から [msg] タブを選択して表示します。クラスタ制御のメッセージが表示され<br />
ます。<br />
最後に表示したとき以降にテキスト領域に新しいメッセージが追加されている場合、このタブは<br />
赤で表示されます。<br />
メッセージのテキスト領域はクリアしたり、メインパネルから切離すことができます。<br />
6.1.6 リソースの障害履歴<br />
リソースの障害履歴を表示する "Resource Fault History" 画面は、以下の手順で表示します。<br />
◆操作手順<br />
1. "Web-Based Admin View" 画面を開き、[Global Cluster Services] を選択します。<br />
2. [Resource Fault History] を選択します。<br />
"Resource Fault History" 画面が表示されます。
6.1 ブラウザによる確認<br />
"Resource Fault History" 画面は自動的に更新されません。最新の履歴情報を表<br />
示するには、[表示] - [更新] メニューを選択します。<br />
■故障リソース一覧画面のメニュー<br />
"Resource Fault History" 画面のメニューには以下の項目があります。<br />
メニュー 機能<br />
[表示 ]- [最新の情報に更新] 時間範囲が現在の日時に初期化されます。最<br />
大で 100 の最新履歴リソースが表示されま<br />
す。<br />
[表示 ]- [故障リソース一覧] 現時点で障害が発生しているリソースのリ<br />
ストを表示します("故障リソースの一覧"<br />
を参照)。<br />
[表示 ]- [終了] "Resource Fault History" 画面を終了しま<br />
す。<br />
[ヘルプ] - [ヘルプ] GUI ヘルプを表示します。<br />
■時間範囲の設定<br />
故障リソース履歴の一覧は、日付と時刻で絞って表示できます。<br />
● [開始時刻] - 開始時刻を設定します。<br />
● [終了時刻] - 終了時刻を設定します。<br />
設定後、ボタンをクリックすると、指定範囲の最新の故障リソース履歴を最大 100 件<br />
まで表示します。<br />
■キーワードによる検索<br />
故障リソース履歴の一覧は、[キーワード] を指定して、絞り込むこともできます。<br />
時間範囲を設定してある場合は、両方の条件に当てはまる最新の故障リソース履歴が、最大 100<br />
件まで表示されます。<br />
■一覧の見方<br />
"Resource Fault History" 画面には、以下の情報が表示されます。<br />
● 発生時刻 ― RMS がリソース障害を検出した時刻が表示されます。<br />
● 状態 ― 以下のいずれかの状態を示します。<br />
― 応答済 - オペレータはメッセージに応答済みです。<br />
― 応答未 - 応答が必要なメッセージに対してオペレータが応答していません。<br />
181
第6章 システム状態の確認<br />
182<br />
― 応答中 - オペレータはメッセージに応答中です。<br />
― 確認 - 応答が不要な通知メッセージです。<br />
● メッセージ - メッセージが表示されます。<br />
● 選択情報 - 管理サーバに接続されているクライアントからのオペレータ介入メッセージ<br />
の情報が表示されます。メッセージがキャンセルされている場合、または clreply(1M) コ<br />
マンドを使用してメッセージに応答した場合は、この列に何も表示されません。<br />
● 実行結果 - 応答処理の結果と時刻が表示されます。<br />
■情報フィールド<br />
画面下の情報フィールドには、履歴ファイルの取得中または読込み中にエラーが検出されたとき<br />
の情報が表示されます。表示される項目は以下のとおりです。<br />
● 処理中 - 管理サーバから履歴データを収集しています。<br />
● 指定した時刻に誤りがあります - 指定した時間範囲が正しくありません。訂正し、ボタンを再びクリックします。<br />
● 一部のデータ獲得に失敗しました - 履歴ファイルの一部が壊れている可能性があります。<br />
システムの運用には影響しませんが、壊れたデータは表示されません。<br />
6.1.7 故障リソースの一覧<br />
"Resource Fault History" 画面で [表示]-[故障リソース一覧] を選択すると、以下のような<br />
故障リソース一覧が表示されます。<br />
故障リソース一覧画面には、以下の情報が表示されます。<br />
● 故障リソース - 故障リソースのリソース名が表示されます。<br />
● SysNode - 故障リソースが属している SysNode が表示されます。<br />
● 故障時間 - RMS がリソースの障害を検出した日付と時刻が表示されます。<br />
● userApplication - 故障リソースが属している userApplication の名前が表示されます。<br />
をクリックすると、故障リソース一覧画面を閉じます。<br />
cldispfaultrsc(1M) コマンドを使用して、現時点で Faulted 状態のリソースのリストを表示す<br />
ることもできます。
6.2 コマンドによる確認<br />
cftool(1M)<br />
ciptool(1M)<br />
hvdisp(1M)<br />
hvconfig(1M)<br />
sdtool(1M)<br />
6.2 コマンドによる確認<br />
コマンドを使用してクラスタシステムの状態を調べる方法を説明します。各コマンドの詳細につ<br />
いては、"<strong>PRIMECLUSTER</strong> 活用ガイド " を参照してください。<br />
ここで説明するコマンドは、状態表示以外に、システムやプログラムの停止、状態や設定<br />
の変更などシステムの状態を変更する機能を持つものも含まれます。各コマンドを使用す<br />
る前に、各コマンドのオンラインマニュアルを読み、コマンドの仕様を十分に理解したう<br />
えで実行してください。<br />
CF の状態、クラスタインタコネクトの状態、ノード間通信に関する統計情報を表示します。<br />
-n 各ノードの CF の状態を UP、DOWN、LEFTCLUSTER という状態で表示します。<br />
-r 経路の状態を表示します。<br />
-d クラスタが使用するインタコネクトのネットワークインタフェースのデバイ<br />
ス情報を表示します。<br />
-i ICF の統計情報を表示します。<br />
-m MAC の統計情報を表示します。<br />
CIP の状態を表示します。<br />
-a アドレス解決テーブル (CIP の IP アドレスとノード名のマッピング)を表<br />
示します。<br />
-n すべての CIP の状態を表示します。<br />
ciptoolはフルパス (/opt/SMAW/SMAWcf/bin/ciptool)で実行してください。<br />
RMS オブジェクトの状態を表示します。<br />
-a 本コマンドが実行された時点の各 RMS オブジェクトのオブジェクト名、タイ<br />
プ、SysNode 名、状態を表示します。<br />
-u 各 RMS オブジェクトの状態が変更されたときに、各 RMS オブジェクトの状<br />
態を自動更新して表示します。<br />
RMS 構成情報を表示します。<br />
-l 現在の RMS 構成情報を表示します。<br />
各シャットダウンエージェントの状態を表示します。<br />
-s 各シャットダウンエージェントの状態を表示する。<br />
183
第6章 システム状態の確認<br />
184<br />
clgettree(1)<br />
ハードウェアリソースの状態をツリー形式で表示します。<br />
cldispfaultrsc(1M)<br />
clspconfig(1M)<br />
現在故障しているリソース一覧を表示します。<br />
-a すべての SysNode で故障しているリソースの一覧を表示します。<br />
パトロール診断機能の設定状態を表示します。<br />
-u 指定したクラスタアプリケーションに対する設定状態を表示します。
第7章 トラブル調査情報の採取方法<br />
<strong>PRIMECLUSTER</strong> システムに障害が発生した場合の、トラブル調査情報の採取方法について説明し<br />
ます。<br />
トラブル情報の採取方法は、Solaris と Linux で異なります。<br />
185
第7章 トラブル調査情報の採取方法<br />
7.1 Solaris におけるトラブル調査情報の採取方法<br />
186<br />
<strong>PRIMECLUSTER</strong> システムに障害が発生した場合は、調査に必要な以下の情報を、クラスタを構成<br />
するすべてのノード、およびクラスタ管理サーバから収集します。それからカスタマサポート担<br />
当者に連絡してください。<br />
1. <strong>PRIMECLUSTER</strong> の調査情報<br />
― fjsnap を使用して、エラー調査に必要な情報を収集します。<br />
― システムの調査情報を収集します。<br />
ハードエラー、OS のエラー発生時、パニック発生時またはノードにログインでき<br />
ない時に必須となる以下の資料を収集します。<br />
‐ システムダンプ<br />
‐ SCF (※)ダンプ<br />
※SCF :System Control Facility (以降 SCF と略します)<br />
― SF のデバッグ情報を採取します。<br />
"8.3 SF をデバックモードにする" を参照してください。<br />
― クライアントの Java コンソールを収集します。<br />
"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "付録B.2.2 Java コンソー<br />
ル" を参照してください。<br />
― クライアントの画面のハードコピーを収集します。<br />
"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "付録 B.2.3 画面のハード<br />
コピー" を参照してください。<br />
― クライアントで RC2000 を使用している場合には、クライアントの RC2000 の情報<br />
を収集します。<br />
"RC2000 ユーザーズガイド" の "D.2 トラブル調査情報の採取方法" を参照して<br />
ください。<br />
2. アプリケーションに障害が発生している場合は、アプリケーションの調査用資料<br />
3. 障害が再現可能な場合には、障害再現手順マニュアル<br />
― 障害情報をカスタマサポート担当者に報告する際は、エラー調査に必要な情報を正<br />
確に収集する必要があります。収集した情報は、問題の確認および障害再現の実行<br />
のために使用されます。よって、情報が正確でないと、問題の再現および診断に時<br />
間がかかってしまうか、それらが不可能となる場合があります。<br />
― 調査用資料は <strong>PRIMECLUSTER</strong> システムのすべてのノードから速やかに収集する必<br />
要があります。特に、fjsnap が収集する情報は、障害の発生後に時間が長く経過<br />
すると、必要な情報が失われてしまうことがあるので注意してください。<br />
― ノードが強制終了している場合は OBP モードで sync を実行し、システムダンプ<br />
を収集してください。
7.1.1 fjsnap コマンドの実行<br />
7.1 Solaris におけるトラブル調査情報の採取方法<br />
fjsnap コマンドは Solaris のシステム情報ツールで、FJSVsnap 拡張サポート機能パッケージ<br />
に付属しています。<strong>PRIMECLUSTER</strong> システムで障害が発生した場合は、必要なエラー情報を収集<br />
して原因を追及することができます。<br />
fjsnap コマンド実行を以下に示します。<br />
1. システム管理者権限でログインします。<br />
2. fjsnap コマンドを実行します。<br />
/opt/FJSVsnap/bin/fjsnap -h output 、または<br />
/opt/FJSVsnap/bin/fjsnap -a output<br />
― -a はすべての詳細情報を収集するため、データが大きくなります。-h を指定する<br />
と、クラスタ制御情報のみが収集されます。<br />
― output には、fjsnap コマンドを使用して収集したエラー情報の出力先となる出力<br />
媒体の特殊なファイル名または出力ファイル名 (/dev/rmt/0 など) を指定します。<br />
fjsnap コマンドの詳細については、FJSVsnap パッケージに含まれている README ファイ<br />
ルである README.ja ファイルを参照してください。<br />
fjsnap コマンドの実行タイミングについて<br />
― エラーメッセージが出力された場合などの通常運用時のトラブルは、トラブル発生<br />
時に即座に fjsnap コマンドを実行してください。<br />
― システムハング等のため fjsnap コマンドが実行できない場合は、システムダンプ<br />
を採取してください。その後、シングルユーザモードで起動し、fjsnap コマンド<br />
を実行してください。<br />
システムダンプは、REQUEST スイッチを押すか、アボートキーシーケンス (Break<br />
信号など)を入力して、ノードを OBP モードに強制停止した後、"sync" を実行し<br />
て採取します。ノードを OBP モードに強制停止する詳細な手順は、PRIMEPOWER の<br />
取扱説明書、Solaris のマニュアル "Solaris のシステム管理" を参照してくださ<br />
い。<br />
― トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザモード<br />
で起動できなかった)場合や、誤ってマルチユーザモードで起動してしまった場合<br />
にも、fjsnap コマンドを実行してください。<br />
― fjsnap コマンドがエラーになる、または fjsnap コマンドが復帰しない等により<br />
調査情報が採取できない場合は、システムダンプを採取してください。<br />
7.1.2 システムダンプ<br />
ノードがパニック状態にあるときは、調査資料としてシステムダンプを採取してください。シス<br />
テムダンプはノードの起動プロセス中にファイルとして保存されます。デフォルトの保存先ディ<br />
レクトリは /var/crash/node_name です。<br />
187
第7章 トラブル調査情報の採取方法<br />
188<br />
7.1.3 SCF ダンプ<br />
以下の現象が発生した場合、SCF ダンプを採取してください。<br />
● 7003、7004 のメッセージが出力された<br />
● SCF ドライバからのメッセージが出力された<br />
SCF ドライバから出力されるメッセージについては、"Enhanced Support Facility ユー<br />
ザーズガイド" を参照してください。<br />
◆採取方法<br />
SCF からの異常通知を受けた SCF の RAS 監 視 デーモンによって、SCF ダンプが<br />
"/var/opt/FJSVhwr/scf.dump" に格納されます。<br />
以下の操作に従って、このファイルをディレクトリごと採取してください。<br />
# cd /var/opt<br />
# tar cf /tmp/scf.dump.tar ./FJSVhwr<br />
SCS が接続されている機種については、getscfdump コマンドで採取することができます。<br />
getscfdump コマンドの詳細は、"System Console Software ユーザーズガイド" を参照してくだ<br />
さい。
7.2 Linux におけるトラブル調査情報の採取方法<br />
7.2 Linux におけるトラブル調査情報の採取方法<br />
<strong>PRIMECLUSTER</strong> システムに障害が発生した場合は、調査に必要な以下の情報を、クラスタを構成<br />
するすべてのノード、およびクラスタ管理サーバから収集します。それからカスタマサポート担<br />
当者に連絡してください。<br />
1. <strong>PRIMECLUSTER</strong> の調査情報<br />
― fjsnap(4.2A00以前はpclsnap)を使用して、エラー調査に必要な情報を収集しま<br />
す。<br />
― システムの調査情報を収集します。<br />
― クライアントの Java コンソールを収集します。<br />
"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "付録 B.2.2 Java コンソ<br />
ール" を参照してください。<br />
― クライアントの画面のハードコピーを収集します。<br />
"<strong>PRIMECLUSTER</strong> Web-Based Admin View 操作手引書" の "付録 B.2.3 画面のハード<br />
コピー" を参照してください。<br />
2. アプリケーションに障害が発生している場合は、アプリケーションの調査用資料<br />
3. クラッシュダンプ<br />
障害が発生したノードでクラッシュダンプの採取が可能な場合、ノード再起動を行う前に<br />
手動でクラッシュダンプを採取してください。OS に依存する障害の場合、クラッシュダ<br />
ンプが有用となります。<br />
例)予期せぬリソース故障により切替えが発生した場合<br />
クラスタアプリケーションの切替えが完了した後、リソース故障が発生したノード<br />
でクラッシュダンプを採取します。<br />
<strong>PRIMECLUSTER</strong> あるいは 他<strong>ソフトウェア</strong>がシステムパニックを発生させることでクラッ<br />
シュダンプが採取される場合もあります。この場合も、クラッシュダンプを採取してくだ<br />
さい。<br />
クラッシュダンプの詳細については、"7.2.2 クラッシュダンプ" を参照してください。<br />
4. 障害が再現可能な場合には、障害再現手順マニュアル<br />
― 障害情報をカスタマサポート担当者に報告する際は、エラー調査に必要な情報を正<br />
確に収集する必要があります。収集した情報は、問題の確認および障害再現の実行<br />
のために使用されます。よって、情報が正確でないと、問題の再現および診断に時<br />
間がかかってしまうか、それらが不可能となる場合があります。<br />
― 調査用資料は <strong>PRIMECLUSTER</strong> システムのすべてのノードから速やかに収集してく<br />
ださい。特に、fjsnap(4.2A00以前はpclsnap) が収集する情報は、障害の発生後<br />
に時間が長く経過すると、必要な情報が失われてしまうことがあるので注意してく<br />
ださい。<br />
仮想マシン機能を使用している場合は、"PRIMEQUEST 仮想マシン機能 ユーザーズマニュ<br />
アル"を参照してください。<br />
7.2.1 fjsnap/pclsnap コマンドの実行<br />
fjsnap(4.2A00以前はpclsnap) コマンドは <strong>PRIMECLUSTER</strong> の障害調査情報採取ツールです。<br />
189
第7章 トラブル調査情報の採取方法<br />
190<br />
<strong>PRIMECLUSTER</strong> システムで障害が発生した場合は、必要なエラー情報を収集して原因を追及する<br />
ことができます。<br />
7.2.1.1 fjsnapコマンドの実行<br />
fjsnap コマンド実行を以下に示します。<br />
1. システム管理者権限でログインします。<br />
2. fjsnap コマンドを実行します。<br />
/usr/sbin/fjsnap -a output<br />
― output には、fjsnap コマンドを使用して収集したエラー情報の出力先となる出力<br />
ファイル名を指定します。<br />
fjsnap コマンドの詳細については、FJSVsnap パッケージに含まれている README ファイ<br />
ルを参照してください。<br />
fjsnap コマンドの実行タイミングについて<br />
― エラーメッセージが出力された場合などの通常運用時のトラブルは、トラブル発生<br />
時に即座に fjsnap コマンドを実行してください。<br />
― システムハング等のため fjsnap コマンドが実行できない場合は、クラッシュダン<br />
プを採取してください。その後、シングルユーザモードで起動し、fjsnap コマン<br />
ドを実行してください。クラッシュダンプの採取については、"7.2.2 クラッシュ<br />
ダンプ" を参照してください。<br />
― トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザモード<br />
で起動できなかった)場合や、誤ってマルチユーザモードで起動してしまった場合<br />
にも、fjsnap コマンドを実行してください。<br />
― fjsnap コマンドがエラーになる、または fjsnap コマンドが復帰しない等により<br />
調査情報が採取できない場合は、クラッシュダンプを採取してください。<br />
7.2.1.2 pclsnapコマンドの実行<br />
pclsnap コマンド実行を以下に示します。<br />
1. システム管理者権限でログインします。<br />
2. pclsnap コマンドを実行します。<br />
/opt/FJSVpclsnap/bin/pclsnap -a output 、または<br />
/opt/FJSVpclsnap/bin/pclsnap -h output<br />
― -a はすべての詳細情報を収集するため、データが大きくなります。-h を指定する<br />
と、クラスタ制御情報のみが収集されます。<br />
― output には、pclsnap コマンドを使用して収集したエラー情報の出力先となる出<br />
力媒体の特殊なファイル名または出力ファイル名 (/dev/st0 など) を指定します。<br />
ディレクトリを含む出力ファイル名にカレントディレクトリからの相対パスを指<br />
定する場合、パスは "./" から始めてください。<br />
pclsnap コマンドの詳細については、FJSVpclsnap パッケージに含まれている README フ
ァイルを参照してください。<br />
7.2 Linux におけるトラブル調査情報の採取方法<br />
pclsnap コマンドの実行タイミングについて<br />
― エラーメッセージが出力された場合などの通常運用時のトラブルは、トラブル発生<br />
時に即座に pclsnap コマンドを実行してください。<br />
― システムハング等のため pclsnap コマンドが実行できない場合は、クラッシュダ<br />
ンプを採取してください。その後、シングルユーザモードで起動し、pclsnap コマ<br />
ンドを実行してください。クラッシュダンプの採取については、"7.2.2 クラッシ<br />
ュダンプ" を参照してください。<br />
― トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザモード<br />
で起動できなかった)場合や、誤ってマルチユーザモードで起動してしまった場合<br />
にも、pclsnap コマンドを実行してください。<br />
― pclsnap コマンドがエラーになる、または pclsnap コマンドが復帰しない等によ<br />
り調査情報が採取できない場合は、クラッシュダンプを採取してください。<br />
pclsnap コマンドの実行に必要なディレクトリの空き容量について<br />
pclsnap コマンドの実行に必要なディレクトリの空き容量の目安を、以下の表に示します。<br />
ディレクトリの種類 デフォルトディレクトリ 空き容量(目安) (MB)<br />
出力ディレクトリ コマンド実行時のカレントデ<br />
ィレクトリ<br />
300<br />
一時ディレクトリ /tmp 500<br />
システム環境によっては、上記目安値 (300MB, 500MB) では空き容量不足となる場合があ<br />
ります。<br />
ディレクトリの空き容量不足を原因として情報採取が正常に行われなかった場合、<br />
pclsnap コマンドは終了時にエラーメッセージまたは警告メッセージを出力します。この<br />
場合、以下に示す対処方法に従って、再度コマンドを実行してください。<br />
●出力ディレクトリの空き容量不足への対処<br />
pclsnap コマンドを実行して、出力ファイルの生成に失敗した場合、次のエラーメッセー<br />
ジが出力されます。<br />
ERROR: failed to generate the output file "xxx".<br />
DIAG: ...<br />
対処方法:<br />
出力ディレクトリを空き容量の大きなディレクトリに変更して、再度コマンドを実<br />
行してください。<br />
例:<br />
出力ディレクトリを /var/crash にする場合<br />
# /opt/FJSVpclsnap/bin/pclsnap -a /var/crash/output<br />
●一時ディレクトリの空き容量不足への対処<br />
pclsnap コマンドを実行すると、次の警告メッセージが出力されることがあります。<br />
WARNING: The output file "xxx" may not contain some data files.<br />
191
第7章 トラブル調査情報の採取方法<br />
192<br />
DIAG: ...<br />
この警告メッセージが出力された場合、pclsnap コマンドの出力ファイルは生成さ<br />
れますが、一部の採取対象情報が出力ファイルに含まれていない可能性があります。<br />
対処方法:<br />
一時ディレクトリを空き容量の大きなディレクトリに変更して、再度コマンドを実<br />
行してください。<br />
例:<br />
一時ディレクトリを /var/crash に変更する場合<br />
# /opt/FJSVpclsnap/bin/pclsnap -a -T/var/crash output<br />
一時ディレクトリを変更しても同様の警告メッセージが出力される場合、次の原因が考え<br />
られます。<br />
(1) システム状態に起因して、特定の情報採取コマンドがタイムアウトする<br />
(2) 採取対象ファイルが、一時ディレクトリの空き領域と比較して大きい<br />
(1) の場合は、pclsnap の出力ファイルに含まれる pclsnap.elog ファイルにタイムアウ<br />
ト発生のログが記録されています。pclsnap の出力ファイルとともに、可能であればクラ<br />
ッシュダンプを採取してください。<br />
(2) の場合は、次の (a)(b) などが一時ディレクトリの空き容量よりも大きくなっていな<br />
いか、確認してください。<br />
(a) ログファイルのサイズ<br />
― /var/log/messages<br />
― /var/opt/SMAW*/log/ 配下のログファイル (SMAWsf/log/rcsd.log など)<br />
(b) コアファイルの合計サイズ<br />
― GFS のコアファイル<br />
/var/opt/FJSVsfcfs/cores/*<br />
― GDS のコアファイル<br />
/var/opt/FJSVsdx/*core/*<br />
これらが一時ディレクトリの空き容量よりも大きい場合には、該当ファイルを出力ディレ<br />
クトリおよび一時ディレクトリとは別のパーティションに移動して、再度 pclsnap コマ<br />
ンドを実行してください。なお、移動したファイルは削除せずに保存しておいてください。
7.2.2 クラッシュダンプ<br />
7.2 Linux におけるトラブル調査情報の採取方法<br />
Linux Kernel Crash Dump(LKCD)、Netdump、あるいは Diskdump がインストールされた環境では、<br />
調査資料としてクラッシュダンプを採取することができます。<br />
また、PRIMEQUEST では、Diskdump の他にハードウェア(ファームウェア)と連携した sadump 機<br />
能でダンプを採取することができます。sadump は、Diskdump によるダンプの採取が失敗した場<br />
合にダンプを採取する機能です。sadump については、"PRIMEQUEST 480/440/420 リファレンス<br />
マニュアル:メッセージ/ログ"を参照してください。<br />
クラッシュダンプの採取タイミング<br />
● カーネルで Oops が発生した場合<br />
● カーネルでパニックが発生した場合<br />
● システム管理者がコンソールで++キーを押した場合<br />
● 本体の NMI ボタンを押した場合<br />
クラッシュダンプの採取方法は以下のとおりです。<br />
1. <strong>PRIMECLUSTER</strong> あるいは 他<strong>ソフトウェア</strong>によるシステムパニック時のクラッシュダンプ<br />
採取方法<br />
クラッシュダンプの保存ディレクトリ配下に、切替え発生時刻以降のクラッシュダンプが<br />
存在するか否かを確認してください。切替え発生時刻以降のクラッシュダンプが存在する<br />
場合、クラッシュダンプを収集してください。切替え発生時刻以降のクラッシュダンプが<br />
存在しない場合、可能な限り手動でクラッシュダンプを採取してください。<br />
2. 手動によるクラッシュダンプの採取方法<br />
以下のいずれかの方法でクラッシュダンプを採取し、クラッシュダンプの保存ディレクト<br />
リ配下にあるクラッシュダンプを収集してください。<br />
― 本体装置の NMI ボタンを押下する<br />
― コンソールで++キーを押下する<br />
クラッシュダンプの保存ディレクトリ<br />
クラッシュダンプは異常が発生したノード(LKCD、Diskdumpの場合)、あるいは Netdump サ<br />
ーバ上 (Netdump の場合) にファイルとして保存されます。<br />
保存先ディレクトリは/var/crash です。<br />
仮想マシン機能を使用している場合は、"PRIMEQUEST 仮想マシン機能 ユーザーズマニュ<br />
アル"を参照してください。<br />
7.2.3 PSA 関連情報 (PRIMEQUEST)<br />
トラブル発生時には、<strong>PRIMECLUSTER</strong> の障害調査情報に加え、PSA 関連情報を採取してください。<br />
以下の手順で getopsa を実行してください。<br />
/opt/FJSVpsa/sh/getopsa <br />
例:<br />
/opt/FJSVpsa/sh/getopsa /tmp/node1_getopsa<br />
193
第7章 トラブル調査情報の採取方法<br />
194<br />
7.2.4 MMB 関連情報 (PRIMEQUEST)<br />
以下の現象が発生した場合、<strong>PRIMECLUSTER</strong> の障害調査情報に加え、MMB のシステムイベントロ<br />
グを採取してください。<br />
● ノードが突然強制停止した<br />
● ノードを強制停止したがフェイルオーバが発生しない<br />
◆採取方法<br />
システムイベントログは MMB の Web-UI 画面より採取します。<br />
詳細については "PRIMEQUEST 480/440 リファレンスマニュアル: GUI/コマンド" を参照してく<br />
ださい。
第8章 CF に関するトラブル情報収集<br />
本章では、CF に関する問題を解決するための手順を説明します。<br />
問題が <strong>PRIMECLUSTER</strong> 製品の他のコンポーネントにある場合は該当するマニュアルを参照してくだ<br />
さい。<br />
なお、本章で説明する内容はクラスタのインストールと確認が完了していることが前提となってい<br />
ます。<br />
トラブルシューティングを行うためには、まず、問題の原因を特定するための情報を収集します。<br />
情報の収集方法を以下に示します。<br />
● Cluster Admin GUI の CF ログビューア機能を使用する<br />
● cftool コマンドを使用する<br />
● SF をデバッグモードにする<br />
195
第8章 CF に関するトラブル情報収集<br />
8.1 Cluster Admin GUI の CF ログビューア機能を<br />
使用する<br />
196<br />
メッセージの出力先は、使用するOSによって異なります。<br />
― Solaris の場合:/var/adm/messages<br />
― Linux の場合: /var/log/messages<br />
本節では、特に断りのない限り Solaris のメッセージファイル名を記載しています。<br />
Cluster Admin GUI の CF ログビューア機能を使用すると、以下の情報を検索できます。<br />
● コンソールに表示されたメッセージ<br />
● /var/adm/messages ファイル内のメッセージ<br />
/var/adm/messages のメッセージは、複数ファイルの参照が必要になる場合もあります。複数フ<br />
ァイルが存在する場合、ファイル名が以下のように表示されます。<br />
/var/adm/messages.N<br />
8.1.1 CF ログビューアの起動方法<br />
CF ログビューアを起動する手順は以下のとおりです。<br />
1) Cluster Admin を起動する<br />
2) CF タブをクリックする<br />
3) CF メインウィンドウの [ツール] メニューから [syslog メッセージの表示] を選択する<br />
これによってログメッセージが表示されます。<br />
ログは日付/時刻フィルタを使用して検索したり、重要度レベルに基づいてメッセージをスキャン<br />
することができます。<br />
CF ログビューアについては、"6.1.2 CF メインウィンドウ" を参照してください。<br />
8.1.2 /var/adm/messages ファイルの内容<br />
CF に関するエラーログメッセージは /var/adm/messages ファイルに記録されます。また、一部の<br />
メッセージはコンソールにも表示されます。<br />
その他のデバイスドライバおよびシステム<strong>ソフトウェア</strong>のエラーはコンソールのみに出力されま<br />
す。<br />
システムのエラーを正確に把握するためには、コンソールとエラーログの両方のメッセージを参照<br />
してください。<br />
/var/adm/messages ファイルの CF エラーログメッセージは、"<strong>PRIMECLUSTER</strong> 活用ガイド" の "5.1 CFメッセージ" に記載されています。メッセージ一覧にはエラーの原因が記述<br />
されています。この情報をもとに、エラーの原因を調査してください。
8.1 Cluster Admin GUI の CF ログビューア機能を使用する<br />
/var/adm/messages ファイルに記録される CF エラーメッセージの例を以下に示します。<br />
なお、この表示例は Solaris の場合の表示内容です。Linux の場合は、"unix" の箇所に "Kernel"<br />
と表示されるなどの細かな違いがあります。<br />
上記のメッセージのうち、最初の 80 バイトは LOG3 形式メッセージのプリフィックスです。<br />
このプリフィックスには日時、ノード名、LOG3 形式固有情報が記載されています。重要な情報は<br />
日時とノード名です。<br />
また、以降に表示される内容は、以下の意味を持っています。<br />
cf:ens :CF(Cluster Foundation) のイベント通知サービスからのメッセージである。<br />
Icf Error :エラーの意味を表します。例えばこのエラーは、ハートビートの喪失やルートダウ<br />
ンを示します。<br />
ここで表示される情報の意味は、"<strong>PRIMECLUSTER</strong> 活用ガイド" の "5.1 CF メッ<br />
セージ" に記述されています。この例では、クラスタインタコネクトを詳しく調べる必要があると<br />
いうことがわかります。<br />
8.1.3 ログファイルの例<br />
次の例は /var/adm/messages ファイルのより大きな部分を示したものです。<br />
fuji2# tail /var/adm/messages<br />
Nov 9 08:51:45 fuji2 unix:SUNW,pci-gem1:Link Down – cable problem?<br />
Nov 9 08:51:45 fuji2 unix:SUNW,pci-gem0:Link Down – cable problem?<br />
Nov 9 08:51:45 fuji2 unix:LOG3.0973788705 1080024 1008 4 0 1.0 cf:ens CF:Icf Error: (service<br />
err_type route_src route_dst). (0 0 0 0 0 0 0 0 2 0 0 0 5 0 0 0 5)<br />
Nov 9 08:51:46 fuji2 unix:SUNW,pci-gem0:Link Down – cable problem?<br />
Nov 9 08:51:48 fuji2 last message repeated 1 time<br />
Nov 9 08:51:48 fuji2 unix:LOG3.0973788708 1080024 1008 4 0 1.0 cf:ens CF:Icf Error: (service err_type<br />
route_src route_dst). (0 0 0 0 0 0 0 0 2 0 0 0 4 0 0 0 4)<br />
Nov 9 08:51:50 fuji2 unix:SUNW,pci-gem0:Link Down – cable Nov 9 08:51:52 fuji2 last message repeated<br />
1 time<br />
Nov 9 08:51:53 fuji2 unix:LOG3.0973788713 1080024 1008 4 0 1.0 cf:ens CF:Icf Error: (service<br />
err_type route_src route_dst). (0 0 0 0 0 0 0 0 2 0 0 0 4 0 0 0 4)<br />
Nov 9 08:51:53 fuji2 unix:LOG3.0973788713 1080024 1015 5 0 1.0 cf:ens CF:Node fuji2 Left Cluster<br />
POKE. (0 0 2)<br />
Nov 9 08:51:53 fuji2 unix:Current Nodee Status = 0<br />
この内容はイーサネットコントローラのエラーメッセージを表しています。また、内容より、ケー<br />
197
第8章 CF に関するトラブル情報収集<br />
198<br />
ブルに問題があるためにリンクが停止していることがわかります。<br />
これにより、インタコネクトに使用しているイーサネットに問題があることがわかります。<br />
この場合は、さらにケーブルとハブの電源がオンになっていて、確実に接続されているかどうか<br />
を確認することで、物理的な問題なのか<strong>ソフトウェア</strong>上の問題なのかを判断できます。
8.2 cftool コマンドを使用する<br />
cftool コマンドを使用すると、CF の状態および構成情報を確認できます。<br />
cftool コマンドの機能を以下に示します。<br />
コマンドの指定 意味<br />
cftool –l ローカルノード状態の確認<br />
cftool -d デバイス構成の確認<br />
cftool -n クラスタノード状態の確認<br />
cftool -r ルート状態の確認<br />
8.2.1 cftool –l の例(ローカルノード状態の確認)<br />
cftool –l コマンドを実行した場合の例について説明します。<br />
8.2 cftool コマンドを使用する<br />
正常な状態を表す場合<br />
以下の例は、ローカルノードがノード番号 2 でクラスタに参入し、現在 UP 状態であることを示<br />
しています。<br />
fuji2# cftool –l<br />
Node Number State Os Cpu<br />
fuji2 2 UP Solaris Sparc<br />
上記の表示内容は、Solaris の場合の例です。Linux の場合は、Os に Linux と表示されます。<br />
正常な状態以外を表す場合<br />
以下の例は、CF ドライバがロード済みで、ノードがクラスタへの参入を試行中であることを示し<br />
ています。<br />
fuji2# cftool –l<br />
Node Number State Os<br />
fuji2 -- COMINGUP --<br />
上記の状態が数分間続いた場合は、問題が発生しています。<br />
/var/adm/messages ファイルを確認してください。<br />
この場合の /var/adm/messages ファイルの内容は以下のとおりです。<br />
fuji2# tail /var/adm/messages<br />
May 30 17:36:39 fuji2 unix:pseudo-device:fcp0<br />
May 30 17:36:39 fuji2 unix:fcp0 is /pseudo/fcp@0<br />
May 30 17:36:53 fuji2 unix:LOG3.0991269413 1080024 1007 5<br />
0 1.0 cf:eventlog CF:(TRACE): JoinServer:<br />
Startup.<br />
May 30 17:36:53 fuji2 unix:LOG3.0991269413 1080024 1009 5<br />
0 1.0 cf:eventlog CF:Giving UP Mastering<br />
(Cluster already Running).<br />
May 30 17:36:53 fuji2 unix:LOG3.0991269413 1080024 1006 4<br />
0 1.0 cf:eventlog CF:fuji4:busy: local node not<br />
DOWN: retrying.<br />
上記の内容は、ノードが他のノード (fuji4) 上で LEFTCLUSTER 状態になっていることを示してい<br />
ます。この状態を解決する方法については、"<strong>PRIMECLUSTER</strong> Cluster Foundation 導入運用手引書"<br />
の LEFTCLUSTER 状態の説明およびこの状態の解決方法を参照してください。<br />
199
第8章 CF に関するトラブル情報収集<br />
200<br />
8.2.2 cftool –d の例(デバイス構成の確認)<br />
cftool –d コマンドを実行した場合の例について説明します。<br />
次の cftool のオプションを実行すると、デバイスの状態が表示されます。<br />
fuji2# cftool –d<br />
Number Device Type Speed Mtu State Configured Address<br />
1 /dev/hme0 4 100 1432 UP YES 00.80.17.28.21.a6<br />
2 /dev/hme3 4 100 1432 UP YES 08.00.20.ae.33.ef<br />
3 /dev/hme4 4 100 1432 UP YES 08.00.20.b7.75.8f<br />
4 /dev/ge0 4 1000 1432 UP YES 08.00.20.b2.1b.a2<br />
5 /dev/ge1 4 1000 1432 UP YES 08.00.20.b2.1b.b5<br />
この例では、Configured 欄に YES の行があることから、クラスタにインタコネクトが使用されて<br />
いることがわかります。これで使用中のデバイス名およびデバイス番号がわかり、トラブルシュー<br />
ティングをさらに進めることができます。<br />
8.2.3 cftool –n の例(クラスタノード状態の確認)<br />
cftool –n コマンドを実行した場合の例について説明します。<br />
cftool -n コマンドを実行すると、クラスタのすべてのノードの状態が表示されます。このコマン<br />
ドを実行するには、ノードがクラスタのメンバであり、cftool -l の実行結果が UP であることが<br />
必要です。<br />
fuji2# cftool –n<br />
Node Number State Os Cpu<br />
fuji2 1 UP Solaris Sparc<br />
fuji3 2 UP Solaris Sparc<br />
この例では、クラスタが UP 状態の 2 つのノード、fuji2 と fuji3 で構成されていることがわか<br />
ります。ノードがクラスタに参入していない場合、コマンドは参入が成功するまで待機します。<br />
8.2.4 cftool –r の例(ルート状態の確認)<br />
cftool –r コマンドを実行した場合の例について説明します。<br />
cftool -r コマンドを実行すると、ルートとルートの現在の状態が表示されます。<br />
fuji2> cftool –r<br />
Node Number Srcdev Dstdev Type State Destaddr<br />
fuji2 1 1 4 4 UP 08.00.20.b2.1b.cc<br />
fuji2 1 1 5 4 UP 08.00.20.b2.1b.94<br />
fuji3 2 2 4 4 UP 08.00.20.b2.1b.a2<br />
fuji3 2 2 5 4 UP 08.00.20.b2.1b.b5<br />
この例では、すべてのルートが UP 状態になっています。ルートが DOWN 状態の場合、上記のエラ<br />
ーログに該当するデバイスに関連するエラーメッセージが出力されるはずです。また、最低でもル<br />
ートが停止していることを通知する CF エラーがエラーログに出力されます。<br />
デバイスドライバから関連エラーが出力されない場合の診断手順を以下に示します。<br />
ノードの最後のルートは DOWN 状態にはならずにUP 状態のままで、<strong>ソフトウェア</strong>がノードへのア<br />
クセスの試行を続けることができるようになっています。ノードがクラスタから離脱した場合また
8.2 cftool コマンドを使用する<br />
は停止した場合、ルートテーブルにノードのエントリは残り、1 つのルートが UP のままになりま<br />
す。ノード状態を表示するコマンドは cftool -n です。以下にコマンドの実行例を示します。<br />
fuji2> cftool –r<br />
Node Number Srcdev Dstdev Type State Destaddr<br />
fuji2 2 3 2 4 UP 08.00.20.bd.5e.a1<br />
fuji3 1 3 3 4 UP 00.03.47.bd.60.e4<br />
fuji2>cftool –n<br />
Node Number State Os Cpu<br />
fuji2 2 UP Solaris Sparc<br />
fuji3 1 LEFTCLUSTER Solaris Sparc<br />
注)Solaris の場合の表示例です、Linux の場合、"Os" には "Linux" が表示されます。<br />
201
第8章 CF に関するトラブル情報収集<br />
8.3 SF をデバッグモードにする<br />
202<br />
SF には、デバッグモード機能があります。<br />
SF の調査を行うために、以下のコマンドでデバッガをオンにします。<br />
# sdtool -d on<br />
この操作により、下記の rcsd ログにデバッグ情報が出力されます。<br />
/var/opt/SMAWsf/log/rcsd.log<br />
rcsd ログを参照することで問題の原因を特定するための追加情報を参照できます。<br />
デバッガをオフにするには、sdtool -d off コマンドを使用します。<br />
なお、rcsd ログファイルにはシャットダウンエージェントからのログ情報は記録されません。<br />
個々のシャットダウンエージェントからのログ情報については、SA 固有のログファイルを参照<br />
してください。
第9章 RMS に関するトラブル情報収集<br />
本章では、RMS に関するトラブルが発生した場合の、原因の調査および対処方法を説明します。<br />
原因の調査には、Cluster Admin グラフィカルユーザインタフェース (GUI) またはコマンドライ<br />
ンインタフェース (CLI) 上に表示される内容や、各種のログファイルを使用します。<br />
203
第9章 RMS に関するトラブル情報収集<br />
9.1 概要<br />
204<br />
RMS に関するトラブルシューティングの概要を説明します。<br />
Cluster Admin による調査<br />
RMS に関するトラブルは、まず、Cluster Admin に表示される内容により検出することができます。<br />
RMS のトラブルに関する情報は、Cluster Admin の以下のいずれかの画面で確認できます。<br />
● クラスタテーブル<br />
● RMS ツリー<br />
● グラフ<br />
クラスタテーブルにはトラブルの要約を示す情報が入っています。よって、エラーを解決するには、<br />
まずクラスタテーブルの内容を調査します。<br />
次に、詳細な情報を、RMS ツリーまたはグラフを参照することで調査します。<br />
各種ログファイルの調査<br />
RMS に関するログファイルには、以下の種類があります。<br />
● switchlog<br />
● アプリケーションログ<br />
これらのログは、Cluster Admin のログビューア機能または、vi などのエディタを使用して調査<br />
します。<br />
ログビューアでは、以下の要素によるログの検索を行えます。<br />
● 日付<br />
● キーワード<br />
● 重要度コード(error、warning、notice、info)<br />
● 0 以外の終了コード<br />
これらの検索機能を組み合わせて使用することにより、緊急性や状態をもとにエラーを検索できま<br />
す。<br />
定期的にログビューアを使用し、重要度レベルに基づいてログファイルを調べることを推奨します。<br />
これにより、重大な問題が発生するのを回避できます。問題の原因を診断できない場合は、クラス<br />
タ内の複数のノードからログビューアを調べてください。<br />
エラーの解決手順<br />
以下の手順に従ってエラーを解決します。<br />
1. Cluster Admin GUI を使用して GUI 上のメッセージや状態を確認する<br />
2. 必要な場合は、ログファイルを表示する<br />
3. ログレベルを変更して詳細情報を取得する<br />
4. GUI でエラーを解決できない場合は、コマンドラインインタフェースを使用する<br />
(標準の UNIX コマンドを使用する)<br />
5. 問題が続く場合は、RMS 以外の問題かどうかを確認し、適切なマニュアルを参照する<br />
6. オペレーティングシステム、ハードウェア、ネットワークエラーのようなシステム関連の<br />
問題を調査する<br />
上記の対処を行っても問題を解決できない場合は、当社技術員 (SE) に連絡してください。
9.2 デバッグメッセージとエラーメッセージ<br />
9.2 デバッグメッセージとエラーメッセージ<br />
RMS のコンポーネント (BM (ベースモニタ) やディテクタなど) が動作している状態では、RMS に<br />
関するデバッグメッセージおよびエラーメッセージがログファイルに書き込まれます。<br />
ログファイルは複数の種類があり、以下のディレクトリに格納されます。<br />
/var/opt/SMAWRrms/log<br />
ログファイルの種類については、"9.3 ログファイル" を参照してください。<br />
ディレクトリは、hvenv.local ファイルで設定されている RELIANT_LOG_PATH 環境変数で、変更で<br />
きます。<br />
ログファイルへの書き込みは、RMS を起動することで開始されます。<br />
RMS を起動させると /var/opt/SMAWRrms/log/ 配下の各種ログファイルは世代管理されます。ログ<br />
情報は、/va/opt/SMAWRrms/log/ 西暦-年-月_時間 のディレクトリに、新規 log ファイルとして<br />
記録されます。<br />
デフォルト設定では、BM がすべてのエラーメッセージをログファイルまたは標準エラー出力に書<br />
き込むようになっています。デフォルトオプションでデバッグ出力が詳細に制御されているため、<br />
通常はデフォルト設定を変更する必要はありません。<br />
必要な場合は、BM で任意のノードの状態とメッセージをすべて記録することができます。<br />
このデータは、当社のカスタマサービスセンタで、内容の調査を行うために利用されます。<br />
RMS 構成に固有のログファイルもログディレクトリに格納されます。管理者は必要に応じてこれら<br />
のファイルを調べる必要があります。これらのログファイルの名前は、RMS Wizard Tools で設定<br />
した RMS 構成によって異なります。詳細については、RMS Wizard Tools のマニュアルを参照して<br />
ください。<br />
以下のログファイルも、問題の解決に使用できます。<br />
● hvdet_nodelog<br />
● bmlog<br />
205
第9章 RMS に関するトラブル情報収集<br />
9.3 ログファイル<br />
206<br />
RMS に関するログファイルについて説明します。<br />
クラスタシステムの管理者は、これらのログファイルのうち、通常、switchlog ファイルの内容を<br />
ログビューアを使用して調査します。このファイルには、着信切替要求やノードで発生する障害な<br />
ど、RMS の重要なアクションがすべて記録されます。<br />
/var/opt/SMAWRrms/log に格納されている RMS ログファイルを表 9.1 に示します。<br />
表9.1 /var/opt/SMAWRrms/log に格納されている RMS ログファイル<br />
モジュール ファイル名 内容<br />
すべて (BM、汎用ディ switchlog 監視資源の切替えや異常に関する操作イベントが記録<br />
テクタ、ノードディテ<br />
されます。通常、システム管理者は、ログビューアを<br />
クタ)<br />
使用して、このファイルの内容を調査します。<br />
汎用ディテクタ programlog ディテクタが受け取ったすべてのメッセージとジョブ<br />
指示<br />
・対象資源の状態変化の情報とすべてのエラーメッセ<br />
ージ<br />
program は RELIANT_PATH の下にあるディテクタの名<br />
前を示します。<br />
BM bmlog 実行時に BM が受信したすべてのメッセージが記録さ<br />
れます。<br />
ログレベルフラグをオンにすると、大量のディスクス<br />
ペースを消費するため、このファイルの使用は管理者<br />
に限られています。デフォルトで、メッセージは bmlog<br />
に記録されません。<br />
通常、一般的な RMS エラーログ情報とメッセージログ<br />
情報は、メッセージ報告から詳細な情報まで、レベル<br />
によって分類されます。BM の起動時に指定するエラー<br />
ログレベルによって、このファイルの内容が決まりま<br />
す。詳細については、"9.6 ログレベルの指定" を参照<br />
してください。<br />
BM tracelog オブジェクト間で送信されるすべてのメッセージ、お<br />
よびすべての変更指示が記録されます。デフォルトで<br />
は作成されません。<br />
BM abortstartlog 起動中に、以下のメッセージが出ると、このファイル<br />
が作成されます。<br />
FATAL ERROR: RMS has failed to start!<br />
このファイルは、当社技術員 (SE) が RMS 起動失敗の<br />
原因を判別するために作成されます。<br />
ノードディテクタ hvdet_nodelog ディテクタからのメッセージが記録されます。<br />
(hvdet_node) hvdet_node
9.4 ログビューアの使用方法<br />
ログビューアの使用方法について説明します。<br />
以下の手順でログビューアを起動して RMS switchlog ファイルを表示します。<br />
1. RMS ツリーで SysNode を右クリックする<br />
2. [switchlog の表示] を選択する<br />
ログビューアの起動方法を図 9.1 に示します。<br />
図9.1 ログビューアの起動<br />
ログビューアでは、以下のいずれかの情報をもとにログを検索できます。<br />
● リソース名<br />
● 日付/ 時刻範囲<br />
● キーワードフィルタ<br />
● 重要度レベル<br />
● 終了コード<br />
9.4 ログビューアの使用方法<br />
また、表示されたテキストを右クリックして、ログ表示内で検索することもできます。[検索] ポ<br />
ップアップ画面が表示されます (図 9.2)。<br />
207
第9章 RMS に関するトラブル情報収集<br />
208<br />
図9.2 [検索] ポップアップ画面<br />
ログの切り離し<br />
ログの内容は、常に更新されている状態です。この状態では、ログの検索を行う際に支障があるた<br />
め、いったんログ情報を検索のために確定させます。<br />
これを "ログの切り離し" といいます。ログの切り離しは、ボタンをクリックするこ<br />
とで行います(図9.3)。<br />
図9.3 切り離したログ
9.4.1 リソース名に基づく検索<br />
9.4 ログビューアの使用方法<br />
リソース名に基づく検索は、アプリケーションログに対してのみ行われます。リソース名に基づい<br />
てログファイルを検索する手順は以下のとおりです。<br />
1. プルダウンリストからリソース名を選択する<br />
2. ボタンをクリックする<br />
リソース名に基づく検索ウィンドウを図 9.4 に示します。<br />
図9.4 リソース名に基づく検索<br />
209
第9章 RMS に関するトラブル情報収集<br />
210<br />
9.4.2 時刻に基づく検索<br />
日付/ 時刻範囲に基づいてログファイルを検索する手順は以下のとおりです。<br />
1. 検索範囲の開始時刻と終了時刻を指定する<br />
2. [使用可能] チェックボックス をオンにする<br />
3. ボタンをクリックする<br />
時刻フィルタに基づく検索の結果を図 9.5 に示します。<br />
図9.5 時刻に基づく検索
9.4.3 キーワードに基づく検索<br />
キーワードに基づいてログファイルを検索する手順は以下のとおりです。<br />
1. キーワードを入力する<br />
2. ボタンをクリックする<br />
キーワードに基づくログファイルの検索例を図 9.6 に示します。<br />
図9.6 キーワードに基づく検索の結果<br />
9.4 ログビューアの使用方法<br />
211
第9章 RMS に関するトラブル情報収集<br />
212<br />
9.4.4 重要度レベルに基づく検索<br />
重要度レベルに基づいてログファイルを検索する手順を以下に示します。<br />
1. [重要度] のプルダウンメニューを使用する。<br />
2. 表 9.2 で説明する重要度レベルを 1 つ選択する。<br />
3. ボタンをクリックする。<br />
表9.2 重要度レベル<br />
重要度 レベル説明<br />
Emergency システム使用不能<br />
Alert 直ちに対処が必要<br />
Critical 重大な状態<br />
Error エラー状態<br />
Warning 注意状態<br />
Notice 普通だが通告を要する状態<br />
Info 通知用<br />
Debug デバッグメッセージ<br />
重要度レベルに基づくログファイルの検索例を図 9.7 に示します。<br />
図 9.7 重要度レベルに基づく検索の結果
9.5 hvdump コマンドの使用<br />
9.5 hvdump コマンドの使用<br />
hvdump コマンドは、ローカルノードの RMS の調査情報を取得する場合に使用します。<br />
hvdump は、ローカルノードで動作している BM(ベースモニタ) の状態に関係なく、調査に必要な<br />
情報を収集します。収集される情報については、"<strong>PRIMECLUSTER</strong> 活用ガイド " の "hvdump(1M)" を参照してください。<br />
なお、hvdump コマンドは、fjsnap コマンドを -a または -h オプションを指定して実行した場合<br />
にも実行されます。fjsnap コマンドの実行方法については、"7.1.1 fjsnap コマンドの実行" を<br />
参照してください。<br />
213
第9章 RMS に関するトラブル情報収集<br />
9.6 ログレベルの指定<br />
214<br />
ログレベルについて説明します。<br />
ログレベルは、情報を採取する範囲を示すレベルです。ログレベルを必要に応じて設定すること<br />
で、より詳細な情報を採取することが可能となります。<br />
ログレベルは、hvcm コマンドまたは hvutil コマンドの -l level オプションで指定します。<br />
ログレベルを変更するには、RMS を停止し、表 9.3 のログレベルを指定して再起動するか、RMS の<br />
起動後に、hvutil コマンドを使用してログの書き込みを設定します。<br />
-l オプションでは、数字のリストまたは範囲でログレベルを指定します。リスト内では、レベル<br />
をカンマまたはスペースで区切ります。スペースでレベルを区切る場合は、引数全体を波括弧で括<br />
ります。ログレベルを範囲で指定するときは、n1-n2 のように指定します。こうすると、n1 から<br />
n2 までのログレベルがすべて含まれます。-n2 という範囲指定は 1-n2 と同じです。n1 という範<br />
囲指定には、n1 以上のログレベルがすべて含まれます。n1 の値は1 以上であることが必要です。<br />
また、RMS ウィザードを使用してログの書き込みを開始することもできます。<br />
すべてのログレベルは BM の内部機能を参照し、当社技術員だけが使用します。また、複数のログ<br />
レベルを有効にして RMS を実行すると、システムのパフォーマンスに影響します。ログレベル0 を<br />
指定すると、すべてのログレベルが有効になります。有効なログレベル表 9.3 に示します。<br />
表 9.3 ログレベル<br />
ログレベル 意味<br />
0 すべてのログレベルをオンにします<br />
2 ディテクタ履歴をオンにします<br />
4 mskx 履歴 (BM のスタック履歴) をオンにします<br />
5 エラーメッセージまたは注意メッセージ<br />
6 ハートビートと通信デーモンのレベル<br />
7 BM レベル<br />
8 ディテクタエラー<br />
9 管理コマンドメッセージ<br />
10 基本タイプレベル<br />
11 動的再構成コントラクトレベル<br />
13 トークンレベル<br />
14 ディテクタメッセージ<br />
15 ローカルキューレベル<br />
16 ローカルキューレベル<br />
17 スクリプトレベル<br />
18 userApplication コントラクトレベル<br />
19 一時的なデバッグ履歴<br />
20 SysNode 履歴<br />
21 メッセージレベル<br />
22 bm トレースログ
9.7 ログファイルの内容<br />
ログファイルの内容について説明します。<br />
9.7 ログファイルの内容<br />
RMS を構成する各プロセスは、ユーザ、トレース、エラーという 3 つのタイプのログメッセージ<br />
を生成します。これらのログメッセージは以下のファイルに格納されます。<br />
ファイル名 内容<br />
switchlog<br />
ユーザに関係する RMS イベント ( 切替要求や障害の指摘など) が記録<br />
されます。<br />
log program のトレースメッセージまたはエラーメッセージが記録されま<br />
す。<br />
例えば、bmlog ファイルには bm (ベースモニタ) からのメッセージが記<br />
録されます。<br />
トレースメッセージのプレフィックスは次のとおりです。<br />
time:file:line:.<br />
エラーメッセージのプレフィックスは次のとおりです。<br />
time:file:line:ERROR<br />
switchlog ファイル<br />
switchlog ファイルには、以下に示す 5 つのタイプのメッセージが格納されます。<br />
● 情報メッセージ ( 通知)<br />
● 警告メッセージ<br />
● エラーメッセージ<br />
● 致命的エラーメッセージ<br />
● RMS が実行したスクリプトの出力<br />
最初の 4 つのカテゴリに属するメッセージは、次の形式で記録されます。<br />
timestamp:(error code, error number): message type:message:delimiter<br />
timestamp (時刻) は、メッセージの各フィールド間をコロンスペース (:) で区切って次のよう<br />
に記録されます。<br />
yyyy-mm-dd hh:mm:ss.xxx<br />
messagetype(メッセージのタイプ)は以下のいずれかになります。<br />
● NOTICE<br />
● WARNING<br />
● ERROR<br />
● FATAL ERROR<br />
message(メッセージ)には RMS コンポーネントが生成するテキストが記録されます。このテキ<br />
ストには 1 つ以上の改行が含まれる場合があります。区切り記号はコロンと 4 つの等号<br />
(:====) です。<br />
RMS が実行したスクリプトの出力については、特定の形式がありません。この部分には、RMS 構<br />
成定義ファイル内で定義されたすべてのスクリプトからリダイレクトされた標準出力および標準<br />
エラーが記録されます。<br />
switchlog ファイルに記録されるログの例を以下に示します。<br />
2001-05-07 11:01:54.568: WARNING: InitScript does not exist.: ====<br />
フェイルオーバが発生した場合、switchlog に以下のメッセージが表示されます。<br />
215
第9章 RMS に関するトラブル情報収集<br />
216<br />
RMS:(SWT, 39): NOTICE: Processing normal switch request for application<br />
to node .
9.8 システムログ<br />
ここでは、システムログについて説明します。<br />
9.8 システムログ<br />
RMS の BM(ベースモニタ) はメッセージを switchlog ファイルに書込み、同じメッセージをシス<br />
テムログにも書込みます。デフォルトでは、すべての RMS メッセージは switchlog ファイルとシ<br />
ステムログの両方に書込まれます。<br />
環境変数 HV_SYSLOG_USE を変更することにより、メッセージをシステムログに表示するか表示し<br />
ないかを選択できます。メッセージがシステムログに書込まれないようにするには、hvenv.local<br />
ファイルで、HV_SYSLOG_USE=0 と設定します。変更を有効にするには、RMS を停止して再起動する<br />
必要があります。<br />
デフォルトでは HV_SYSLOG_USE = 1 に設定されています。この設定は、システムログと<br />
switchlog に、RMS の ERROR メッセージ、FATAL ERROR メッセージ、WARNING メッセージ、<br />
および NOTICE メッセージをすべて送信します。<br />
Log3 RMS メッセージの場合、コンポーネント番号は 1080023 です。<br />
hvlogcontrol<br />
hvlogcontrol は、ログファイルが大きくなりすぎるのを防止するユーティリティです。<br />
hvlogcontrol で制限するログファイルの量は、以下のいずれかの環境変数で設定できます。<br />
● HV_LOG_ACTION<br />
● HV_LOG_ACTION_THRESHOLD<br />
● HV_LOG_WARN_THRESHOLD<br />
● HV_SYSLOG_USE<br />
hvlogcontrol は crontab ファイルから自動的に呼び出されるようになっているため、マニュアル<br />
には記載されていません。<br />
217
第9章 RMS に関するトラブル情報収集<br />
9.9 RMS ウィザードログ<br />
218<br />
RMS ウィザードログファイルについて説明します。<br />
RMS ウィザードログは、環境変数 RELIANT_LOG_PATH で設定された値に従って、RMS 用に定義され<br />
ているログディレクトリのファイルにメッセージを記録します。RMS ウィザードのログ機能は、次<br />
に示す 2 つのカテゴリに分類できます。<br />
● メッセージリソースディテクタ<br />
● 他のすべてのメッセージ<br />
ディテクタのログ機能については、"9.9.1 RMS ウィザードディテクタのログ機能" で詳しく説明<br />
します。<br />
ほとんどのメッセージを switchlog ファイルに記録する RMS と違って、RMS ウィザードはすべて<br />
のデータをアプリケーションレベルで記録します。特定の設定済みアプリケーションに関連するす<br />
べてのメッセージは、RELIANT_LOG_PATH/.log のファイルに記録されます。ア<br />
プリケーションに対する Offline 処理または Online 処理が開始されると、ファイルが作成され<br />
ます。<br />
RMS ウィザードプロセスが実行されるたびに、次に示す 2 つのタイプのログメッセージが生成さ<br />
れます。<br />
● ユーザ<br />
● デバッグ<br />
これらのログメッセージは以下のファイルに格納されます。<br />
switchlog<br />
ユーザに関係する RMS イベント ( 切替要求や障害の指摘など) が記録されます。<br />
RMS ウィザードはリソースの状態遷移に関する情報を switchlog ファイルに記録します。<br />
.log<br />
アプリケーション固有のログファイルには、そのアプリケーションに関連するすべてのメッセージ<br />
が記録されます。アプリケーションが実行するすべてのスクリプトの出力はログファイルに書き込<br />
まれます。<br />
hvdet_xxx.gxxlog<br />
ディテクタが監視するリソース関連の情報 (すべての状態変化など) がすべて記録されるディテ<br />
クタログファイルです。<br />
ほとんどの RMS ウィザードメッセージは、次の形式をとります。<br />
resource_ name:state:timestamp:message_type:Message:delimiter<br />
メッセージの各フィールドは、コロンスペース (:) で区切ります。<br />
resource_name フィールドは、スクリプトを実行しているリソースノードの名前です。メッセージ<br />
と関連するリソースがない場合、このフィールドは空です。<br />
state フィールドは、実行しているアクションのタイプを示します。このフィールドの値は、環境<br />
変数 HV_SCRIPT_TYPE で設定されます。通常、このフィールドの値は online または offline で<br />
す。<br />
PreCheck スクリプトを実行しているときは、このフィールドの値が PreCheck に設定されます。<br />
DEBUG タイプのメッセージでは、このフィールドが空になります。<br />
timestamp フィールドには、メッセージが生成された日付/ 時刻が入ります。このフィールドの形<br />
式は yyyy:mm:dd hh:mm:ss で、yyyy は 4 桁の西暦、mm は月、dd は日、hh は [0-23] の範囲の<br />
時間、mm は分、ss は秒を表します。<br />
メッセージのタイプは以下のいずれかに定義されます。<br />
● DEBUG<br />
● NOTICE<br />
● WARNING<br />
● ERROR
● FATAL ERROR<br />
9.9 RMS ウィザードログ<br />
メッセージは RMS ウィザード製品が生成するテキストです。このテキストには 1 つ以上の改行が<br />
含まれる場合があります。区切り記号は 4 つの等号 (:====) です。<br />
hvenv.local ファイルで環境変数 HV_SCRIPTS_DEBUG を1 に設定して、実行されるスクリプトのデ<br />
バッグメッセージを強制的に出力することができます。このエントリは次のようになります。<br />
export HV_SCRIPTS_DEBUG=1<br />
デバッグ出力をオフにするには、HV_SCRIPTS_DEBUG エントリを hvenv.local ファイルから削除す<br />
るか、このエントリをコメント化するか、値を 0 に設定します。<br />
問題をデバッグするときは、switchlog ファイル、アプリケーション固有のログファイル、および<br />
適切なディテクタログファイルをすべて表示して調べる必要があります。<br />
9.9.1 RMS ウィザードディテクタのログ機能<br />
RMS ウィザードディテクタは、switchlog ファイルとディテクタログファイル<br />
hvdet_xxx.gxxlog(hvdet_icmp.g64log など) の両方に情報を記録します。すべてのリソース状態<br />
変化が、switchlog ファイルとディテクタログファイルの両方に記録されます。その他のディテク<br />
タメッセージは switchlog ファイルに記録されません。ディテクタログファイルは、稼動してい<br />
るディテクタのインスタンスごとに作成されます。<br />
予期せぬリソース状態レポートの発生時にログファイルに書き出されるデバッグメッセージを記<br />
録するために、10KB の内部メモリが各ディテクタに割当てられています。バッファは循環バッフ<br />
ァであるため、情報が書き出される前にバッファがいっぱいになると、バッファは最初から再使用<br />
され、バッファに格納されている既存のデータは上書きされて失われます。<br />
ディテクタの内部ログメッセージにはログレベルが関連付けられています。現在のログレベル設定<br />
以下のメッセージだけが内部循環バッファに追加されます。デフォルトでは、デバッグレベルが 1<br />
の内部メッセージだけがバッファに出力されます。値が大きいほど、多くの調査情報が出力されま<br />
すが、ログの内容はディテクタによって変わります。 値の有効範囲は、1 から 9 までです (デフ<br />
ォルト値は 1)。次のようにして、hvw コマンドでこの設定を変更できます。<br />
1. [Configuration-Edit-Global-Settings] メニューを選択します。<br />
2. [DetectorDetails] サブメニューを選択します。<br />
3. [MemoryLogLevel] を選択します。<br />
予期しない Offline 状態または Fault 状態のリソースが発生すると、デバッグメッセージが循環<br />
バッファからディテクタログファイルに出力されます。この情報は、予期しない状態レポートが発<br />
生した原因を判別するのに役立ちます。循環バッファには古いログメッセージが格納されているの<br />
で、循環バッファからの書き出しが行われる前の最終報告項目より古い日付のデバッグステートメ<br />
ントが、ログファイルに書き込まれます。循環バッファを用意して、そのデータをログファイルに<br />
出力する理由は、問題が発生したときに、循環バッファから出力されるデバッグステートメントに<br />
よって、予期せぬリソース状態変化が報告された原因の判別ができるからです。<br />
219
第9章 RMS に関するトラブル情報収集<br />
220<br />
9.9.2 RMS 稼動中のレベル変更<br />
hvw コマンドを使用して、デバッグレポート機能を RMS ウィザードディテクタ内で動的にオンま<br />
たはオフに切替えることができます。<br />
1. [Configuration-Edit-Global-Settings] を選択します。<br />
2. [DetectorDetails] サブメニューを選択します。<br />
3. [DynamicDetectorLogging] メニュー項目を選択します。<br />
デフォルト値は 0 で、このときデバッグはオフです。0 より大きい値に設定すると、デバッグは<br />
オンになります。値が大きいほど、多くの調査情報が出力されます。しかし、ログの内容はディテ<br />
クタによって変わります。 値の有効範囲は、1 から 9 までです (0 はログがオフの場合)。この<br />
設定に対する変更は、次に RMS 構成を配布した時点で有効になります。<br />
コマンドにより、/etc/wizardloglevel ファイルが実際に作成され、該当する<br />
デバッグレベルの数値が入ります。ファイルの値が 0 の場合は、デバッグがオフになります。<br />
または、RELIANT_LOG_PATH/etc/wizardloglevel ファイルを手動で作成します。ファイルが存在し<br />
ている場合は、デフォルトのデバッグレベル 3 が使用されます。ファイルに数値を挿入して、デ<br />
バッグレベルを変更できます。<br />
この方法でデバッグをオンにすると、すべてのディテクタがその影響を受け、追加の調査情報が<br />
出力されます。<br />
デバッグをオンにすると、デバッグに関する情報のための領域が必要になります。<br />
よって、このようにしてデバッグをオンにする方法は、実際に発生した問題をデバッグするときだ<br />
け使用してください。問題を解決できたら、デバッグを再びオフにしてください。
付録A リリース情報<br />
本マニュアルの主な変更内容を説明します。<br />
項番 版数 章・節 内容<br />
1 5版 1.5 SF 設定時のトラブル Q1-5-9を追加しました。<br />
2 5版 1.5 SF 設定時のトラブル Q1-5-10を追加しました。<br />
3 5版 3.2 運用全般に関するトラブ Q3-2-19に4.1A20 パッチ913381-04 適用前ま<br />
ル<br />
たは、4.1A30 パッチ913897-01 適用前の環境<br />
下で発生することを追記しました。<br />
4 5版 3.2 運用全般に関するトラブ<br />
ル<br />
Q3-2-61を追加しました。<br />
5 5版 3.5 電源切断、強制停止に関す<br />
るトラブル<br />
Q3-5-6に原因3・対処3を追加しました。<br />
6 5版 3.6.2 Web-Based Admin View に<br />
関するトラブル<br />
Q3-6-1に原因8・対処8を追加しました。<br />
7 5版 3.6.2 Web-Based Admin View に<br />
関するトラブル<br />
Q3-6-12を追加しました<br />
8 5版 3.6.2 Web-Based Admin View に<br />
関するトラブル<br />
Q3-6-13を追加しました<br />
9 6版 1.4 CF 設定時のトラブル Q1-4-4を追加しました。<br />
10 6版 1.5 SF 設定時のトラブル Q1-5-11を追加しました。<br />
11 6版 1.8 仮想マシン環境での環境<br />
構築時のトラブル<br />
節、Q1-8-1, Q1-8-2を追加しました。<br />
12 6版 2.1 クラスタアプリケーショ<br />
ンの作成<br />
Q2-1-22, Q2-1-23を追加しました。<br />
13 7版 1.5 SF 設定時のトラブル Q1-5-1の対処を修正しました。<br />
14 7版 1.6 CRM設定時のトラブル Q1-6-17を追加しました。<br />
15 7版 2.2 クラスタアプリケーショ<br />
ンの実行<br />
Q2-2-32を追加しました。<br />
16 7版 3.2 運用全般に関するトラブ<br />
ル<br />
Q3-2-23の原因、対処を修正しました。<br />
17 7版 3.2 運用全般に関するトラブ<br />
ル<br />
Q3-2-62を追加しました。<br />
18 7版 3.3 CFに関するトラブル Q3-3-7の対処を修正しました。<br />
19 7版 3.5 電源切断、強制停止に関す<br />
るトラブル<br />
Q3-5-15を追加しました。<br />
20 7版 3.6.2 Web-Based Admin View に<br />
関するトラブル<br />
Q3-6-14,Q3-6-15を追加しました。<br />
21 7版 7.2 Linux におけるトラブル調<br />
査情報の採取方法<br />
fjsnapの説明を追加しました。<br />
22 7版 7.2.2クラッシュダンプ PQ-VM使用時のトラブル調査情報採取方法を追<br />
記しました。<br />
23 8版 全体 FTSへの社名変更に伴う修正をしました。<br />
221
211
索引<br />
/<br />
/etc/dfs/dfstabファイル ...................................4, 110<br />
/etc/fstabファイル .................................... 39, 42, 62<br />
/etc/netmasksファイル .......................................... 6<br />
/etc/nsswitch.conf ................................................ 10<br />
/etc/vfstabファイル ............................ 39, 42, 62, 91<br />
/opt/SMAW/SMAWRrms/etc/hvipalias ファイル 54<br />
/var/adm/messagesファイル................ 90, 103, 196<br />
/var/log/messagesファイル .102, 103, 140, 148, 196<br />
A<br />
ALLEXITCODES 属性 ..................... 41, 58, 63, 87<br />
AutoStartUp 属性......................................... 54, 57<br />
AutoSwitchOver 属性 ....................... 54, 56, 61, 63<br />
B<br />
Break信号 .......................................................... 126<br />
C<br />
CF .................................................................11, 102<br />
CF メインウィンドウ ........................ 104, 105, 174<br />
CF ログビューア ....................................... 175, 196<br />
cfconfig コマンド............................................... 166<br />
cftool コマンド ............................................ 34, 199<br />
Check スクリプト ............................. 47, 53, 60, 63<br />
CIP................................................................. 70, 71<br />
CIP 構成定義ファイル........................................110<br />
clinitreset コマンド........................................... 153<br />
clrsvmajor コマンド.......................................... 153<br />
clsetup コマンド.................................................. 33<br />
Cluster Admin ......9, 28, 32, 97, 104, 105, 137, 166<br />
cluster_setup ................................................... 5, 10<br />
Cmdline リソース41, 43, 47, 53, 58, 60, 63, 70, 87, 93<br />
Configuration-Activate ............................... 40, 167<br />
CRM 設定............................................................ 25<br />
CRM メインウィンドウ ................ 32, 97, 166, 176<br />
D<br />
DVD-ROM ..................................................... 27, 35<br />
F<br />
索引<br />
Faulted .........................................57, 61, 65, 76, 82<br />
FC カード............................................................ 93<br />
fjsnap/pclsnap コマンド ................................... 189<br />
fjsnapコマンド................................................... 187<br />
fsck......................................................................110<br />
Fsystem リソース42, 62, 65, 76, 79, 84, 86, 89, 90, 95, 110<br />
G<br />
GDS ....................................................135, 136, 147<br />
Gds リソース............................................41, 42, 92<br />
GFS.............................................................135, 148<br />
GFS ローカルファイルシステム ......................... 42<br />
GLS.................................................................... 151<br />
GLS 高速切替方式............................................... 57<br />
Gls リソース........................................................ 91<br />
GUI .................................................................... 131<br />
H<br />
Halt 属性............................................................. 78<br />
hostname コマンド ............................................. 92<br />
hvcm コマンド ...................................................111<br />
hvdet_system....................................................... 76<br />
hvdump コマンド.............................................. 213<br />
hvenv.local ファイル ........................................... 55<br />
hvshut コマンド.........................................115, 117<br />
hvswitch -f コマンド ..........................................116<br />
hvwコマンド ........................................................ 46<br />
I<br />
Inconsistency 状態.............................................. 75<br />
Inconsistent......................................................... 59<br />
InitFailed............................................................. 14<br />
Interstage Security Director............................... 71<br />
IO負荷.................................................................. 90<br />
IP アドレス ..............16, 71, 88, 137, 154, 167, 183<br />
IPMI..................................................................... 19<br />
J<br />
Java ..................................................................... 83<br />
223
索引<br />
RCI故障 ............................................................. 126<br />
L<br />
Resource Fault History..................................... 180<br />
RMS ......................................................96, 107, 203<br />
LEFTCLUSTER .................................110, 126, 129<br />
RMS Wizard ...................................................... 167<br />
Linux.......................................................... 162, 166<br />
RMS 起動 ...........................................................117<br />
ListManager ........................................................ 64<br />
RMS 停止 ...................................................115, 116<br />
RMS ログファイル.............................................112<br />
M<br />
RMS ウィザードログ ........................................ 218<br />
RMS メインウィンドウ..................................... 178<br />
MACアドレス引継ぎ............................................ 69 RSB.................................................................80, 82<br />
Maintenanceモード ............................................. 94<br />
MMB .................................................................... 19<br />
MMB関連情報.................................................... 194<br />
S<br />
mplb ............................................................... 30, 31<br />
sar コマンド ........................................................ 94<br />
MSGメインウィンドウ ...................................... 180<br />
Scalable コントローラ ........................................ 85<br />
SCF ダンプ........................................................ 188<br />
N<br />
sdtool コマンド ................................................. 167<br />
SF設定 ................................................................. 13<br />
Netdump.................................................... 164, 165 shareall(1M) .......................................................... 5<br />
NFS サーバ ................................................... 64, 76 snmptrapdデーモン............................................. 19<br />
NIC(ネットワークインタフェースカード)4, 5, 7, 69, 137, 162 Standby ....................................................41, 56, 63<br />
NTP...................................................................... 56 STANDBYCAPABLE 属性 ......................41, 58, 87<br />
NULLDETECTOR .............................................. 94 StandbyTransitions 属性.................................... 56<br />
STOP-A.............................................................. 126<br />
O<br />
switchlog............................................................ 215<br />
syslog ................................................................... 56<br />
OBPモード......................................................... 126 Systemwalker Operation Manager .................... 70<br />
Offline ............................................................ 47, 60<br />
Online ...............................................54, 62, 79, 115<br />
T<br />
Online スクリプト............................................... 63<br />
Online-Offline...................................................... 58 TestFailed.....................................14, 15, 19, 20, 84<br />
OnlinePriority 属性 ............................................ 85<br />
Online-Standby ................................................... 58<br />
Oracle....................................................... 64, 65, 89<br />
U<br />
Oracle RAC.......................................................... 55<br />
UNKNOWN................................................104, 105<br />
OutOfMemoryError .......................................... 137<br />
userApplication ........................................42, 46, 87<br />
userApplication Configuration Wizard42, 46, 47, 88, 136, 137<br />
P<br />
pclsnap............................................................... 166<br />
PersistentFault 属性 .......................................... 76<br />
PSA関連情報...................................................... 193<br />
R<br />
RAID .................................................................. 163<br />
RC2000 .............................................................. 146<br />
RCCU................................................. 126, 127, 128<br />
RCI................................................................. 80, 84<br />
RCI アドレス....................................................... 17<br />
224<br />
W<br />
Web-Based Admin View...9, 28, 131, 132, 137, 172<br />
Wizard for NAS ................................................... 46<br />
X<br />
XSCF.......................................15, 83, 103, 152, 160<br />
あ<br />
アップデート...................................................... 160
い<br />
移動待機構成........................................................ 60<br />
インストール.......................................................... 8<br />
インストールサーバ ....................................... 4, 5, 6<br />
き<br />
キーワード...........................................................211<br />
強制停止 ........ 18, 27, 60, 70, 79, 112, 118, 125, 127<br />
強制停止失敗...................................................... 129<br />
強制電源断............................................................ 82<br />
業務LAN ........................................ 70, 87, 154, 165<br />
共用ディスク.....................43, 46, 65, 79, 89, 92, 93<br />
切替ファイルシステム.......................................... 89<br />
く<br />
クラスタアプリケーションの起動63, 64, 65, 77, 78, 79<br />
クラスタアプリケーションの構成変更................. 41<br />
クラスタアプリケーションの作成........................ 38<br />
クラスタアプリケーションの実行........................ 52<br />
クラスタアプリケーションの自動起動................. 57<br />
クラスタアプリケーションの状態75, 76, 78, 80, 82, 113, 115<br />
クラスタアプリケーションの停止........................ 60<br />
クラスタインタコネクト ...27, 70, 92, 104, 126, 129<br />
クラスタ構成データベース................................... 26<br />
クラスタパーティション ................................ 80, 81<br />
クラスタリソース管理機構................................... 26<br />
クラッシュダンプ............................................... 193<br />
グローバル環境変数 ............................................. 55<br />
こ<br />
故障リソースの一覧 ........................................... 182<br />
コマンド ............................................................. 183<br />
コンソール.................................................... 93, 146<br />
コンフィグレーション.......................................... 40<br />
さ<br />
再起動................................................................... 34<br />
サブシステムハング ............................................. 96<br />
し<br />
シェルスクリプト................................................. 93<br />
時刻 .................................................................... 210<br />
システム資源........................................................ 26<br />
索引<br />
システムダンプ .................................................. 187<br />
システムログ...................................................... 217<br />
自動リソース登録............28, 30, 31, 32, 43, 45, 154<br />
シャットダウンエージェント..........................14, 17<br />
シャットダウン機構 ................................34, 91, 129<br />
重要度レベル...................................................... 212<br />
状態遷移プロシジャ ............................................. 42<br />
初期構成設定........................................................ 32<br />
シングルユーザモード........................................ 163<br />
す<br />
スクリプト43, 47, 53, 60, 61, 63, 70, 87, 94, 215, 218<br />
スケーラブル運用........................................113, 115<br />
せ<br />
セキュリティパッチ適用 .................................... 159<br />
た<br />
タイムアウト値 ...........................17, 18, 70, 91, 115<br />
ダブルフォルト .........................................78, 79, 80<br />
て<br />
ディスク資源........................................................ 26<br />
ディスク増設...................................................... 154<br />
ディスク装置...................................................27, 28<br />
電源 .................................................................... 157<br />
電源切断 ............................................................. 125<br />
と<br />
トラブル調査情報(Solaris) ............................ 186<br />
トラブル調査情報(Linux).............................. 189<br />
ね<br />
ネットマスク値 ...........................................6, 71, 88<br />
ネットワークインタフェースカード4, 5, 7, 69, 137, 162<br />
の<br />
ノード停止 ..........................................................117<br />
ノードの参入...................................................... 140<br />
ノード名変更...................................................... 153<br />
225
索引<br />
は<br />
ハートビート...............................................112, 113<br />
パニック6, 7, 18, 69, 89, 90, 91, 113, 116, 127, 128, 129<br />
ハブ ............................................................ 4, 5, 165<br />
ひ<br />
引継ぎIP............................................................. 137<br />
引継ぎIPアドレス..........................................87, 115<br />
引継ぎネットワークリソース............. 54, 87, 88, 92<br />
ふ<br />
ファイルシステム................................................. 39<br />
ブート..................................................................... 4<br />
フェイルオーバ53, 54, 56, 61, 62, 68, 69, 79, 94, 128, 129<br />
ブラウザ ............................................................. 172<br />
プロシジャリソース ............................................. 58<br />
プロシジャリソース ....................................... 41, 60<br />
プロセス ......................................................... 60, 79<br />
プロセス監視リソース.................................... 47, 61<br />
ほ<br />
保守 .................................................................... 156<br />
ホットスタンバイ運用.......................................... 41<br />
226<br />
ま<br />
マウント ..........................................................42, 64<br />
マウントポイント............................................39, 65<br />
マルチパスディスク ............................................. 43<br />
マルチパスドライバ ......................................30, 162<br />
め<br />
メッセージポップアップ画面............................. 172<br />
メモリ資源不足 .................................................... 26<br />
り<br />
リソース異常........................................................ 54<br />
リソース故障.......................................79, 82, 84, 89<br />
リソースデータベース.......................................... 33<br />
リソース名 ......................................................... 209<br />
リブート ..............................42, 80, 81, 82, 162, 164<br />
リモートコンソール接続装置............................. 158<br />
ろ<br />
ログビューア...................................................... 207<br />
ログファイル...................................................... 206<br />
ログレベル ......................................................... 214