I perform data entry setting and input data of 40GB. However, input stopped on the way and reopened when it passed for a while. Performance of the data entry deteriorated after the reopening.
Splunkで利用するデータの初期データ移行を行っています。40GB程度のログを取り込んだ際にある時点でIndexingが停止してしまいました。おそらくForwarderからの転送ができなくなったのだと思われます。(詳細は下記エラーメッセージ参照)
Before setting
outputs.conf:
autoLB(LB to indexer 30 servers)
useACK = true
autoLBFrequency=20
limits.conf
maxKBps = 256
[What have been done]
I confirmed contents of splunkd.log
-> A large quantity of WARN occurred
WARN TcpOutputProc - Forwarding to indexer group default-autolb-group blocked for xxxxxx seconds.
(xxxxx -> 100-24800)
上記エラーメッセージが出力され続け、その間はForwarderからデータが転送できていない状態でした。ある程度時間が経過するとデータ転送が再開されましたが、パフォーマンスが著しく低下しており、データのduplicateも発生するようになりました。
[Splunk architecture]
Splunk Enterprise6.1.3
Search Head:4 servers
Indexer:30 servers(Cluster/SF:2,RF:3)
Master/deploymentserver:1 server(mix roll)
Universal Forwarder:2 servers
エラーメッセージを調査しましたが有力な情報は得られませんでした。何かご存知の方がいましたら情報提供をお願い致します。
2014/09/12 追加情報
エラー発生時にIndexserの状態で気になる点がありましたので共有させていただきます。
・一部Indexerでメモリを大量に使用(8GBのぎりぎりまで使っていました。ログインも非常に遅い)
・BucketsReplicatorのエラー(クラスタ構成が一時的にSF,RFを満たせませんでした)
・サーチも少し遅く感じる(データ入力中、データ入力後)
可能性としてはNetworkの疎通に見えますが、単純にWindowsサーバーが上手く応答を返していないのが原因ではないかと
考えています。telnet,pingは通るので、推測ですが・・・。
Please let me share it because there was a point to be worried about in a state of Indexser at the time of error outbreak.
・I use memory in large quantities in some Indexer.(I used it to the limit of 8GB. /the login is very slow)
・Error of BucketsReplicator(cluster constitution was not able to satisfy SF, RF temporarily)
・I feel some searches to be late (during data entry after data entry)
I see it for understanding of Network for possibility, but think that it is a cause that Windows server does not return a reply well simply. Because telnet,ping goes, is a guess,; but ...
... View more