Getting Data In

圧縮ファイルをmonitoringしていると重複イベントがインデックスされる

Contributor

Splunk 6.2.3を使い、複数ディレクトリ内にある複数のgzファイルをmonitoringしていますが、このSplunkインスタンスを再起動すると既にインデックス済みのgzファイルの内容がもう一度インデックスされてしまいます。回避策や原因が分かる方いらっしゃいますか?

1 Solution

Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

View solution in original post

Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

View solution in original post

Contributor

もうちょっと詳しく説明しますと、圧縮ファイルの全体を読み込み、parsingQueueに渡すまでArchiveProcessorはfishbucketにレコードを追加しないので、ArchiveProcessorが圧縮ファイルを読み込んでいる最中にSplunkを再起動すると、fishbucketにレコードが追加されなかった圧縮ファイルの内容が再インデックスされてしまいます。

0 Karma

Contributor

the data will not be reindexed on restart. Splunk keeps track of the files it has imported into the system and this tracking survives restart

0 Karma

Contributor

Splunk will keep track of the files it has already indexed, restarting the system will not cause the data to be re-indexed.

0 Karma