Getting Data In

圧縮ファイルをmonitoringしていると重複イベントがインデックスされる

cwl
Contributor

Splunk 6.2.3を使い、複数ディレクトリ内にある複数のgzファイルをmonitoringしていますが、このSplunkインスタンスを再起動すると既にインデックス済みのgzファイルの内容がもう一度インデックスされてしまいます。回避策や原因が分かる方いらっしゃいますか?

1 Solution

cwl
Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

View solution in original post

cwl
Contributor

ArchiveProcessorがgzファイルを読み込んでいる最中にSplunkを再起動すると、重複したイベントがインデックスされる可能性があります。回避策としては、gzファイルを解凍した状態でmonitoringすることです。

cwl
Contributor

もうちょっと詳しく説明しますと、圧縮ファイルの全体を読み込み、parsingQueueに渡すまでArchiveProcessorはfishbucketにレコードを追加しないので、ArchiveProcessorが圧縮ファイルを読み込んでいる最中にSplunkを再起動すると、fishbucketにレコードが追加されなかった圧縮ファイルの内容が再インデックスされてしまいます。

0 Karma

darrenfuller
Contributor

the data will not be reindexed on restart. Splunk keeps track of the files it has imported into the system and this tracking survives restart

0 Karma

darrenfuller
Contributor

Splunk will keep track of the files it has already indexed, restarting the system will not cause the data to be re-indexed.

0 Karma
Get Updates on the Splunk Community!

Strengthen Your Future: A Look Back at Splunk 10 Innovations and .conf25 Highlights!

The Big One: Splunk 10 is Here!  The moment many of you have been waiting for has arrived! We are thrilled to ...

Now Offering the AI Assistant Usage Dashboard in Cloud Monitoring Console

Today, we’re excited to announce the release of a brand new AI assistant usage dashboard in Cloud Monitoring ...

Stay Connected: Your Guide to October Tech Talks, Office Hours, and Webinars!

What are Community Office Hours? Community Office Hours is an interactive 60-minute Zoom series where ...