inSite(インサイト)のフィルタ機能の使い方

この記事では、inSite(インサイト)のフィルタ機能の使い方について解説します。

プロジェクトの作成がまだの方は、以下の記事を参考にプロジェクトを作成してください。

inSite(インサイト)のプロジェクト作成方法

目次

フィルタ機能でできること

フィルタ機能では、クローリング時に除外するクラス名・HTML ID属性・HTMLタグ・URLを設定することができます。

全体スクレイピングを行う前に設定しておけば、必要な情報のみに絞って記事を管理することができるようになります。

フィルター機能の設定方法

inSite(インサイト)でフィルタ機能を設定する手順は以下のとおりです。

STEP

設定からスクレイピングフィルタを開く

まずは、設定画面からスクレイピングフィルタを開きましょう。

STEP

新規作成をクリックする

次に、新規作成をクリックしましょう。設定用のモーダルが立ち上がります。

STEP

フィルタ条件を入力する

次に、以下のフィルタ条件を入力しましょう。

  • フィルタ名
  • フィルタタイプ
  • パターン
  • 説明

フィルタタイプをCSSクラス名・HTML ID属性・HTMLタグで設定する場合は、「要素を画面上で選択する機能」が便利です。

要素から選択から除外したい箇所をクリックして選択すると、簡単に除外するCSSクラス名・HTML ID属性・HTMLタグの設定ができます。

以下のように必要な情報を入力したら作成をクリックしてください。

以下の画面が表示されたらフィルタ設定が完了となります。

おすすめのフィルタ設定

inSite(インサイト)でクローリングを実施する際は以下のフィルタ設定をしておくことをおすすめします。

  1. ヘッダー(CSSクラス名・HTML ID属性・HTMLタグ)
  2. フッター(CSSクラス名・HTML ID属性・HTMLタグ)
  3. サイドバー(CSSクラス名・HTML ID属性・HTMLタグ)
  4. フォーム・運営者情報などのコンテンツと関係のないページ(URLパス)

クラス名やURLはサイトによって違うため、ChromeのディベロッパーツールやinSite(インサイト)の「要素を画面上で選択する機能」等を使って調査し、サイトに合うものを入力してください。

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
目次