最新の自然言語処理技術”BERT”が与える影響は?

Googleが導入したBERTとは?

Googleが導入したBERTとは?
最新の自然言語処理技術”BERT”が与える影響は?

2021年の6月と7月にGoogleのコアアップデートが行われました。

年々、Googleコアアップデートによる順位変動が激しくなる中、サイト運営者は対策に追われているはず。

Googleは2019年10月25日、最新の自然言語処理技術”BERT”を検索エンジンに採用したと発表しました。 発表当初は英語圏のみでしたが、続けて同年12月10日には日本語圏を含む70以上の言語においても導入されたことがGoogleより発表されたのです。
この自然言語処理技術”BERT”は「過去最大のアップデート」などと日本メディアでも大きく取り上げられており、SEOにおいてどれほど影響があるのか知りたいと考えている人も多いでしょう。
この記事では、BERTとはそもそもどういう技術でどのような特徴があるのか、導入の背景や今後のSEO対策を踏まえてご紹介します。

Webmaster Central Blog

Googleの最新技術、BERTとは
今回Googleが検索エンジンに導入した最新自然言語処理技術である”BERT”。まずはそもそも自然言語処理技術とは何か、なかでもBERTとはどういう特徴があるのかについて説明します。

そもそも”BERT”って何?

BERTは2019年にGoogleによって発表された自然言語処理(NLP)のモデルであり、2021年の6月と7月にリリースされたGoogleのコアアップデートとは直接関係はありません。しかし、BERTは検索エンジンや他のNLPタスクにおいて非常に重要な進展をもたらしています。

“Bidirectional Encoder Representations from Transformers”の頭文字をとったもので、読み方は「バート」と読みます。BERTは、テキストデータの理解を効果的に行うための手法です。BERTは、大量のテキストデータを学習して文の中の各単語やフレーズの文脈を理解するのに非常に効果的です。従来のモデルは単語やフレーズを個別に考えるのが一般的でしたが、BERTは文の全体的な文脈を取り入れて情報を解釈します。

BERTの特徴:

双方向性: BERTは文の前後の情報を同時に取り入れることができます。
事前学習と微調整: BERTは大量のテキストデータ(例: Wikipedia)で事前に学習され、特定のタスク(例: 質問応答や感情分析)に対して微調整が行われます。
Transformersのアーキテクチャを利用: 高速で効果的な学習と文脈の理解が可能です。

BERTが与える影響:

検索エンジン: GoogleはBERTを検索エンジンに組み込み、ユーザーのクエリの文脈をより正確に理解することで、より関連性の高い検索結果を提供するようになりました。
NLPタスクの性能向上: BERTは多くのNLPタスク(質問応答、感情分析、名前付きエンティティ認識など)で高い性能を達成しました。
新しい研究の促進: BERTの成功は、研究コミュニティに多くの派生モデルや改良モデルを生み出すきっかけとなりました。

まとめると、BERTは自然言語処理の分野に革命をもたらす技術の一つとなっており、検索エンジンや多くのNLPタスクにおいてその影響を強く受けています。

NLPとは?

NLPは「Natural Language Processing」の略で、自然言語処理を意味します。自然言語処理は、コンピュータ科学、人工知能(AI)、言語学の分野が交差する研究領域であり、人間の言語(自然言語)をコンピュータが理解、解析、生成する技術を指します。

NLPの主なタスクと応用例:

  1. 構文解析: 文を単語やフレーズに分解し、その構造や関係を理解する。
  2. 情報抽出: テキストから特定の情報や知識を抽出する。
  3. 機械翻訳: ある言語の文を別の言語の文に変換する。
  4. 質問応答: 与えられた質問に対してテキストから答えを見つける。
  5. 感情分析: テキストの感情や意見を分析する。
  6. テキスト分類: テキストをカテゴリやトピックに分類する。
  7. 文章の生成: 与えられた情報や文脈に基づいて新しい文を生成する。
  8. 音声認識: 音声をテキストに変換する。
  9. チャットボットや対話システム: ユーザーとの自然言語での対話を可能にする。

近年、ディープラーニング技術の進化、特にTransformerアーキテクチャやBERTのようなモデルの登場により、NLPのタスクの性能が大幅に向上しています。この結果、様々な産業やサービスでNLPの応用が増えてきており、日常生活の中でもその影響を受けている部分が多くなってきています。

何がすごい?BERTの特徴とは

BERTとは他のNLPと違って何がすごいのでしょうか。ここではデータ処理の仕組みや学習工程については触れず、検索エンジンとして機能する特徴をご紹介します。

  • 先進的な性能: BERTは発表当時、多くのNLPタスクで既存の手法を大きく上回る性能を達成しました。
  • 事前学習と転移学習: BERTは大量のテキストデータで事前に学習されるというアプローチをとり、その後特定のタスクに対して微調整されます。この方法により、限られたデータでの学習でも高い性能を達成できることが示されました。
  • 文脈を取り入れた単語の理解: 従来のモデルよりも文脈を考慮した単語の表現が可能になりました。これにより、同じ単語でも異なる文脈での意味の違いを捉えることができます。
  • BERTの主な特徴:
  • 双方向性: 従来のモデルは文を一方向(左から右や右から左)にしか読むことができませんでしたが、BERTは文の情報を双方向に読み取ることができます。これにより、文の中の各単語がその前後の文脈を考慮して表現されます。
  • Transformerアーキテクチャ: BERTはTransformerというアーキテクチャをベースにしています。このアーキテクチャは、並列処理が可能であり、長い範囲の依存関係を効果的に捉えることができます。
  • MASKING: BERTの事前学習時には、一部の単語をマスクして隠し、そのマスクされた単語を予測するという方法が用いられます。これにより、モデルは文の文脈を効果的に学習します。
  • 汎用性: BERTは様々なNLPタスクに対して微調整することで適用可能であり、この一つのモデルで多くのタスクをカバーすることができます。
  • BERTのこれらの特徴と高い性能は、NLPの研究や産業界に大きな影響を与え、その後の多くのモデルや研究の基盤となっています。

    これまでのNLPによる言語処理

    たとえば、現在BERTが導入されていない日本語のGoogle検索で「魚介じゃないラーメン」と検索すると、検索結果画面には「魚介ラーメン」の店舗ばかりが表示されます。
    つまり、BERTアップデート以前のNLPは「魚介じゃないラーメン」と「魚介 ラーメン」がほぼ同様に認識されていたということになります。

    なぜこのようなことが起きるのでしょうか。

    これまでのNLPでも「魚介じゃないラーメン」というワードを、「魚介」「じゃない」「ラーメン」という3つの要素に分解し、個々を個別に理解することは可能でした。しかし、英語の”not”にあたる「じゃない」という単語が、文法上「魚介」にかかっているということを認識できていませんでした。そのため文章の中でも意味がはっきりとしている「魚介」「ラーメン」という2語のみが強調されてしまい、「じゃない」が無視される形で検索結果が表示される形となっていたのです。

    では、BERTでは「魚介じゃないラーメン」をどのように認識しているのでしょうか。

    BERTによる言語処理

    BERTはNLPの中でも、文章の文脈、つまりは文法を理解することができるのがその特徴です。
    つまり、「魚介じゃないラーメン」のうち、「じゃない」という単語が「魚介」にかかるという文法上の構造を理解することができるのです。

    このようなBERTの処理能力の高さは、今回例にした「魚介じゃないラーメン」のような短いワード以上に、「銀座駅で10分以内に魚介じゃないラーメンを食べたい」などの文章となった場合に、より力を発揮します。
    現時点ではまだうまく反映はされていないクエリもありますが、「小麦じゃないパスタ」などと検索すると、「グルテンフリーのパスタ」や「小麦不使用のパスタ」、「玄米のパスタ」などが結果として表示されるようになっています。
    「魚介じゃないラーメン」も将来的には、「魚介 ラーメン」とはまったく異なる結果を表示してくれるようにもなることでしょう。

    BERT導入の背景と導入後の影響とは

    ここまでで、BERTが他のNLPとどう違うのか、その特徴をわかっていただけたかと思います。
    では、この最新技術BERTがなぜ今検索エンジンに用いられることとなったのでしょうか。またBERTにより検索結果画面はどう変化するのでしょうか?

    なぜ検索エンジンに採用された?BERT導入の背景とは

    導入背景には大きく2つの理由が挙げられます。まず一つはモバイル端末の普及による検索クエリの多様化です。
    近年、モバイル端末の普及によって、ユーザーの検索するデバイスもPCやデスクトップから、スマホが主流になりつつあります。この移行に伴って、「検索する」という行為は間違いなく私たちにとってより日常的になりました。
    このように検索ワードが多様化したことで、検索エンジンにもより高い処理能力が求められるようになったことが背景にあります。今でも日々Google検索で検索されるワードの15%は全く新しいワードだそうです。
    またAndroidを搭載するスマートフォンの「OK Google」、Apple社製品の「Shiri」、そのほかにもEco端末の「Alexa」など、音声検索システムやスマートスピーカーの普及も高まりつつあります。これにより単語による検索だけでなく、音声による検索の機会もぐっと増えてきました。
    ComScore社の調査によると、「すべての検索の50%が2020年までに音声検索になる」※1と言われているだけでなく、「検索の約30%は2020年までに画面なしで行われます」※2と予測した調査データも存在します。
    こうした音声検索では、話し言葉に近い口語的な形で検索されます。口語的な検索では、文章や単語による検索とは、文脈の意味やニュアンスが大きく異なってきます。この音声検索や文章での検索が増加したことで検索ワードが複雑化したことが、もう一つの導入背景だと考えられます。
    音声検索について詳しく知りたい方は次の記事を参考にしてみてください。

    BERT導入に備えてやるべきSEO対策とは?

    BERT導入は、複雑化・多様化する検索クエリに対応できるよう、GoogleがこれまでのNLP以上に各クエリの”意味”や”検索意図”を正確に読み取れる仕組みを導入したということです。
    つまり、「ユーザーの検索意図を満たすような、ニーズに応じた良質なコンテンツを作る」という本質は変わっていないのです。

    コンテンツのわかりやすさや伝わりやすさは重要

    ただし検索クエリの精度が高くなっているため、これまで以上にコンテンツのわかりやすさや伝わりやすさが求められるようになってくることは確かでしょう。また検索クエリとコンテンツの中身に大きな違いが起こらないよう、検索意図にあわせたコンテンツ制作を意識することが重要となります。また読みやすいようレイアウトや見出しを整えたり、文章自体も複雑になりすぎないよう読みやすくする工夫や配慮も大切です。
    漢字とひらがなをバランスよく使い、長すぎる文は適切な長さにするなどし、読み手の理解が高まるだけでなくGoogleにも認識されやすくもなります。特殊な施策や対策は不要ですが、BERTの特性を理解し検索クエリに対する答えがコンテンツ内にしっかりと反映されているかといった確認は必要となるでしょう。

    BERT導入によってGoogle検索の検索エンジンは、これまで以上にユーザーの検索意図を汲み取ることができるため、SEO対策としては、よりユーザーニーズに即した良質なコンテンツを作ることが重要となります。強いて言うならば、よりユーザーの検索意図を汲み取った良質なコンテンツを作ることが、SEO対策に求められていると言えるでしょう。

    お問い合わせはこちらから!