同義語、地域語、翻字、分析を活用して、インドのEコマース検索でのオートコンプリートと誤字許容を改善し、ゼロ結果を減らす方法を学びます。

インドのEコマース検索がうまくいかない理由は単純です:人々は同じ物を同じように呼ばないからです。同じ商品でも英語、ヒンディー語、タミル語、あるいは混ざった表記で入力され、地域ごとに日常語が異なります。
買い物客は「atta」「aata」「gehu ka atta」やブランド名だけを検索するかもしれません。別の人は「jeera」「zeera」または単に「cumin」と打ちます。カタログにそのうちの一つしかなければ、ごく普通のクエリで何も返ってこないことがあります。
小さな綴りの違いが思ったより大きな影響を与えます。検索エンジンはクエリをほぼ文字通りに扱うことが多く、母音が一つ欠ける、余分なスペース、語順の違いなどが、正しい商品を上位から押し出したりゼロ結果にしてしまいます。
インドの製品名が多くのバージョンに分かれる主な理由:
オートコンプリートと誤字許容は、買い物客の体験を変えます。オートコンプリートは検索が確定する前に、ストアが理解できる表現へ導いて入力の手間を減らします。誤字許容は「ほぼ正しい」クエリの失敗を防ぎ、綴りが完璧でなくても関連商品が表示されるようにします。
インドのEコマース検索におけるオートコンプリートと誤字許容の実際的な目標は「完璧な言語サポート」ではありません。測定可能な目標:ゼロ結果検索を減らし、商品発見を速めることで、買い物客が行き止まりではなく商品一覧にたどり着くことです。
インドでの良い検索は派手なアルゴリズムより、実際に人々がどう商品名を入力するかを理解することに尽きます。多くの買い物客は英語と現地語を混ぜ、同じ物を三通りに綴り、検索がそれでも「分かってくれる」ことを期待します。
オートコンプリートは入力の途中で助ける部分です。誰かが「jeer…」と打っているときに「jeera rice」「jeera powder」「jeera whole」と提案できれば、手間を減らしカタログに存在する語へ優しく誘導できます。
誤字許容はユーザーがありそうなミスをしてもマッチさせる仕組みです。「zeera」対「jeera」や「shampo」対「shampoo」など。目的は意味を変えずに一般的な誤りを救うことです。誤字許容を広げすぎると短いクエリ「ram」が関係ない商品にヒットするなど変な一致が増えます。
同義語は単純です:違う言葉でも同じ意図。"Atta"と"wheat flour"は同じ商品群につながるべきです。インドのEコマースでは、同義語にブランドっぽい呼び方("biscuit"対"cookies")、地域用語、カテゴリのニックネームが含まれることが多いです。
翻字はインド語の単語を英字で入力することです。人によって"namkeen"、"nimeen"、"namkin"と打つことがあります。翻字ルールは、カタログが一つの綴りしか持っていなくてもこれらの変種をマッチさせる助けになります。
オートコンプリートと誤字許容を実務的に捉えると:
これがわかれば、小さく制御されたマッピングセットを作り、実際の検索分析で拡張していけます。推測で作業するより確実です。
良い検索辞書は推測ではなく自社データから始めます。目的は簡単:人々が実際にインドで商品をどのように呼ぶか(地域語、綴り、略語を含む)をキャプチャし、オートコンプリートと誤字許容の土台を作ることです。
まず、カタログを掘ります。商品タイトル、カテゴリ名、属性、バリアントラベル、ブランド、パックサイズ、単位には「公式」の表現が含まれていることが多いです。食料品なら "toor dal"、"arhar dal"、"split pigeon peas" のように具体名と一般名の両方があるかもしれません。
次に、実際の顧客語を集めます。検索ログは急いでいるときに人が何を打つかを示し、カスタマーサポートのチャットは探せないときにどう説明するかを見せます。数週間分のログでも "aata/atta"、"dahi/curd"、"chilli/chili" のような繰り返しパターンが浮かび上がります。
データソースは次の5つから作り、合併・クリーンします:
最後に、一般語とブランド語を分けます。"Atta"は多くの商品にマッチすべきですが、ブランド名が誤って別商品を引き寄せないようにします。後でルールが意図を曖昧にしないよう、ラベル付きの2つのリスト(一般語 vs ブランド)を保持してください。
小さく始めます。検索と売上の中心となる20〜50カテゴリ(主食、ビューティー、人気家電など)を選び、作業を絞ります。影響が見えやすく、オートコンプリートと誤字許容の効果を早く確認できます。
チーム全員が編集できる共有の「命名テーブル」を作り、最初はスプレッドシートにしてから検索インデックスに同期します。
各カテゴリごとにシステムが“メイン”として扱う用語(カノニカル)を1つ選びます。仕入れ先の呼び方ではなく、顧客が認識する呼び方を使ってください。
次のような行を作ります:
| Canonical term | Synonyms (same product) | Common misspellings | Transliterations | Notes |
|---|---|---|---|---|
| cumin | jeera | jeera, jeeraa | zeera, zira | Keep “caraway” separate |
| face wash | cleanser | fash wash | fes wash | Don’t map to “face cream” |
単位やパックパターン(1kg、500 g、2x、コンボパック、family pack)は再利用可能なトークンとして別に扱います。ユーザーがフルで打つとゼロ結果を生みやすい部分です。
同義語は、顧客が同じ結果に満足する場合に限ります。チームが従える短いルールを書いてください:
カテゴリごとにオーナーを割り当て、最初は週次レビューを入れます。サポートが「見つからない」と言ったら、同じ日にテーブルに用語を追加するワークフローを作ります。
カスタム検索スタックに入れる場合、Koder.aiのようなツールは管理画面と同期ワークフローを素早く出すのに役立ちます。非技術チームが編集できる状態を保つことが重要です。
オートコンプリートは速く、違和感なく、寛容であるべきです。インド向けEコマース検索で最大の利点は、最初の数文字で有用な候補を出せることです。人々は素早くタイプし、英語と現地語を切り替え、正確な綴りを覚えていないことが多いです。
接頭辞(プレフィックス)に合わせてチューニングしましょう。最初の2〜4文字で高い意図を示す候補を出します。誰かが「sha」と打ったら、上位をレアな商品で埋めないでください。多くの買い物客が意味するであろう、かつ在庫が充実している候補を示します。
候補は単語だけでなくカテゴリを意識して出すと良いです。ユーザーが地域語の"shakkar"と入力したら、候補は明確に砂糖(sugar)カテゴリや人気のサブタイプ(粉、オーガニック等)を示すべきです。これにより混乱を減らせます。
候補は短く読みやすく保ちます。良いパターンは「ブランド + 商品」(本当に一般的な場合)か「商品 + 主要属性」です。サイズや長い型番、複数属性をいっぱい詰め込まないでください。
実務的なUIルール:
例:買い物客が"dett"と入力すると、多くの人はブランド意図で"Dettol"を意味しますが、中には"handwash"や"sanitizer"を求めている場合もあります。オートコンプリートは"Dettol Handwash"、"Dettol Sanitizer"、カテゴリの"Handwash"を提示して両方の意図をカバーします。
このやり方を一貫して行えば、オートコンプリートと誤字許容は巧妙なアルゴリズムよりも、買い物客に次の自然な行動を示す手段になります。
誤字許容はタイプミスがあっても人が商品を見つけられるようにしますが、緩すぎると"十分に近い"商品が誤って出てきてしまいます。目標は簡潔:明らかなミスを拾い、意図が変わりうる場合は慎重に扱うこと。
単語長に基づく安全な編集距離ルールから始めます。短い語は壊れやすいので厳しく。長い語はもう少し柔軟で良いです。
数字は別クラスとして扱います。"1kg"と"10kg"は交換不可で、"500ml"が"1500ml"になるべきではありません。実務ルール:数値トークン内部には誤字許容を適用しない、単位は変更しない。フォーマット調整("1 kg"、"1KG"、"1kg"など)は許容するに留める。
ブランド名や高意図語は"訂正"で汚さないでください。トップブランドやプライベートラベルなどの小さな保護リストを保持します。クエリが保護語に近い場合は、書き換えず候補を優先表示します。
モバイルではキーボード隣接ミスが多く、特にヒングリッシュで顕著です(例:a-s、i-o、n-mの近接キー)。ただし、その許容は語全体が強い一致を示す場合のみに限定します。
訂正が曖昧な場合は、静かに置き換えるのではなく候補として表示します。例:"dove"が"done"や"dovee"に分かれる可能性があるときは「Did you mean dove?」のように提案し、元の結果も残すことで信頼を保ちます。
インドのクエリはしばしばスクリプトや習慣を混ぜます:"जीरा rice"、"jeera चावल"、"zeera rice"、"poha nashta"など。検索はこれらを別個の世界として扱うのではなく、同じ購買意図として扱うべきです。目標は簡単:複数の書き方を一つの明確な商品意味にマップすること。
小さく実践的なルールから始め、効果が見えてから拡張してください。
野心ではなくトラフィックとゼロ結果を基準に選びます。一般的な順序は英語+ヒングリッシュを最初に、その後ヒンディー文字を追加する、という流れです。地域で需要が見えたら、そのログに基づいてカテゴリ単位で言語を追加してください。
検索品質は一度きりの設定ではありません。週次の習慣として、人が何を打ち、何をクリックし、どこで諦めるかを見続けてください。これがインドのEコマース検索のオートコンプリートと誤字許容を推進する最良の方法です。
最初は少数のコア指標から始め、週ごとに一貫して追跡します:
週に一度、トップのゼロ結果クエリを引っ張り出して分類します。分類は簡単に保ち、チームが実際に使えるように:同義語不足(jeera vs zeera)、綴りの変種、ブランドやモデルのミスマッチ、言語/スクリプトの問題、カタログの欠落(商品未入荷)など。目的は「同義語が必要」か「在庫がない」かを分けることです。
オートコンプリートのデータはしばしば最も早い改善ポイントです。ユーザーが候補を無視して最後まで打ち切るなら、候補が一般的すぎる、順序が悪い、または地域用語が欠けている可能性があります。候補はクリックされているがユーザーが再検索するなら、見た目は正しいが結果が弱いことを示します。
誤字は単に許容を増やすのではなく監査を必要とします。毎週20〜50件の訂正クエリを抽出し、次のようにラベル付けします:
これをプロダクトやマーケが2分で読める簡単なダッシュボードにまとめます:トップのゼロ結果クエリと原因、オートコンプリートの候補とクリック率、次リリースのための短いアクションリスト。Koder.aiのような内部ツールでダッシュボードと週次エクスポートを素早く作るのは良い初期プロジェクトです。
インドの検索問題の多くは「もっと同義語を増やす」ことではなく、予測可能なミスから生じます。これらが徐々にユーザーを間違った結果へ導き、信頼を損ないます。
最大の落とし穴の一つは過度に広い同義語です。"cream"と"lotion"を互換にすると、濃厚なフェイスクリームを求める人が軽いボディローションに誘導され、離脱につながります。同義語は隣接カテゴリではなく、同じ意図の変種だけをマップするようにしてください。
もう一つのミスはパックサイズや単位の意図を無視することです。"Oil 1L"と"Oil 5L"は買い物目的が違いますし、"atta 5 kg"と"atta 10 kg"も同様です。ルールが単位を無視すると、まとめ買いしたい人に小袋を提示してしまい、ランキングがランダムに見えます。
注意すべき高インパクトなミス:
ブランド名は特に注意が必要です。ユーザーが"Himalya face wash"と入力したのに誤字設定で別ブランドに修正されると不満が出ます。一般語("shampu")には寛容に、ブランドや型番には厳格に、という方針が安全です。
オートコンプリートは在庫のないものを提案すると逆効果になります。頻出クエリだからといって"ghee 2L"を提案して在庫が1Lしかないと期待外れになります。今日確実に提供できる候補を優先してください。
オートコンプリートと誤字許容を作るなら、販売週の後に新しいトップクエリ、増えた誤綴り、ゼロ結果をチェックする習慣を入れてください。結婚シーズン、モンスーン、試験シーズンといった小さなシフトでも人々の入力が変わります。
ルール変更を素早くテストしたければ、Koder.aiは検索ルールサービスと管理画面のプロトタイプを手早く作るのに役立ちます。
買い物客が"zeera rice"と入力してゼロ結果になることがあります。探しているのは別の商品ではなく、発音どおりに綴っただけで"jeera rice"(クミンライス)を意味しています。
これを直すには2つの小さく安全な変更で十分です:一般的な綴りバリエーションの同義語と保守的な誤字ルールを追加します。この場合、"zeera"を"jeera"の翻字バリアントとして扱います。
実用的なマッピング例:
次に短い語に厳格な誤字許容ルールを追加します。例えば、トークン長が5文字以上のときにのみ1編集(1文字の誤り、欠落、入れ替え)を許可する、など。これで"jeera"対"jeeraa"のようなケースは拾えますが、非常に短い語の乱れによる変な一致は避けられます。
変更後、オートコンプリートは推測するのではなく買い物客を導くはずです。ユーザーが"zee…"と入力したときは次のような候補を出します:
ユーザーが"zeera rice"を送信したときは、あなたの"jeera rice"商品を上位に表示し、ランキングルールによってはクミンやバスマティなど関連商品も表示します。
1週間後にチェックする指標例:
もし結果が悪化したら(例:"zira"が別のブランドやカテゴリに一致し始める)、その同義語グループだけを無効化して早急にロールバックします。設定はバージョン管理しておき、数分で戻せるようにしてください。こうしたフィードバックループがインド向けのオートコンプリートと誤字許容で重要です。
新しい同義語、オートコンプリート、誤字設定を公開する前に、実際のクエリデータを混ぜた簡単な確認を行ってください。これで「役に立つ」変更がノイズの多い結果を作るのを防げます。
オートコンプリートと誤字許容向けの短い事前チェックリスト:
失敗があれば小さな変更を先に出してください。広範囲の更新よりも段階的なリリースの方が安全です。
検索の問題が顕著なカテゴリ1つ(食料品、パーソナルケア、モバイルアクセサリなど)から始めます。1週間程度で影響を見られるようにスコープを狭くします。動かせる成功指標は2〜3つに絞る(ゼロ結果率、検索→商品クリック率、検索後のカート追加など)。
効果的なシンプルなローアウト例:
変更は必ず戻せるようにします。同義語や誤字ルールをコードとしてバージョン管理し、スナップショットやロールバック経路を用意してください。もし新ルールで"face wash"が"dishwash liquid"を出すような事態が起きたら、数分で元に戻せることが重要です。
オーナーシップは巧妙なルールより重要です。週に30分のレビュー時間を1人に任せ、トップの新しいゼロ結果、誤字で救われた良い事例、低品質クリックのスパイクをチェックしてもらいましょう。
より早く構築・反復したければ、Koder.aiはチャットでのビルド、プランニングモードでルールと指標をマップ、エクスポート可能なソースコードを提供するのでチームで保守しやすくなります。スナップショットやロールバック機能があると、素早い元に戻しが必要な時に便利です。
測定結果に基づき次の改訂を計画してください。例えば"zeera rice"はコンバージョンが上がったが"jeera"が無関係な"zera"商品にマッチするようになった場合、次のアクションはそのルールを厳しくすることです。