関連語拡張


全文検索において、検索結果のうち期待する結果に近いものを、一般に適合文書といいます。DoqueDBには、適合文書を検索条件にフィードバックするために、関連語拡張と呼ばれる独自のSQL構文が用意されています。

指定した適合文書からは検索キーワードが自動的に抽出され、重み付けを行ったうえで検索条件に追加して、再検索が行われます。これを繰り返すことで、検索精度を段階的に高めていくことが可能です。
関連語拡張は、類似文書が大量にあり、絞り込みが決定的に重要なケース、たとえば特許検索のような場面で威力を発揮します。

以下は類似文書検索を実行した結果、作品IDが42767, 57532, 46488の作品が期待結果に近いと判断し、これらの作品を関連語拡張に指定して再検索を行う例です。検索結果を表示して、期待するものに近い作品を選択する操作は、DoqueDBを呼び出すアプリケーション側で行うことになります。

$ /var/lib/DoqueDB/bin/sqli -remote localhost 54321 \
    -user root -password doqadmin -code utf-8 -database sampleSqli
SQL> select docId, score(content), title, lastName, firstName,
        kwic(content for 150 enclose with '<BEGIN>' and '<END>')
    from AozoraBunko
    where content contains freetext(
        '船が難破し無人島に漂着した少年たちが島で生き延びて生還する')
    expand (from (select content from AozoraBunko
        where docId in (42767, 57532, 46488)))
    order by score(content) desc limit 5;

{docId,score(content),title,lastName,firstName,kwic(content for 150 enclose with '<BEGIN>' and '<END>')}

{57532,1.32754502386692E0,新宝島,江戸川,乱歩,にっこり笑って、それにこたえましたが、そんなことが、<BEGIN>少年たち<END>の気持を一そうウキウキさせるのでした。
  もう家へ帰ることなど、すっかり忘れて、どこまでも白い道をあるいて行きますと、黄色い汽<BEGIN>船<END>の次に、それよりは又少し小さい黒い貨物<BEGIN>船<END>がいて、その次には、今までの<BEGIN>船<END>よりはずっと小さい、めずらしい型の<BEGIN>帆船<END>が横づけになっていました}

{46488,1.26534244073321E0,少年連盟,佐藤,紅緑,、死に物ぐるいになって捜索をはじめたが、なんの手がかりもえなかった。一ヵ月後にサクラ号としるした<BEGIN>船<END>尾の板が、ある海岸に<BEGIN>漂着<END>したので、父兄たちはもう捜索の絶望を感じた。
  市の人々は、涙ながらに<BEGIN>少年たち<END>の追善をやっているとき、富士男はサクラ号のふなばたに立って、きっと泡だつ怒濤をみつめていた。}

{1323,1.13350130113547E0,海島冒険奇譚 海底軍艦,押川,春浪,魅つて居るぜ。』と呟いた英國の古風な紳士は甲板から自分の<BEGIN>船<END>室へ逃げ込まんとて昇降口から眞逆に滑落ちて腰を※かした、偶然にも<BEGIN>船<END>の惡魔が御自分に祟つたものであらうか。虎は漸の事で捕押へたが其爲に怪我人が七八人も出來た。
かゝる樣々の出來事の間、吾等の可憐なる日出雄<BEGIN>少年<END>は、相變らず元氣よく始終甲板を飛廻つて居る内}

{42767,1.06778219716706E0,無人島に生きる十六人,須川,邦彦,品を送り、島でとれた産物を、内地に運びだす任務の<BEGIN>船<END>であった。
  龍睡丸が、南の海で<BEGIN>難破<END>してから、中川<BEGIN>船<END>長は、練習<BEGIN>船<END>琴ノ緒丸の、一等運転士となり、私たち海の青年に、猛訓練をあたえていられたのである。
  私は、中川教官に、龍睡丸が遭難して、太平洋のまんなかの<BEGIN>無人島<END>に<BEGIN>漂着<END>したときの話をしていただきたいと、たびたび}

{51364,1.04717147117027E0,鎖国,和辻,哲郎,し、その報告に一隻を帰した。(既に緑の岬で一隻を帰しこれで二隻目である。)その後喜望峰に向う頃二十日の間あらしに逢い、遂に四隻の<BEGIN>難破<END><BEGIN>船<END>を出した。他にマダガスカルの東に迷い出たのもあり、カブラルの手に残ったのは六隻となったが、インド洋は八月に十六日間で横断した。そうしてゴアの南方の島で修繕し休養した後}
TOP