Skip to content
Permalink
8bed31719c
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Go to file
 
 
Cannot retrieve contributors at this time
53 lines (41 sloc) 2.63 KB
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V4.5//EN" "../../../docbook-xml-4.5/docbookx.dtd">
<appendix id="appendix.TokenizerPlugin.inOmegaT">
<title>Plugin Tokenizer<indexterm class="singular">
<primary>Pluginy</primary> <secondary>Tokenizer</secondary>
</indexterm></title>
<section>
<title>Úvod<indexterm class="singular">
<primary>Lucene</primary>
<see>Tokenizer</see>
</indexterm><indexterm class="singular">
<primary>Stemmer</primary>
<see>Tokenizer</see>
</indexterm></title>
<para>Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.</para>
<para>Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:</para>
<itemizedlist>
<listitem>
<para>lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod</para>
</listitem>
</itemizedlist>
<itemizedlist>
<listitem>
<para>lepši, lepša, lepše - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména</para>
</listitem>
</itemizedlist>
<itemizedlist>
<listitem>
<para>najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.</para>
</listitem>
</itemizedlist>
</section>
<section>
<title>Instalace a použití</title>
<para>Tokenizery jsou v OmegaT obsaženy. OmegaT automaticky vybere tokenizer pro zdrojový a cílový jazyk podle jazykových nastavení projektu. Je možné vybrat jiný tokenizer nebo jinou verzi tokenizeru v okně Vlastnosti projektu.</para>
<warning>
<title>Případy nefunkčnosti</title>
<para>OmegaT se nespustí, pokud v adresáři /plugin budou nějaké tokenizery. Ještě před startem OmegaT odstraňte z adresáře /plugin případné soubory tokenizeru.</para>
</warning>
</section>
</appendix>