Permalink
Cannot retrieve contributors at this time
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
2015OmegaT/OmegaT/doc_src/cs/App_Tokenizer_plugin.xml
Go to fileThis commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
53 lines (41 sloc)
2.63 KB
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
<?xml version="1.0" encoding="UTF-8"?> | |
<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V4.5//EN" "../../../docbook-xml-4.5/docbookx.dtd"> | |
<appendix id="appendix.TokenizerPlugin.inOmegaT"> | |
<title>Plugin Tokenizer<indexterm class="singular"> | |
<primary>Pluginy</primary> <secondary>Tokenizer</secondary> | |
</indexterm></title> | |
<section> | |
<title>Úvod<indexterm class="singular"> | |
<primary>Lucene</primary> | |
<see>Tokenizer</see> | |
</indexterm><indexterm class="singular"> | |
<primary>Stemmer</primary> | |
<see>Tokenizer</see> | |
</indexterm></title> | |
<para>Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.</para> | |
<para>Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:</para> | |
<itemizedlist> | |
<listitem> | |
<para>lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod</para> | |
</listitem> | |
</itemizedlist> | |
<itemizedlist> | |
<listitem> | |
<para>lepši, lepša, lepše - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména</para> | |
</listitem> | |
</itemizedlist> | |
<itemizedlist> | |
<listitem> | |
<para>najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.</para> | |
</listitem> | |
</itemizedlist> | |
</section> | |
<section> | |
<title>Instalace a použití</title> | |
<para>Tokenizery jsou v OmegaT obsaženy. OmegaT automaticky vybere tokenizer pro zdrojový a cílový jazyk podle jazykových nastavení projektu. Je možné vybrat jiný tokenizer nebo jinou verzi tokenizeru v okně Vlastnosti projektu.</para> | |
<warning> | |
<title>Případy nefunkčnosti</title> | |
<para>OmegaT se nespustí, pokud v adresáři /plugin budou nějaké tokenizery. Ještě před startem OmegaT odstraňte z adresáře /plugin případné soubory tokenizeru.</para> | |
</warning> | |
</section> | |
</appendix> |