App_Tokenizer_plugin.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V4.5//EN" "../../../docbook-xml-4.5/docbookx.dtd">
<appendix id="appendix.TokenizerPlugin.inOmegaT">
  <title>Plugin Tokenizer<indexterm class="singular">
      <primary>Pluginy</primary> <secondary>Tokenizer</secondary>
    </indexterm></title>

  <section>
    <title>Úvod<indexterm class="singular">
        <primary>Lucene</primary>

        <see>Tokenizer</see>
      </indexterm><indexterm class="singular">
        <primary>Stemmer</primary>

        <see>Tokenizer</see>
      </indexterm></title>

    <para>Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.</para>

    <para>Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:</para>

    <itemizedlist>
      <listitem>
        <para>lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod</para>
      </listitem>
    </itemizedlist>

    <itemizedlist>
      <listitem>
        <para>lepši, lepša, lepše  - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména</para>
      </listitem>
    </itemizedlist>

    <itemizedlist>
      <listitem>
        <para>najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.</para>
      </listitem>
    </itemizedlist>
  </section>

  <section>
    <title>Instalace a použití</title>

	<para>Tokenizery jsou v OmegaT obsaženy. OmegaT automaticky vybere tokenizer pro zdrojový a cílový jazyk podle jazykových nastavení projektu. Je možné vybrat jiný tokenizer nebo jinou verzi tokenizeru v okně Vlastnosti projektu.</para>

	<warning>
		<title>Případy nefunkčnosti</title>
		<para>OmegaT se nespustí, pokud v adresáři /plugin budou nějaké tokenizery. Ještě před startem OmegaT odstraňte z adresáře /plugin případné soubory tokenizeru.</para>
	</warning>

  </section>
</appendix>
	<?xml version="1.0" encoding="UTF-8"?>
	<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook XML V4.5//EN" "../../../docbook-xml-4.5/docbookx.dtd">
	<appendix id="appendix.TokenizerPlugin.inOmegaT">
	<title>Plugin Tokenizer<indexterm class="singular">
	<primary>Pluginy</primary> <secondary>Tokenizer</secondary>
	</indexterm></title>

	<section>
	<title>Úvod<indexterm class="singular">
	<primary>Lucene</primary>

	<see>Tokenizer</see>
	</indexterm><indexterm class="singular">
	<primary>Stemmer</primary>

	<see>Tokenizer</see>
	</indexterm></title>

	<para>Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.</para>

	<para>Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:</para>

	<itemizedlist>
	<listitem>
	<para>lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod</para>
	</listitem>
	</itemizedlist>

	<itemizedlist>
	<listitem>
	<para>lepši, lepša, lepše - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména</para>
	</listitem>
	</itemizedlist>

	<itemizedlist>
	<listitem>
	<para>najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.</para>
	</listitem>
	</itemizedlist>
	</section>

	<section>
	<title>Instalace a použití</title>

	<para>Tokenizery jsou v OmegaT obsaženy. OmegaT automaticky vybere tokenizer pro zdrojový a cílový jazyk podle jazykových nastavení projektu. Je možné vybrat jiný tokenizer nebo jinou verzi tokenizeru v okně Vlastnosti projektu.</para>

	<warning>
	<title>Případy nefunkčnosti</title>
	<para>OmegaT se nespustí, pokud v adresáři /plugin budou nějaké tokenizery. Ještě před startem OmegaT odstraňte z adresáře /plugin případné soubory tokenizeru.</para>
	</warning>

	</section>
	</appendix>