slides: first draft
authorVincent Dahmen <4dahmen@informatik.uni-hamburg.de>
Wed, 21 Nov 2018 01:13:58 +0000 (02:13 +0100)
committerVincent Dahmen <4dahmen@informatik.uni-hamburg.de>
Wed, 21 Nov 2018 01:13:58 +0000 (02:13 +0100)
presentation.tex
slides/01-motivations.md
slides/02-Methodology.md
slides/03-Experiments.md
slides/99-End.md

index 48885b3c4a426075ceb33c317a1be76de769f846..8a53c4a67f141234b3f4a6acbb62c807f0259a89 100755 (executable)
@@ -2,9 +2,9 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 % Meta informations:
 \newcommand{\trauthor}{Vincent Dahmen (Dr. Sascha Griffiths, Tayfun Alpay)}
-\newcommand{\trtype}{Seminar} %{Proseminar} %{Seminar} %{Workshop}
-\newcommand{\trcourse}{Your thesis title}
-\newcommand{\trtitle}{Your thesis title}
+\newcommand{\trtype}{Spottalk} %{Proseminar} %{Seminar} %{Workshop}
+\newcommand{\trcourse}{Evaluating domain control mechanism on NMT using  real life data sets (WIP)}
+\newcommand{\trtitle}{Evaluating domain control mechanism on NMT using  real life data sets (WIP)}
 \newcommand{\trmatrikelnummer}{6689845}
 \newcommand{\tremail}{4dahmen@informatik.uni-hamburg.de}
 \newcommand{\trinstitute}{Dept. Informatik -- Knowledge Technology, WTM}
index 74bde6ab43a82d64d9dc1b7d5a765cb45989d5f1..f8e48760432d15394ab4e2646fe45ba6266db100 100644 (file)
@@ -1,8 +1,23 @@
 # Motivation and Question
 ## Motivation
-- What is your field of research
-  - Use subitems for details
-    - but carefully
-- Why it is interesting (also for the group)
-- Formulate your research question(s)
-- Never forget: Use references \textsuperscript{[Author, 2010]}
+- Create a stylesheet for NMTs
+  - neural networks getting pretty good in pure translation
+  - often extra information is needed (e.g. domain, tone)
+  - current translators use stylesheets
+
+- Current NMTs use:
+  1) side constraints
+  2) multi source translation systems
+  3) complex attention models
+
+## Why does it matter?
+- supportive facts are complex to learn 
+  - even for humans
+- evaluating a working approach with new data is necessary to proove it
+- collecting new datasets allows more precise evaluation of new models
+
+## research questions
+- How can we transform real life/industry data sets to use in deep learning?
+- How well perform current politeness control mechanism on real life data sets?
+- How well perform current politeness control mechanism on distant language pairs?
+- How big is the impact of automated tone labeling in comparison to manual labeling?
index 337aea0779805ae23148bdb7595fe421cfcf91cf..7fab00fd03163cfc031c2fcf49d1bd844143a9f3 100644 (file)
@@ -1,8 +1,13 @@
 # Methodology
 
 ## Methodology
-- Which methods you will use to investigate your questions addressed in your thesis?           
-  - For instance: provide an image of the architecture
-  - Or provide a learning rule
-  - Or provide algorithmic pseudocode
-- What is the \textbf{novelty} in your research in this context?
+- We will try to reproduce the results from \textsuperscript{[Sennrich et. al, 2016]} with multiple data sets
+- Reuse all settings for net training
+- Use 3 different data sets:
+  1) [opensubtitles 2016](https://obj.umiacs.umd.edu/mt-data/OpenSubtitles2016.en-fr.clean.tgz) (original data)
+  2) [GYAFC](https://github.com/raosudha89/GYAFC-corpus) (alternate public data)
+  3) [PhraseApp](https://phraseapp.com) (industry data)
+
+- A lot of work is based on the same non representative data sets
+  - **Lets change that!**
+  
index ef50f3123d9289e5aac90a9a589b1f5dbcbc57e3..79c6556e0adc504b981087ca0b3175d07aedf3df 100644 (file)
@@ -1,9 +1,12 @@
 # Experiments and Evaluation
-## Experiments and Evaluation
-- Which experiments you plan to do?    
-- For HRI:
-  - Define gestures/speech/objects/actions 
-- Which devices you would need?
-  - Camera? Kinect? Microphones? Robot? 
-- For neural networks or data mining: Which challenging data set or benchmark you will use?
-- How will you evaluate your experiments to determine the performance of your approach?
+
+## Experiment 
+- train a neuronal net on multiple data sets using BPE and a fixed vocabulary
+- reduced dataset
+  - depending on available support through PhraseApp
+
+
+## Evaluation
+- BLUE
+- automated annotaion system by Sennrich
+- for industry data: distance to same translation of other category (if avaialble)
index 4115e3b6623b3abffb97b7ab8bc8fd32cc258eea..0ff7b806ca705d0b9b677780747b1f2138b46670 100644 (file)
@@ -8,6 +8,7 @@
   \footnotesize
 
 ### Literature:
-- Author , Author , Author, and Author. Name of the conference paper. \emph{In: Proceedings of the Conference Name}, Year
+- Rico Sennrich, Barry Haddow and Alexandra Birch. NAACL\_HLT. \emph{In: Proceedings NAACL\_HLT, pages 35-40}, 2016 
+- Xing Niu, Sudha Rao, and Marine Carpuat. COLING 2018 \emph{In Proceedings of the 27th International Conference on Computational Linguistics} ,  2018
 - Author, Author, and Author. Name of the Article. \emph{Name of the Journal}, 42:111-133, Year
 - Author, and Author. \emph{Name of the Book}. Publisher, Year