1. ZH
#
Feladatok#
1. kérdésA kmerInput.txt
az E. coli baktérium genomjának egy részét tartalmazza (A, T, G és C karakterek sorozata). A feladat egy k-mer számoló program elkészítése. A bioinformatikában k-mer-nek nevezzük a k karakter hosszú részsztringeket. Pl: A “AGCTTTTC” 3-mer-ei a következők: AGC, GCT, CTT, TTT, TTT, TTC. Ez alapján a TTT 3-mer kétszer szerepel, míg a többi csak egyszer.
Készítsen egy programot, amely összeszámolja és kiírja a kmerInput.txt k-mer-eit, amelyek megfelelnek a következő feltételnek:
- A k szám értéke legyen: 2
- A k-mer tartalmazza az “C” karaktert, de nem tartalmazza a “G” karaktert
- A k-mert legalább 6-szer előfordul a fájlban.
(Megjegyzés: a k-mer-ek elkészítésekor elég csak az adott sort vizsgálni, azaz nem kell egy sor utolsó karakterét összefűzni a rákövetkező sor első karaktereivel.)
#
Driver#
Reducer#
Mapper#
2. kérdésAz oscar_age_male.csv
a férfi oszkár-díj nyerteseit tartalmazza.
A csv oszlopai: sorszám, év, életkor, név, film.
Írjunk spark programot, amely megadja hogy melyik évben született a legtöbb oscar-díjas színesz. (szulido: oscardij eve - eletkor)
#
3. kérdésA sentiment_input.txt minden sora egy-egy szöveges értékelése a Tenet című filmnek (forrás: imdb.com). A feladat célja megszámolni, hány darab pozitív, negatív és semleges értékelés található a fájlban.
Egy értékelés akkor pozitív, ha a szövegben több pozitív szó található mint negatív.
Egy értékelés akkor negatív, ha több a negatív szó, mint a pozitív.
Egy értékelés akkor semleges, ha a pozitív és negatív szavak száma megegyezik.
A pozitív és negatív szavak listája:
- Pozitív szavak: great, masterpiece, awesome, enjoyable
- Negatív szavak: garbage, worst, bad, boring
Egy lehetséges kimenet: (‘positive’, 10), (‘negative’, 9), (‘neutral’, 4)
#
ZH Fájlok/docs/5felev/bigdata/zh1 tartalma: