Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

BIOINFORMATIK I UEBUNGEN

Ähnliche Präsentationen


Präsentation zum Thema: "BIOINFORMATIK I UEBUNGEN"—  Präsentation transkript:

1 BIOINFORMATIK I UEBUNGEN
HUBERT HACKL icbi.at/bioinf

2 Organisation 3 Übungen Kurze Einführung anschließend Labor
Protokoll (je 2 Studierende, elektronisch doc, pdf ..) Abgabe der Übungen bis spätestens 22. Mai 2014

3 Termine

4 Übungsziele Kennlernen biologischer Datenbanken (NCBI, …)
Arbeiten mit Protein- und DNA/RNA-Sequenzen Sequenzalignment (BLAST) Arbeiten mit Genome-Browsern (UCSC, Ensembl) Lösung praktischer Beispiele mit Online-Analyse (keine Programmierübung)

5 Biologischer Informationsfluss

6 Chromsome, Chromatin, DNA

7 DNA

8 Nomenklatur von Nukleinsäuren
Base Symbol Occurrence Adenin A DNA, RNA Guanin G DNA, RNA Cytosin C DNA, RNA Thymin T DNA Uracil U RNA Symbol Meaning Description R A or G puRine Y C or T pYrimidine W A or T Weak hydrogen bonds S G or C Strong hydrogen bonds M A or C aMino groups K G or T Keto groups H A, C, or T (U) not G, (H follows G) B G, C, or T (U) not A, (B follows A) V G, A, or C not T (U), (V follows U) D G, A, or T (U) not C, (D follows C) N G, A, C or T (U) aNy nucleotide

9 Nomenklatur DNA sequences are always from 5‘ to 3‘
+ strand 5´-ACGGTCGCTGTCGGTAGC-3´ - strand 3´-TGCCAGCGACAGCCATCG-5´ e.g. in fasta format : >gene sequence|gi12345|chr17|- GCTACCGACAGCGACCGT Positions in the genome (genome assembly) are chromosome wise e.g. human GRCh37/hg19 chr11: chr11:49,686,777-49,689,777 Positions in the chromosome start for both!! strands from position 1 chr11: + strand 5´-ACGGTCGCTG…………TCGGTAGC-3´ - strand 3´-TGCCAGCGAC…………AGCCATCG-5´ chr11:

10 Regulation of transcription

11 mRNA processing

12 Translation, genetic code and reading frames

13 Peptid chain, amino acid sequence, proteins
backbone sidechains Protein sequences are always form N-terminal end to C-terminal end E.g.. SCD sequence in fasta format

14 Projekte 1990 2001 2003 2008 2010 Erste Entwurfsversion
von HG publiziert Lander et al., Venter et al., Endversion von HG publiziert Ende HGP Start 1000 Genomes Project - ) detaillierter Katalog genetischer Variationen - ) 1000 anonyme Spender 1990 2001 2003 2008 2010 Stand ENCODE Project - ) Endphase - ) Daten durch UCSC verfügbar Stand 1000 Genomes Project - ) 4 “highly covered” Individuen - ) 1000 Genomes Browser Start Human Genome Project - ) komplettes HG - ) bp - ) 20 Institute - ) Wissenschafter 1990 start: Calculated: 2005, 1$/Base James Watson Head of Initiative Five main sequencing labs: Baylor (Houston), Washington U (St. Louis), Whitehead Inst. (Boston), Joint Genome Inst. (Walnut Creek, CA), Sanger Centre (London) 10-20x coverage No patents Hierachical sequencing (top down  chromosomes, mapping of large dna pieces, shotgun sequencing) 1991:C.V. (NIH at this time) patents ESTs, Watson resigns, Collins head 1995: Venter (now at Institute for Genome Research, which he founded) completes sequencing of the bacterium Haemophilus influenzae in less than one year (1.8 million bases), using a “shotgun sequencing ” approach. This is the first genome of a living organism sequenced. 1998: C.V.(now Celera) + PE, 300 sequencers + supercomputer  whole genome shotgun sequencing (bottom up, fragmentation of whole genome, cloning sequencing, fiddeling together)!! 1999: Venter completes sequence of the fruit fly and claims to have 1 billion human DNA sequences finished. Collins at the NIH also claims the Human Genome Labs have finished 1 billion bases. Celera Corp.stock skyrockets. Collins has sequences posted on the internet every day. The public and private communities battle over rights to patent the human DNA sequences. Feb. 2001: joint announcment National Human Genome Research Institute (NHGRI) in Bethesda, Maryland, announced it will pour more than $116 million into three sequencing centers, which will use "large-scale" sequencing to focus on unraveling the sources of disease and elucidating the workings of disease-causing organisms (http://sciencenow.sciencemag.org/cgi/content/full/2006/1120/1?etoc) Latest sequencing projects: honeybee, sea urchin (11_2006) Start ENCODE Project - ) Encyclopedia of DNA Elements - ) funktionale Elemente der DNA

15 National Library of Medicine (NLM) National Center for Biotechnology Information (NCBI)
NIH (National Institute of Health)–Campus in Bethesda, Maryland, USA (gegründet Budget >30 Mrd $)

16 PubMed Datenbank wurde entwickelt um Zugang zu Zitaten und Abstracts biomedizinischer Literatur zur Verfügung zu stellen 2012 – 21 Mio Einträge von über 5000 Journalen >700 Mio Online Suchen pro Jahr Budget: Pubmed:

17 GenBank Datenbank zur Verwaltung von Sequenzdaten Frei zugänglich
Täglicher Datenaustausch mit EBI und DDBJ Neuer „Release“ alle zwei Monate 2012 > 149 Millionen Sequenzen (137 Milliarden bp) > Spezien > 1150 komplette Genome ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt 2.2.8 Growth

18 Entrez Textbasiertes Abfragesystem für > 30 Datenbanken
PubMed – OMIM Nucleotide – Protein Gene – dbSNP GEO – ... Ergebnisse sind vorberechnet und verlinkt Mehr als Suchen pro Tag Batchmodus verfügbar LinkOut service zu externen Datenbanken

19 Entrez

20 Entrez

21 RefSeq Best, comprehensive, non-redundant set of sequences
For genomic DNA (NG_), transcript mRNA (NM_), other RNA (NR_) and protein (NP_) For major research organisms (2645 organisms) Based on GenBank derived sequences Ongoing curation by NCBI staff and collaborators, with review status indicated on each record (computational XM_, XP_)

22 Gene One record represents one single gene from an organism
Gene-specific information such as map, sequence, expression, structure, function, homology, publications, links Can have one or more Refseq transcripts assigned (NM_) Official gene symbol and name, GeneID, aliases and other designations

23 OMIM Online Mendelian Inheritance in Men
Bibliographisches, krankheitszentriertes Kompendium Ursprünglich Buchform (MIM, Johns Hopkins University) Tägliche Updates Für Ärzte, Wissenschafter, Studenten und Ausbildner Links zu vielen Datenbanken (Literatur, Sequenzen...)

24 Insulin Polypeptid-Hormon
Bildung: Betazellen der Langerhansinseln im Pankreas (Bauchspeicheldrüse) 51 Aminosäuren (2 Ketten) A mit 21 AS B mit 30 AS Schweineinsulin (1 AS unterschiedlich) Rinderinsulin (3 AS unterschiedlich) Glucosetransport in die Zelle und Blutzuckerregulation Hemmt in der Fettzelle Lipolyse und fördert Lipogenese In Leber und Muskelzelle wird Glykogenaufbau gefördert

25 Proinsulin

26 Vom Preproinsulin zum Insulin

27 Insulin als Medikament
Verwendung von Schweine- und Rinderinsulin Bildung von Antikörpern & allergische Reaktionen möglich Versorgung eines Diabetikers: 50 Pankreata/Jahr Gentechnische Herstellung mit rekombinanter DNA Technologie Unterschiedliche Wirkungsdauer (zB. Dissoziation von Insulinhexameren) und Insulinanaloga

28 Exercise 1-1: Find difference
between insulin sequence in pig and human 1.2 Show that C-peptide sequence is less conserved than A-chain and B-chain

29 Exercise 1-2: Find information on
SICKLE CELL ANEMIA and KABUKI SYNDROM 2.1 Which genes/proteins are involved? 2.2   On which chromosome (arm, cytogenetic band) genes are located? 2.3   What is the position and strand on the human reference genome assembly? 2.4   Can these genes also found in the mouse (location)? 2.5   Are there common mutations i.e. non-synonymous SNPs known? 2.6   What is the function of the encoded proteins? 2.7   Find recent publications


Herunterladen ppt "BIOINFORMATIK I UEBUNGEN"

Ähnliche Präsentationen


Google-Anzeigen