Diskussion:Spracherkennung
Kritik (2012)
[Quelltext bearbeiten]Hallo Leute, ich hab' mir gerade gedacht, ich schaue mal wieder bei diesem Artikel vorbei. Ich kenne ihn schon relativ lange, beschäftige mich seit 1999 mit Spracherkennung und hab' seinerzeit auch ein paar Zeilen beigetragen. Naja, jedenfalls muss ich sagen, dass der Artikel meiner Meinung nach vor Jahren deutlich besser war. Jemand hat unten ja auch für 2004 ein Lob ausgesprochen.... Der Artikel liest sich momentan sehr holprig, ist weder am neuesten technischen Stand, noch präzise in den Formulierungen. Leider hab' ich momentan keine Zeit mehr, den Artikel nochmal zu überarbeiten. Hoffentlich findet sich aber jemand anderer... Naja. Schade um den Artikel.
Viele Grüße, 80.109.88.39 20:30, 21. Sep. 2012 (CEST)
Analoge und digitale Mikrofone bzw. Headsets
[Quelltext bearbeiten]Die Güte von Spracherkennung scheint wesentlich von einer prinzipiellen Unterscheidung zur Mikrofontechnik abzuhängen. Offenbar gibt es Mikrofone, die die Soundkarte des PC zur Digitalisierung nutzen und solche, bei denen die Digitalisierung anders (wie? wo?) bewerkstelligt wird. Dabei scheint es so zu sein, dass Mikrofone digitaler Headsets (=ohne Nutzung der Soundkarte) eine etwa dreifach bessere Erkennungsrate haben als die von analogen, vgl. http://www.el-data.de/index.php?id=dnsfaq, mit einem Vergleichstest, dort die Grafik etwa in der Mitte des Dokuments. Viele Headsets haben aber eine Klinkenbuchse **und** eine USB-Buchse. Wohin gehören dann diese Headsets qualitätsmäßig? Diese Unterscheidung und worauf man dazu als Käufer achten muss: Zu diesem Gesichtspunkt ist der Artikel noch viel zu undeutlich.
Beifall (2004)
[Quelltext bearbeiten]Der Artikel ist wirklich faszinierend. Besonders gut gefallen mir die gesprochenen Beispiele – soll keiner sagen, die WP wäre nicht multimedial ;-)
Was mir an den gesprochenen Beispielen allerdings nicht gefällt, ist die Qualität. Mir scheint es so, als würde am Anfang und am Ende was fehlen, vielleicht ist auch der Ogg-decoder im VLC so schlecht. Vielleicht wären längere Beispiele oder solche mit ein paar Sekunden Stille vorne und hinten nicht schlecht. Aber das sind Details, der Artikel ist verdammt gut. --wahsager 12:10, 18. Dez 2004 (CET)
weder anregung noch kritik; einfach: Lob!!!
Erste Kritik
[Quelltext bearbeiten]stimmt, der Artikel ist so weit beeindruckend. was mir fehlt ist der bereich der anwendung, das 'warum-und-wozu-spracherkennung'. (einerseits vielleicht richtung arbeitserleichterung, oder auch nur ein interessantes oder auch nur lustiges weiteres feature der computerisierung der lebenswelt?) insbesondere für schwer körperbehinderte menschen aber bedeuten funktionierende spracherkennungsprogramme, dass sie (u.U. erstmals) überhaupt an gesellschaftlichem leben und sozialer interaktion teilnehmen können - oder aber am intellektuellen diskurs (stephen hawking nur als bekanntestes bsp.) - oder aber am bildungssystem. wenn mit der körperbehinderung auch eine sprachliche behinderung (z.b. spasmus) einhergeht, stoßen die programme im moment noch an kaum überwindbare grenzen. Gruß --Rax 01:55, 20. Nov 2004 (CET)
Mir fehlt insbesondere ein Bereich zur Merkmalsextraktion in der Spracherkennung. Warum gibt es eigentlich keinen Artikel zu Merkmalsvektor,Merkmalsextraktion oder Merkmalsgewinnung? --In4matic 17:59, 25. Mai 2007 (CEST)
Hallo!
Ich arbeite seit 1993 mehr oder weniger aktiv mit Sprachsteuerung. Ich diktiere im Flugzeug, in der Bahn, auf Bahnhöfen, sogar im Unterricht.sich Die Leute wundern sich immer, aber keiner macht es nach.
Auch dieser Text ist mit Dragon NaturallySpeaking direkt diktiert. Pro Woche erzeuge ich alleine 50-100 KB journalistische Texte, von all den anderen Texten gar nicht zu reden; das könnte ich heute mit den Fingern nicht mehr leisten, weil ich inzwischen an RSI-Syndrom leide - meine Finger würden so sehr schmerzen, daß ich sie nicht mehr bewegen könnte.
Natürlich habe ich mich gefragt, warum sich diese Technologie nicht durchsetzt. Übrigens benutze ich statt der Maus den Stift - genau dasselbe: alle staunen, keiner zieht mit. Die Vorteile liegen in beiden Fällen auf der Hand: man ist viel produktiver, muß sich allerdings auf die neue Technik einlassen, quasi den Führerschein machen. Man könnte interessante Betrachtungen über Fortschritte in der Technologie bzw. Hemmnisse bei der Durchsetzung anstellen.
Die Frage ist: wie bindet man so etwas in die Wikipedia ein? Es handelt sich um persönliche Erfahrungen - eigentlich eine Antwort auf die obige Frage. Hat so etwas einen Platz in der Wikipedia? Wenn ich das richtig verstanden habe, möchte die Wikipedia neutrale, objektive Informationen liefern. 21:32 15.12.2004 --RemBrandt
Weblink
[Quelltext bearbeiten]Sehr informativer Artikel! Es ist ja im Moment kaum allgemeinverständliche Literatur zu diesem Thema auf Deutsch zu bekommen... Übrigens: Leider enthält die pdf-Datei hinter dem Weblink "Computerlinguistik: Erkennung und Synthese gesprochener Sprache" nur Inhaltsverzeichnis und Anfang des versprochenen Textes, nicht den vollständigen Aufsatz. Klaus 28.12.2004 00:57
Aus dem Review
[Quelltext bearbeiten]Spracherkennung, 6. November
[Quelltext bearbeiten]und nochmal Schreibwettbewerb. -- Dishayloo [ +] 11:06, 6. Nov 2004 (CET)
- Vorweg: Der Artikel ist wirklich nur sehr knapp an den Top10 des Wettbewerbsvorbeigeschrammt. Der Text wirkt manchmal etwas zerstückelt und durch die vielen sehr kurzen Abschnitte zusammengebastelt. Ein roter Faden des Textes ist (jedenfalls für mich) leider häufig nicht erkennbar. In der Geschichte existiert eine verhältnissmäßig große Lücke von 1994 bis 2004, ist in dieser Zeit gar nichts passiert? Ein Punkt, der nur angeschnitten wird und der mir fehlt ist die Nutzung der Systeme (Wer benutzt sie wofür? Gerade Infosysteme am Telefon (Menüauswahl etc.) sollten erwähnt werden). Einen fetten Bonuspunkt sehe ich in der Verwendung der .ogg-Dateien. -- Necrophorus 10:19, 7. Nov 2004 (CET)
Vorneweg: Der Artikel gefällt mir schon sehr gut. Beim "aktuellen Stand" wären ein paar konkrete Beispiele schön. Im oberen Teil des Artikels fehlt ein Bild, vielleicht ein Mensch, der etwas in ein mikrofon spricht, oder ein science-fiction Bild. Ich würde die Gliederung ändern in
- Aktueller Stand (mit Beispielen)
- Geschichte
- Forschungsgebiete (Lippenlesen, Sprachausgabe)
Die Überschrift Problemstellung hört sich doof an-gibt es da nicht einen treffenderen Begriff. Arbeitsweise oder so? Ich habe nichts über die Erkennung von Dialekten gelesen. Mußten die Programme nicht früher trainiert werden? heute auch noch? Hadhuey 00:03, 12. Nov 2004 (CET)
Der Artikel ist schon nett, aber noch nicht wirklich beeindruckend.
- Dabei muss allerdings jedem Wort seine Funktion innerhalb der Grammatik zugewiesen werden. Deshalb werden solche Systeme meist nur für einen begrenzten Wortschatz und Spezialanwendungen verwendet.
- Ich bin kein Spezialist für Spracherkennungssysteme, aber Wortartenerkennung ist ein relativ gut gelöstes Problem in der Computerlinguistik. Vor allem der zweite Satz ist ein wenig seltsam. Die meisten Spracherkennungssysteme sind doch sowieso Spezialanwendungen, was ist also das Problem? --zeno 13:04, 20. Nov 2004 (CET)
- Die Größe des Wörterbuchs hängt stark von der Sprache ab. Zum einen haben durchschnittliche deutschsprachige Sprecher mit ca. 4.000 Wörtern einen deutlich größeren Wortschatz als englischsprachige mit ca. 800 Wörtern.
- Beide Zahlen sind viel zu tief gegriffen.
- Im Abschnitt "Homophone": Die Frage Groß- oder Kleinschreibung fällt auch in diesen Bereich.
- Dieser Satz steht etwas verloren da.
- Bei den Problemen bei Konsonanten/Vokalen sollte noch darauf eingegangen werden, dass Konsonanten abhängig vom Kontext sehr verschieden klingen können.
- Zum Aufbau eines Spracherkennungssystem: Was ein "Referenzvektor" ist wissen Laien wahrscheinlich nicht (ich denke zu wissen, was damit gemeint ist, aber sicher bin ich mir auch nicht), dass sollte schon erläutert werden.
- Es werden zwei weitere, sehr grundlegende Probleme bei der Spracherkennung ausgeklammert (oder ich habe es "überlesen"): Sprecherabhängigkeit bzw. -unabhängigkeit (individuelle Unterschiede, Akzent, Nicht-Muttersprachler, Sprachstörungen) sowie Einsatz in Umgebungen mit vielen Nebengeräuschen (Großraumbüros, Industriebetriebe, Bahnhöfe/Flughäfen ...).
--zeno 13:21, 20. Nov 2004 (CET)
Aus der Erinnerung: War Dragon Systems nicht von ehemaligen IBM-Mitarbeitern gegründet worden? (womit das gesamte Spracherkennungs-Know-How jener Zeit aus IBM heraus entstanden war) Dragon und IBM lieferten sich doch auf Jahre einen harten Konkurrenzkampf, sdoch im Endeffekt hat Spracherkennung auf dem Massenmarkt nicht eingeschlagen. -- Dishayloo [ +] 02:04, 6. Dez 2004 (CET)
Spracherkennung in Linux
[Quelltext bearbeiten]Meines Wissens sind die Bemühungen seitens IBM eine Linux Version zu veröffentlichen im Sande verlaufen... Kann das jemand bestätigen? Gibt es Pläne diese Bemühungen wiederaufzunehmen?
-- Keine Antwort auf Deine Frage, aber eine weitere: Im Text steht "Für das Betriebssystem Linux hat IBM ab 1999 begonnen, die Technologie von ViaVoice zu portieren. Seit 2001 ist die Spracherkennung in dem verbreiteten Linux-Desktop KDE integriert." Als leidenschaftlicher KDE-Nutzer würde ich gerne wissen, wo dies integriert ist. Ich habe nirgends einen Hinweis gefunden. Wenn dafür kein Beleg zu finden ist, bitte streichen. (nicht signierter Beitrag von 84.137.234.122 (Diskussion) )
--Ich hab mich aktuell umgeschaut: Eine Spracherkennung ist *nicht* im KDE integriert. Wenn überhaupt, dann gibt es vom KDE unabhängige Entwicklungen, die derzeit aber bestenfalls gesprochene Befehle erkennen können.Quelle z. B. hier im Ubuntuforum [1]. Der Artikel sollte daher um diesen Satz "Seit 2001 ist die Spracherkennung in dem verbreiteten Linux-Desktop KDE integriert." gekürzt werden.--Andi Pehrin 04:45, 5. Okt 2006 (CEST)
--Was ist mit Simon: http://www.linux-community.de/Neues/story?storyid=24598
Systeme
[Quelltext bearbeiten]Ich finde, wenn es um Spracherkennung geht, sollte das Sphinx - System, der Carnegie Mellon University (CMU) nicht fehlen!
Hier geht es zu deren Hauptseite: [2]
Das besondere hieran ist, dass dieses System seinen eigenen Trainer für die, der Spracherkennung zu Grunde liegenden, Akustikmodelle liefert. Meines Wissens nach, hat kein anderer Spracherkenner die Möglichkeit, dies zu tun. Zwar kann man bei einigen die mit ausgelieferten Modelle erweitern, aber, das war's dann auch meistens schon!
Das ganze Projekt ist zudem Open Source und gerade das sollte auch entsprechend honoriert werden, denke ich!
--213.7.27.122 12:27, 13. Aug 2005 (CEST)
NeoGermi
ESMERALDA, ein HMM Development Kit der Uni Bielefeld inkl. Spracherkenner ist mittlerweile OPEN SOURCE (LGPL). Das sollte geändert werden. Hier der Link Esmeralda.
Lesenswert-Diskussion
[Quelltext bearbeiten]Die Spracherkennung oder auch automatische Spracherkennung ist ein Teilgebiet der angewandten Informatik. Sie beschäftigt sich mit der Untersuchung und Entwicklung von Verfahren, die es Automaten, insbesondere Computern erlauben, gesprochene Sprache zu erkennen (das heißt, in Zeichenfolgen umzuwandeln) und zu verarbeiten.
- pro - sehr ausführlicher Technikartikel mit guten Beispielen. -- Achim Raschka 23:13, 20. Aug 2005 (CEST)
- Mario23 01:46, 22. Aug 2005 (CEST) Pro - gratulation! sehr informativ!
- Antifaschist 666 12:40, 24. Aug 2005 (CEST) Pro
Quellen
[Quelltext bearbeiten]Wird erwähnt ohne Gebrauch im Text:
- Sonogram Visible Speech Eine Software die Sprache visuell mit Frequenzen darstellt.
Wird im Text verwendet ohne Angabe:
- {{Ref|FrostSullivan}}
--chrislb 问题 15:18, 29. Mai 2006 (CEST)
- Erledigt, war IP Änderung ohne Erklärung. --chrislb 问题 15:29, 29. Mai 2006 (CEST)
Sphinx
[Quelltext bearbeiten]Wie man auf der Projektseite [3] sehen kann, ist Sphinx sowohl für Linux, als auch für Windows und die POSIX-Derivate verfügbar. Daher bitte ändern.
Werbelink
[Quelltext bearbeiten]Wie wäre es denn, wenn mal jemand den Werbelink "Grundlagen der Spracherkennung" am Ende der Seite entfernt? (nicht signierter Beitrag von 212.201.84.14 (Diskussion) )
Erfolgreich überstandene Abwahl 7.-14. November 2006
[Quelltext bearbeiten]Der Artikel hat seit seiner Lesenswert-Wahl stark verloren. Die beiden Abschnitte Vokabulare und Medizinische Spracherkennung sind etwas Philips-lastig. Der Vokabular-Abschnitt wirkt lieblos hinten dran gehängt, obwohl er doch eher zur Realisierung oder zum aktuellen Stand gehören würde. Die Hörbeispiele sind raus. Ein Abschnitt ist seit dem 29. Mai als Lückenhaft markiert. Der Artikel wurde im August 2005 gewählt.
Daher Zombi 22:00, 7. Nov. 2006 (CET)
Kontra --- Den Lückenhaft-Baustein habe ich verbrochen und er gehört dort eigentlich nicht rein; lückenhaft nur dann, wenn etwas essentielles fehlt. Das Thema selbst ist mE weiterhin lesenswert, die Links auf die eingesetzten System ist (ebenfalls mE) von sehr marginalem Interesse. die Hörbeispiele wurden leider gelöscht, der Artikelautor hat sich auf meine Nachfrage bisher nie gemeldet. Schade. --chrislb 问题 22:10, 7. Nov. 2006 (CET)
134.100.172.24 15:10, 9. Nov. 2006 (CET)
Pro Deckt sehr viele Aspekte dieses Themas gelungen. Von daher klar lesenswert.Gancho Kolloquium 11:25, 10. Nov. 2006 (CET)
Pro Finde den Artikel auch absolut lesenswert. Die Notwendigkeit des Lückenhaft-Bausteins kann ich nicht bewerten, aber wenn der Setzer selbst sagt, dass er nicht reingehört... -Ich bitte um einen Blick auf diesen Diff – die Unterschiede sind marginal und der Artikel braucht einen einzigen Edit von jemandem, der sich mit der Materie auskennt. Chris, magst du das nicht selbst machen? --h-stt !? 14:08, 10. Nov. 2006 (CET)
Philips Marktführer in der Medizinbranche?
[Quelltext bearbeiten]"Marktführer bei medizinischen Spracherkennungssystemen ist laut der Unternehmensberatung Frost & Sullivan der Hersteller Philips mit dem System „SpeechMagic“, gefolgt von „Dragon Naturally Speaking“[1]."
Die Studie spricht von 7000 SpeechMagic-Installationen weltweit im Medizinsektor. Wenn ich als (eher kleiner) Dragon-Händler meine eigenen Installationen in Arztpraxen und Krankenhäusern als Basis nehme und mit der Anzahl der auf diesem Gebiet weltweit tätigen Nuance-Partner multipliziere, dann komme ich auf weit mehr als 7000 Dragon-Installationen. Bei meiner Rechnung werden nur die sogenannten Certified Partner von Nuance berücksichtigt, nicht aber andere Vertriebskanäle, über die Ärzte und Krankenhäuser auch die Dragon-Software beziehen können. Geggo 14:11, 24. Nov. 2006 (CET)
Toter Weblink
[Quelltext bearbeiten]Bei mehreren automatisierten Botläufen wurde der folgende Weblink als nicht verfügbar erkannt. Bitte überprüfe, ob der Link tatsächlich down ist, und korrigiere oder entferne ihn in diesem Fall!
- http://www.speechrecognition.philips.com/%7Ctitel=Phillips
- In Spracherkennung on Thu Nov 9 14:11:19 2006, 404 Not Found
- In Spracherkennung on Mon Nov 27 17:22:24 2006, 404 Not Found
kein Wunder, ist auch kein gültiger Weblink, http://www.speechrecognition.philips.com/ gibt es aber schon
Weitere Spracherkennungssoftware für Windows
[Quelltext bearbeiten]- Vocon der Firma Nuance
--Zwobot 17:22, 27. Nov. 2006 (CET)
Literatur
[Quelltext bearbeiten]Habe mich gerade mit dem Thema beschäftigt und ein gutes Buch gefunden, das sich nicht nur mit der Technik der Spracherkennung beschäftigt, sondern auch eine Art "Entwicklungskonzept" bietet und das schon dabei beginnt wie man entscheiden kann ob eine Sprachsteuerung überhaupt sinnvoll ist. Fessler M., Sprachgesteuerte Anwendungen. Grundlagen und Entwicklungskonzept, ISBN 3836402513
Rechtschreibung
[Quelltext bearbeiten]Könnte man die Kommasetzung mal ein bisschen überarbeiten? "insbesondere Computern, ..." -- Amarin 09:16, 20.12.2007 (nicht signierter Beitrag von 141.2.19.70 (Diskussion) )
- Erledigt --chrislb disk 10:24, 20. Dez. 2007 (CET)
Geschichte
[Quelltext bearbeiten]bei der geschichte sollte auch Raymond Kurzweil erwähnt werden.. (Der vorstehende, nicht signierte Beitrag – siehe dazu Hilfe:Signatur – stammt von 84.149.195.57 (Diskussion • Beiträge) 22:46, 11. Jul. 2008)
Tabelle der Software und Hersteller entfernen
[Quelltext bearbeiten]Ich schlage vor, die momentan im Artikel enthaltene Tabelle ersatzlos zu löschen. Die Aufzählung der Weblinks widerspricht grundlegenden Prinzipien von WP:WEB und WP:WWNI (Wikipedia ist kein Verzeichnis). Abgesehen von diesen Richtlinien stört mich, dass ich als Laie beim Lesen der Liste keinerlei Erkenntniss über das Thema „Spracherkennung“ gewinnen kann, außer dass sich offenbar mehr als ein Hersteller damit beschäftigt. Ein als normaler Text geschriebener allgemeiner Überblick über den Markt wäre deutlich nutzbringender. Die Produktnamen sollten auf einige bedeutsame Beispiele reduziert werden (ältestes System, am meisten verbreitet, erstes Open-Source-Projekt zum Thema oder ähnlich). --TM 00:00, 10. Sep. 2008 (CEST)
unterstützte Sprachen
[Quelltext bearbeiten]Hallo! Mich würde einmal interessieren, welche Sprachen den alle heutzutage schon von Spracherkennungssoftwares unterstützt werden. Gibt es eine solche Übersicht? --ALE! ¿…? 17:26, 19. Jan. 2011 (CET)
- Das erfordert im Wesentlichen einen Blick auf die Seiten der Firma Nuance, bei der inzwischen fast alle "Programmierkompetenz in Sachen Spracherkennung" versammelt ist, vgl. http://www.nuance.com/. Danach: englisch (verschiedene), deutsch, niederländisch, französisch, spanisch, italienisch, japanisch. Alle nicht-englischen Nuance-Pakete erkennen auch die englische Sprache. Dafür muss aber von der Bedieneroberfläche her mehr als ein "Benutzer" angelegt werden. Dieser "Benutzer" muss beim Programmstart ausgewählt werden. Dem auf diese Weise jeweils gewählten Benutzer ist immer nur eine einzige Sprache fest zugeordnet. Ein Wechsel zwischen Sprachen innerhalb desselben Erfassungsflusses ist deshalb unmöglich. Spracherkennungsprogramme dürfen deshalb nicht mit akustisch benutzbarer Übersetzersoftware verwechselt werden. --84.142.149.231 00:13, 25. Jan. 2011 (CET)
Aspekte der Sicherheit bzw. ausspionieren
[Quelltext bearbeiten]Hallo, ich habe gehört, dass die Technik der Spracherkennung so ihre Nachteile haben soll. Systeme mit Spracherkennung (z.B. „smarte“ Fernsehgeräte, Spracherkennung bei Google auf Smartphones) können Nutzer ausspionieren.
Beispiel für eine kritische Webseite: „Egal ob es sich dabei um eine Sicherheitslücke, einen Design-Fehler oder um etwas ganz anderes handelt: Smartphone-Nutzer sollten sich der Möglichkeit zur Spracherkennung bewusst sein und wissen, wie man sie nutzt, ohne ungewollt persönliche oder geschäftliche Daten preiszugeben. - Sicherheitslücke oder Design-Fehler: Chrome ermöglicht unerlaubtes Lauschen“; nachzulesen unter: [4]
Eine englischsprachige Webseite: „Watch hackers hijack WhatsApp and Telegram accounts using known telecom flaw“; nachzulesen unter: [5]
Wieso gibt es keinen Abschnitt „Kritik“?
Mit freundlichen Grüßen
--2003:F1:13C1:4C37:4C49:6161:A627:91A2 00:24, 5. Apr. 2018 (CEST)
Update der Geschichte
[Quelltext bearbeiten]Man sollte ergänzen, dass die Firma Nuance mittlerweile von Microsoft übernommen wurde. Nuance hat im Medizin-Sektor aktuell Dragon Medical One anzubieten; Speechmagic ist, so weit ich weiß, abgekündigt. So wie auch Dragon Medical Workflow-Edition (DMWE) von Nuance. Dann gibt es im Medizinsektor noch die Spracherkennung Indicda von DFC Systems und MModal Fluency Direct von Solventum, vormals 3M. --hg6996 (Diskussion) 14:30, 4. Jun. 2024 (CEST)